量化与推理¶ 量化通过牺牲模型精度来减小内存占用,使得大型模型可以在更广泛的设备上运行。Intel® Gaudi® 后端支持以下量化后端: Intel® Neural Compressor Auto_Awq Gptqmodel