跳到内容

vLLM 硬件插件（Intel® Gaudi®）

简介

量化与推理¶

量化通过牺牲模型精度来减小内存占用，使得大型模型可以在更广泛的设备上运行。Intel® Gaudi® 后端支持以下量化后端：