LLM Compressor¶
LLM Compressor 是一个用于优化模型以适配 vLLM 部署的库。它提供了一套全面的量化算法,包括对 FP4、FP8、INT8 和 INT4 量化等技术的支持。
为什么使用 LLM Compressor?¶
现代大型语言模型(LLM)通常包含数十亿个以 16 位或 32 位浮点数存储的参数,这需要大量的 GPU 显存,从而限制了部署方案。量化通过将模型权重和激活值的精度降低为更小的数据类型,在保持推理输出质量的同时降低了显存需求。
LLM Compressor 提供以下优势
- 降低显存占用:在更小的 GPU 上运行更大的模型。
- 降低推理成本:在每个 GPU 上服务更多的并发用户,直接降低生产部署中每次查询的成本。
- 更快的推理速度:更小的数据类型意味着更低的内存带宽消耗,这通常转化为更高的吞吐量,尤其对于受限于内存带宽的工作负载。
LLM Compressor 处理了量化、校准和格式转换的复杂性,生成的模型可直接用于 vLLM。
主要特性¶
- 多种量化算法:支持 AWQ、GPTQ、AutoRound 和 Round-to-Nearest(舍入到最接近值)。还包括对 QuIP 和 SpinQuant 风格变换以及 KV 缓存和注意力机制量化的支持。
- 多种量化方法:支持 FP8、INT8、INT4、NVFP4、MXFP4 和混合精度量化。
- 一次性量化(One-Shot Quantization):使用最少的校准数据快速量化模型。
- vLLM 集成:使用 compressed-tensors 格式,通过 vLLM 无缝部署量化模型。
- Hugging Face 兼容性:可处理来自 Hugging Face Hub 的模型。