关于 LLM Compressor
LLM Compressor 是一个易于使用的库,用于优化大型语言模型以部署 vLLM,可实现高达 5 倍更快速、更经济的推理。它提供了一个全面的工具包,用于
- 应用各种压缩算法,包括权重和激活量化、剪枝等
- 无缝集成 Hugging Face Transformers、Models 和 Datasets
- 使用基于
safetensors的文件格式存储压缩模型,该格式与vLLM兼容 - 通过
accelerate支持高性能大模型压缩
LLM Compressor
本次发布新增
请参阅 LLM Compressor v0.8.0 发行说明了解新增功能的详情。亮点包括
支持一次性压缩运行中的多个修饰符
LLM Compressor 现在支持在一次性压缩运行中使用多个修饰符,例如在单个模型中同时应用 AWQ 和 GPTQ。
使用多个修饰符是 LLM Compressor 的高级用法,也是一个活跃的研究领域。有关更多详细信息和示例用法,请参阅 非均匀量化。
Qwen3 模型量化和校准支持
LLM Compressor 已添加对 Qwen3 Next 模型的量化和校准支持。
LLM Compressor 现在支持 Qwen3 Next 和 Qwen3 VL MoE 模型的量化。您现在可以使用无数据路径,例如 FP8 通道和块量化。需要数据的路径(如 W4A16 和 NVFP4)计划在未来版本中添加。
已为 Qwen3-Next-80B-A3B-Instruct 模型添加了 NVFP4 和 FP8 量化的示例。
对于 Qwen3 VL MoE 模型,已添加对无数据路径的支持。无数据路径应用 FP8 量化,例如通道和块量化。
注意:这些模型不支持 tranformers<=4.56.2。您可能需要从源代码安装 transformers。
支持非全尺寸旋转大小的变换
您现在可以在基于变换的修饰符类 SpinQuantModifier 和 QuIPModifier 中设置 transform_block_size 字段。您可以使用此字段配置可变大小的变换,而无需将 Hadamard 限制为与权重大小匹配。
近期更新
QuIP 和 SpinQuant 风格的变换
新添加的 QuIPModifier 和 SpinQuantModifier 变换允许您在将 Hadamard 权重注入计算图后量化模型,从而减少量化误差并极大地提高低比特权重和激活量化的精度恢复。
DeepSeekV3 风格的块量化支持
允许更有效地压缩大型语言模型,而无需校准数据集。将 Qwen3 模型量化为 W8A8。
FP4 量化 - 现已支持 MoE 和非均匀
将权重和激活量化到 FP4,并在 vLLM 中无缝运行压缩模型。模型权重和激活遵循 NVFP4 配置 进行量化。请参阅 FP4 激活支持、MoE 支持 和 非均匀量化支持 的示例,其中某些层被选择性地量化到 FP8 以获得更好的恢复。您还可以混合其他量化方案,例如 INT8 和 INT4。
有关更多信息,请查看 GitHub 上的 最新发布。
主要特性
- 权重和激活量化:使用最新研究成果,减少模型大小并提高通用和服务器端应用的推理性能。
- 支持的算法:GPTQ、AWQ、SmoothQuant、RTN
- 支持的格式:INT W8A8、FP W8A8
- 仅权重量化:使用最新研究成果,减少模型大小并提高延迟敏感应用的推理性能。
- 支持的算法:GPTQ、AWQ、RTN
- 支持的格式:INT W4A16、INT W8A16
- 权重剪枝:使用最新研究成果,减少模型大小并提高所有用例的推理性能。
- 支持的算法:SparseGPT、Magnitude、Sparse Finetuning
- 支持的格式:2:4(半结构化)、非结构化