关于 LLM Compressor

LLM Compressor 是一个易于使用的库，用于优化大型语言模型以部署 vLLM，可实现高达 5 倍更快速、更经济的推理。它提供了一个全面的工具包，用于

LLM Compressor

LLM Compressor Flow

请参阅 LLM Compressor v0.8.0 发行说明了解新增功能的详情。亮点包括

支持一次性压缩运行中的多个修饰符

LLM Compressor 现在支持在一次性压缩运行中使用多个修饰符，例如在单个模型中同时应用 AWQ 和 GPTQ。

使用多个修饰符是 LLM Compressor 的高级用法，也是一个活跃的研究领域。有关更多详细信息和示例用法，请参阅非均匀量化。

Qwen3 模型量化和校准支持

LLM Compressor 已添加对 Qwen3 Next 模型的量化和校准支持。

LLM Compressor 现在支持 Qwen3 Next 和 Qwen3 VL MoE 模型的量化。您现在可以使用无数据路径，例如 FP8 通道和块量化。需要数据的路径（如 W4A16 和 NVFP4）计划在未来版本中添加。

已为 Qwen3-Next-80B-A3B-Instruct 模型添加了 NVFP4 和 FP8 量化的示例。

对于 Qwen3 VL MoE 模型，已添加对无数据路径的支持。无数据路径应用 FP8 量化，例如通道和块量化。

注意：这些模型不支持 tranformers<=4.56.2。您可能需要从源代码安装 transformers。

支持非全尺寸旋转大小的变换

您现在可以在基于变换的修饰符类 SpinQuantModifier 和 QuIPModifier 中设置 transform_block_size 字段。您可以使用此字段配置可变大小的变换，而无需将 Hadamard 限制为与权重大小匹配。

QuIP 和 SpinQuant 风格的变换

新添加的 QuIPModifier 和 SpinQuantModifier 变换允许您在将 Hadamard 权重注入计算图后量化模型，从而减少量化误差并极大地提高低比特权重和激活量化的精度恢复。

DeepSeekV3 风格的块量化支持

允许更有效地压缩大型语言模型，而无需校准数据集。将 Qwen3 模型量化为 W8A8。

FP4 量化 - 现已支持 MoE 和非均匀

将权重和激活量化到 FP4，并在 vLLM 中无缝运行压缩模型。模型权重和激活遵循 NVFP4 配置进行量化。请参阅 FP4 激活支持、MoE 支持和非均匀量化支持的示例，其中某些层被选择性地量化到 FP8 以获得更好的恢复。您还可以混合其他量化方案，例如 INT8 和 INT4。

Llama4 量化支持

将 Llama4 模型量化为 W4A16 或 NVFP4。生成的检查点可以在 vLLM 中无缝运行。

有关更多信息，请查看 GitHub 上的最新发布。

权重和激活量化：使用最新研究成果，减少模型大小并提高通用和服务器端应用的推理性能。
- 支持的算法：GPTQ、AWQ、SmoothQuant、RTN
- 支持的格式：INT W8A8、FP W8A8
仅权重量化：使用最新研究成果，减少模型大小并提高延迟敏感应用的推理性能。
- 支持的算法：GPTQ、AWQ、RTN
- 支持的格式：INT W4A16、INT W8A16
权重剪枝：使用最新研究成果，减少模型大小并提高所有用例的推理性能。
- 支持的算法：SparseGPT、Magnitude、Sparse Finetuning
- 支持的格式：2:4（半结构化）、非结构化