跳到内容

关于 LLM Compressor

LLM Compressor 是一个易于使用的库,用于优化大型语言模型以部署 vLLM,可实现高达 5 倍更快速、更经济的推理。它提供了一个全面的工具包,用于

  • 应用各种压缩算法,包括权重和激活量化、剪枝等
  • 无缝集成 Hugging Face Transformers、Models 和 Datasets
  • 使用基于 safetensors 的文件格式存储压缩模型,该格式与 vLLM 兼容
  • 通过 accelerate 支持高性能大模型压缩

LLM Compressor Logo LLM Compressor

LLM Compressor Flow

本次发布新增

请参阅 LLM Compressor v0.8.0 发行说明了解新增功能的详情。亮点包括

支持一次性压缩运行中的多个修饰符

LLM Compressor 现在支持在一次性压缩运行中使用多个修饰符,例如在单个模型中同时应用 AWQ 和 GPTQ。

使用多个修饰符是 LLM Compressor 的高级用法,也是一个活跃的研究领域。有关更多详细信息和示例用法,请参阅 非均匀量化

Qwen3 模型量化和校准支持

LLM Compressor 已添加对 Qwen3 Next 模型的量化和校准支持。

LLM Compressor 现在支持 Qwen3 Next 和 Qwen3 VL MoE 模型的量化。您现在可以使用无数据路径,例如 FP8 通道和块量化。需要数据的路径(如 W4A16 和 NVFP4)计划在未来版本中添加。

已为 Qwen3-Next-80B-A3B-Instruct 模型添加了 NVFP4 和 FP8 量化的示例。

对于 Qwen3 VL MoE 模型,已添加对无数据路径的支持。无数据路径应用 FP8 量化,例如通道和块量化。

注意:这些模型不支持 tranformers<=4.56.2。您可能需要从源代码安装 transformers。

支持非全尺寸旋转大小的变换

您现在可以在基于变换的修饰符类 SpinQuantModifierQuIPModifier 中设置 transform_block_size 字段。您可以使用此字段配置可变大小的变换,而无需将 Hadamard 限制为与权重大小匹配。

近期更新

QuIP 和 SpinQuant 风格的变换

新添加的 QuIPModifierSpinQuantModifier 变换允许您在将 Hadamard 权重注入计算图后量化模型,从而减少量化误差并极大地提高低比特权重和激活量化的精度恢复。

DeepSeekV3 风格的块量化支持

允许更有效地压缩大型语言模型,而无需校准数据集。将 Qwen3 模型量化为 W8A8

FP4 量化 - 现已支持 MoE 和非均匀

将权重和激活量化到 FP4,并在 vLLM 中无缝运行压缩模型。模型权重和激活遵循 NVFP4 配置 进行量化。请参阅 FP4 激活支持MoE 支持非均匀量化支持 的示例,其中某些层被选择性地量化到 FP8 以获得更好的恢复。您还可以混合其他量化方案,例如 INT8 和 INT4。

Llama4 量化支持

将 Llama4 模型量化为 W4A16NVFP4。生成的检查点可以在 vLLM 中无缝运行。

有关更多信息,请查看 GitHub 上的 最新发布

主要特性

  • 权重和激活量化:使用最新研究成果,减少模型大小并提高通用和服务器端应用的推理性能。
    • 支持的算法:GPTQ、AWQ、SmoothQuant、RTN
    • 支持的格式:INT W8A8、FP W8A8
  • 仅权重量化:使用最新研究成果,减少模型大小并提高延迟敏感应用的推理性能。
    • 支持的算法:GPTQ、AWQ、RTN
    • 支持的格式:INT W4A16、INT W8A16
  • 权重剪枝:使用最新研究成果,减少模型大小并提高所有用例的推理性能。
    • 支持的算法:SparseGPT、Magnitude、Sparse Finetuning
    • 支持的格式:2:4(半结构化)、非结构化

关键章节

  • 入门


    安装 LLM Compressor 并学习如何应用您的第一个优化配方。

    入门

  • 指南


    涵盖压缩方案、算法和高级用法模式的详细指南。

    指南

  • 示例


    不同压缩技术和模型类型的分步示例。

    示例

  • 开发者资源


    为贡献者和扩展 LLM Compressor 的开发者提供信息。

    开发者资源