FP8 W8A8¶
vLLM 支持使用 Nvidia H100 和 AMD MI300x 等 GPU 上的硬件加速进行 FP8(8 位浮点)权重和激活量化。目前,W8A8 仅官方支持 Hopper 和 Ada Lovelace GPU。Ampere GPU 支持利用 Marlin 核的 W8A16(仅权重 FP8)。使用 FP8 量化模型可将模型内存需求减少 2 倍,并将吞吐量提高高达 1.6 倍,同时对精度影响极小。
请访问 HF 集合,获取可直接与 vLLM 一起使用的流行 LLM 的 FP8 量化检查点。
硬件中通常支持的 FP8 类型有两种不同的表示形式,每种在不同场景下都很有用
- E4M3:由 1 个符号位、4 个指数位和 3 个尾数位组成。它可以存储高达 +/-448 的值和
nan
。 - E5M2:由 1 个符号位、5 个指数位和 2 个尾数位组成。它可以存储高达 +/-57344 的值、+/-
inf
和nan
。增加动态范围的代价是存储值的精度降低。
注意
NVIDIA GPU 上支持计算能力 > 8.9 (Ada Lovelace, Hopper) 的 FP8 计算。FP8 模型将在计算能力 > 8.0 (Ampere) 的 GPU 上以仅权重 W8A16 模式运行,利用 FP8 Marlin。
安装¶
为了使用 vLLM 生成高性能的 FP8 量化模型,您需要安装 llm-compressor 库
量化过程¶
量化过程涉及三个主要步骤
- 加载模型
- 应用量化
- 在 vLLM 中评估精度
1. 加载模型¶
使用标准的 transformers
AutoModel 类加载您的模型和分词器
from transformers import AutoTokenizer, AutoModelForCausalLM
MODEL_ID = "meta-llama/Meta-Llama-3-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID, device_map="auto", torch_dtype="auto",
)
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
2. 应用量化¶
对于 FP8 量化,我们可以通过简单的 RTN 量化来恢复精度。我们建议使用 FP8_DYNAMIC
方案针对所有 Linear
层,该方案使用
- 权重的静态、每通道量化
- 激活的动态、每令牌量化
由于简单的 RTN 不需要数据进行权重S量化,并且激活是动态量化的,因此此量化流程不需要任何校准数据。
代码
from llmcompressor.transformers import oneshot
from llmcompressor.modifiers.quantization import QuantizationModifier
# Configure the simple PTQ quantization
recipe = QuantizationModifier(
targets="Linear", scheme="FP8_DYNAMIC", ignore=["lm_head"])
# Apply the quantization algorithm.
oneshot(model=model, recipe=recipe)
# Save the model: Meta-Llama-3-8B-Instruct-FP8-Dynamic
SAVE_DIR = MODEL_ID.split("/")[1] + "-FP8-Dynamic"
model.save_pretrained(SAVE_DIR)
tokenizer.save_pretrained(SAVE_DIR)
3. 评估精度¶
安装 vllm
和 lm-evaluation-harness
进行评估
在 vllm
中加载并运行模型
from vllm import LLM
llm = LLM("./Meta-Llama-3-8B-Instruct-FP8-Dynamic")
result = llm.generate("Hello my name is")
print(result[0].outputs[0].text)
使用 lm_eval
评估精度(例如,对 250 个 gsm8k
样本)
注意
量化模型可能对 bos
令牌的存在敏感。 lm_eval
默认不添加 bos
令牌,因此请确保在运行评估时包含 add_bos_token=True
参数。
MODEL=$PWD/Meta-Llama-3-8B-Instruct-FP8-Dynamic
lm_eval \
--model vllm \
--model_args pretrained=$MODEL,add_bos_token=True \
--tasks gsm8k --num_fewshot 5 --batch_size auto --limit 250
以下是结果分数的示例
|Tasks|Version| Filter |n-shot| Metric | |Value| |Stderr|
|-----|------:|----------------|-----:|-----------|---|----:|---|-----:|
|gsm8k| 3|flexible-extract| 5|exact_match|↑ |0.768|± |0.0268|
| | |strict-match | 5|exact_match|↑ |0.768|± |0.0268|
故障排除和支持¶
如果您遇到任何问题或有功能请求,请在 vllm-project/llm-compressor GitHub 仓库上提出问题。
在线动态量化¶
使用 vLLM 可以实现将原始精度 BF16/FP16 模型动态量化为 FP8,而无需任何校准数据。您可以通过在命令行中指定 --quantization="fp8"
或在 LLM 构造函数中设置 quantization="fp8"
来启用此功能。
在此模式下,所有 Linear 模块(除了最终的 lm_head
)的权重都会以每张量(per-tensor)尺度量化到 FP8_E4M3 精度。激活值在每次前向传播期间计算其最小值和最大值,以提供动态的每张量尺度,从而实现高精度。因此,在此模式下,延迟改进是有限的。
from vllm import LLM
llm = LLM("facebook/opt-125m", quantization="fp8")
# INFO 06-10 17:55:42 model_runner.py:157] Loading model weights took 0.1550 GB
result = llm.generate("Hello, my name is")
print(result[0].outputs[0].text)
警告
目前,我们以原始精度加载模型,然后才量化为 8 位,因此您需要足够的内存来加载整个模型。