`fp8` 权重、激活和 KV 缓存量化

llmcompressor 现在支持将权重、激活和 KV 缓存量化为 fp8，以使用 vllm 实现内存节省和推理加速。

fp8 计算支持计算能力 > 8.9 的 NVIDIA GPU（Ada Lovelace, Hopper）。

安装

要开始使用，请从源代码安装 llmcompressor，因为此功能是新推出的

pip install git+https://github.com/vllm-project/llm-compressor.git@cb98f34d4ec9dd175e6995d12fb02dec39c6f27a

快速入门

该示例包含一个用于应用量化算法的端到端脚本

python3 llama3_fp8_kv_example.py

生成的模型 Meta-Llama-3-8B-Instruct-FP8-KV 即可加载到 vLLM 中。

代码演练

让我们来回顾一下量化过程的主要步骤

加载模型
准备校准数据
应用量化
评估并保存模型

1. 加载模型

使用 AutoModelForCausalLM 加载模型

from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_ID = "meta-llama/Meta-Llama-3-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(MODEL_ID, torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)

2. 准备校准数据

使用 ultrachat 数据集准备校准数据

from datasets import load_dataset

DATASET_ID = "HuggingFaceH4/ultrachat_200k"
DATASET_SPLIT = "train_sft"
NUM_CALIBRATION_SAMPLES = 512
MAX_SEQUENCE_LENGTH = 2048

ds = load_dataset(DATASET_ID, split=f"{DATASET_SPLIT}[:{NUM_CALIBRATION_SAMPLES}]")
ds = ds.shuffle(seed=42)

def process_and_tokenize(example):
    text = tokenizer.apply_chat_template(example["messages"], tokenize=False)
    return tokenizer(text, padding=False, max_length=MAX_SEQUENCE_LENGTH, truncation=True, add_special_tokens=False)

ds = ds.map(process_and_tokenize, remove_columns=ds.column_names)

3. 应用量化

配置并应用 FP8 量化到权重、激活和 KV 缓存。请注意新的 kv_cache_scheme 部分

from llmcompressor import oneshot

recipe = """
quant_stage:
    quant_modifiers:
        QuantizationModifier:
            ignore: ["lm_head"]
            config_groups:
                group_0:
                    weights:
                        num_bits: 8
                        type: float
                        strategy: tensor
                        dynamic: false
                        symmetric: true
                    input_activations:
                        num_bits: 8
                        type: float
                        strategy: tensor
                        dynamic: false
                        symmetric: true
                    targets: ["Linear"]
            kv_cache_scheme:
                num_bits: 8
                type: float
                strategy: tensor
                dynamic: false
                symmetric: true
"""

oneshot(
    model=model,
    dataset=ds,
    recipe=recipe,
    max_seq_length=MAX_SEQUENCE_LENGTH,
    num_calibration_samples=NUM_CALIBRATION_SAMPLES,
)

4. 评估并保存模型

使用示例生成测试量化模型

input_ids = tokenizer("Hello my name is", return_tensors="pt").input_ids.to(model.device)
output = model.generate(input_ids, max_new_tokens=100)
print(tokenizer.decode(output[0]))

保存量化模型

SAVE_DIR = MODEL_ID.rstrip("/").split("/")[-1] + "-FP8-KV"
model.save_pretrained(SAVE_DIR, save_compressed=True)
tokenizer.save_pretrained(SAVE_DIR)

要在 vLLM 中运行模型，请确保指定 kv_cache_dtype="fp8" 参数以启用 kv 缓存的量化，从而使用您的校准尺度。

评估准确性

要评估您量化模型的准确性

安装 vllm 和 lm-evaluation-harness

pip install "vllm>=0.5.5" lm_eval==0.4.3

运行评估（例如，在 GSM-8K 上）

MODEL=$PWD/Meta-Llama-3-8B-Instruct-FP8-KV
lm_eval \
  --model vllm \
  --model_args pretrained=$MODEL,kv_cache_dtype=fp8,add_bos_token=True \
  --tasks gsm8k --num_fewshot 5 --batch_size auto

vllm (pretrained=Meta-Llama-3-8B-Instruct-FP8-KV,kv_cache_dtype=fp8,add_bos_token=True), gen_kwargs: (None), limit: None, num_fewshot: 5, batch_size: auto
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     5|exact_match|↑  |0.7748|±  |0.0115|
|     |       |strict-match    |     5|exact_match|↑  |0.7763|±  |0.0115|

注意：包含 add_bos_token=True，因为量化模型可能对 bos 标记的存在敏感。

有问题或功能请求？

请在 vllm-project/llm-compressor 上打开一个 issue。

fp8 权重、激活和 KV 缓存量化

安装