fp8 权重、激活和 KV 缓存量化
llmcompressor 现在支持将权重、激活和 KV 缓存量化为 fp8,以使用 vllm 实现内存节省和推理加速。
fp8计算支持计算能力 > 8.9 的 NVIDIA GPU(Ada Lovelace, Hopper)。
安装
要开始使用,请从源代码安装 llmcompressor,因为此功能是新推出的
pip install git+https://github.com/vllm-project/llm-compressor.git@cb98f34d4ec9dd175e6995d12fb02dec39c6f27a
快速入门
该示例包含一个用于应用量化算法的端到端脚本
生成的模型 Meta-Llama-3-8B-Instruct-FP8-KV 即可加载到 vLLM 中。
代码演练
让我们来回顾一下量化过程的主要步骤
- 加载模型
- 准备校准数据
- 应用量化
- 评估并保存模型
1. 加载模型
使用 AutoModelForCausalLM 加载模型
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_ID = "meta-llama/Meta-Llama-3-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(MODEL_ID, torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
2. 准备校准数据
使用 ultrachat 数据集准备校准数据
from datasets import load_dataset
DATASET_ID = "HuggingFaceH4/ultrachat_200k"
DATASET_SPLIT = "train_sft"
NUM_CALIBRATION_SAMPLES = 512
MAX_SEQUENCE_LENGTH = 2048
ds = load_dataset(DATASET_ID, split=f"{DATASET_SPLIT}[:{NUM_CALIBRATION_SAMPLES}]")
ds = ds.shuffle(seed=42)
def process_and_tokenize(example):
text = tokenizer.apply_chat_template(example["messages"], tokenize=False)
return tokenizer(text, padding=False, max_length=MAX_SEQUENCE_LENGTH, truncation=True, add_special_tokens=False)
ds = ds.map(process_and_tokenize, remove_columns=ds.column_names)
3. 应用量化
配置并应用 FP8 量化到权重、激活和 KV 缓存。请注意新的 kv_cache_scheme 部分
from llmcompressor import oneshot
recipe = """
quant_stage:
quant_modifiers:
QuantizationModifier:
ignore: ["lm_head"]
config_groups:
group_0:
weights:
num_bits: 8
type: float
strategy: tensor
dynamic: false
symmetric: true
input_activations:
num_bits: 8
type: float
strategy: tensor
dynamic: false
symmetric: true
targets: ["Linear"]
kv_cache_scheme:
num_bits: 8
type: float
strategy: tensor
dynamic: false
symmetric: true
"""
oneshot(
model=model,
dataset=ds,
recipe=recipe,
max_seq_length=MAX_SEQUENCE_LENGTH,
num_calibration_samples=NUM_CALIBRATION_SAMPLES,
)
4. 评估并保存模型
使用示例生成测试量化模型
input_ids = tokenizer("Hello my name is", return_tensors="pt").input_ids.to(model.device)
output = model.generate(input_ids, max_new_tokens=100)
print(tokenizer.decode(output[0]))
保存量化模型
SAVE_DIR = MODEL_ID.rstrip("/").split("/")[-1] + "-FP8-KV"
model.save_pretrained(SAVE_DIR, save_compressed=True)
tokenizer.save_pretrained(SAVE_DIR)
要在 vLLM 中运行模型,请确保指定 kv_cache_dtype="fp8" 参数以启用 kv 缓存的量化,从而使用您的校准尺度。
评估准确性
要评估您量化模型的准确性
- 安装
vllm和lm-evaluation-harness
- 运行评估(例如,在 GSM-8K 上)
MODEL=$PWD/Meta-Llama-3-8B-Instruct-FP8-KV
lm_eval \
--model vllm \
--model_args pretrained=$MODEL,kv_cache_dtype=fp8,add_bos_token=True \
--tasks gsm8k --num_fewshot 5 --batch_size auto
vllm (pretrained=Meta-Llama-3-8B-Instruct-FP8-KV,kv_cache_dtype=fp8,add_bos_token=True), gen_kwargs: (None), limit: None, num_fewshot: 5, batch_size: auto
|Tasks|Version| Filter |n-shot| Metric | |Value | |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k| 3|flexible-extract| 5|exact_match|↑ |0.7748|± |0.0115|
| | |strict-match | 5|exact_match|↑ |0.7763|± |0.0115|
注意:包含 add_bos_token=True,因为量化模型可能对 bos 标记的存在敏感。
有问题或功能请求?
请在 vllm-project/llm-compressor 上打开一个 issue。