BitBLAS¶
vLLM 现已支持 BitBLAS 以实现更高效、更灵活的模型推理。与其他量化框架相比,BitBLAS 提供了更多的精度组合。
注意
请确保您的硬件支持所选的 dtype
(torch.bfloat16
或 torch.float16
)。大多数最新的 NVIDIA GPU 支持 float16
,而 bfloat16
在 Ampere 或 Hopper 等较新架构上更常见。详情请参阅支持的硬件。
以下是与 vLLM 结合使用 BitBLAS 的步骤。
vLLM 读取模型的配置文件,并支持预量化检查点。
您可以在以下位置找到预量化模型:
通常,这些存储库包含一个 quantize_config.json
文件,其中包含 quantization_config
部分。
读取 BitBLAS 格式检查点¶
from vllm import LLM
import torch
# "hxbgsyxh/llama-13b-4bit-g-1-bitblas" is a pre-quantized checkpoint.
model_id = "hxbgsyxh/llama-13b-4bit-g-1-bitblas"
llm = LLM(
model=model_id,
dtype=torch.bfloat16,
trust_remote_code=True,
quantization="bitblas"
)