BitBLAS¶

vLLM 现在支持 BitBLAS，以实现更高效、更灵活的模型推理。与其他量化框架相比，BitBLAS 提供了更多的精度组合。

注意

请确保您的硬件支持所选的 dtype（torch.bfloat16 或 torch.float16）。大多数较新的 NVIDIA GPU 都支持 float16，而 bfloat16 在 Ampere 或 Hopper 等较新架构上更常见。有关详细信息，请参阅支持的硬件。

以下是使用 vLLM 的 BitBLAS 的步骤。

pip install bitblas>=0.1.0

vLLM 会读取模型的配置文件，并支持预量化检查点。

您可以在以下位置找到预量化模型：

通常，这些存储库会有一个 quantize_config.json 文件，其中包含一个 quantization_config 部分。

读取 bitblas 格式的检查点¶

from vllm import LLM
import torch

# "hxbgsyxh/llama-13b-4bit-g-1-bitblas" is a pre-quantized checkpoint.
model_id = "hxbgsyxh/llama-13b-4bit-g-1-bitblas"
llm = LLM(
    model=model_id,
    dtype=torch.bfloat16,
    trust_remote_code=True,
    quantization="bitblas",
)

读取 gptq 格式的检查点¶

代码

from vllm import LLM
import torch

# "hxbgsyxh/llama-13b-4bit-g-1" is a pre-quantized checkpoint.
model_id = "hxbgsyxh/llama-13b-4bit-g-1"
llm = LLM(
    model=model_id,
    dtype=torch.float16,
    trust_remote_code=True,
    quantization="bitblas",
    max_model_len=1024,
)