跳到内容

您正在查看最新的开发者预览版文档。点击此处查看最新稳定版的文档。

vLLM

量化

正在初始化搜索

主页
用户指南
开发者指南
API 参考
CLI 参考
社区

vLLM

主页
用户指南
用户指南
- 用户指南
- vLLM V1
- 通用
  通用
- 推理与服务
  推理与服务
- 部署
  部署
- 训练
  训练
  - 人类反馈强化学习
  - Transformer 强化学习
- 配置
  配置
- 模型
  模型
- 功能
  功能
  - 兼容性矩阵
  - 自动前缀缓存
  - 解耦预填充（实验性）
  - LoRA 适配器
  - 多模态输入
  - 提示词嵌入输入
  - 推理输出
  - 推测解码
  - 结构化输出
  - 工具调用
  - 量化
    量化
    
    量化
    
    AutoAWQ
    
    AutoRound
    
    BitBLAS
    
    BitsAndBytes
    
    FP8 W8A8
    
    GGUF
    
    GPTQModel
    
    FP8 INC
    
    INT4 W4A16
    
    INT8 W8A8
    
    NVIDIA TensorRT 模型优化器
    
    量化 KV 缓存
    
    AMD Quark
    
    支持的硬件
    
    TorchAO
开发者指南
API 参考
CLI 参考
社区

量化¶

量化以模型精度为代价，换取更小的内存占用，从而使大型模型能在更广泛的设备上运行。

目录

支持的硬件
AutoAWQ
AutoRound
BitsAndBytes
BitBLAS
GGUF
GPTQModel
INC
INT4 W4A16
INT8 W8A8
FP8 W8A8
NVIDIA TensorRT 模型优化器
AMD Quark
量化 KV 缓存
TorchAO

使用 Material for MkDocs 构建