您正在查看最新的开发者预览文档。点击此处查看最新稳定版文档。

logo
vLLM
量化
正在初始化搜索
    GitHub
    • 主页
    • 用户指南
    • 开发者指南
    • API 参考
    • CLI 参考
    • 社区
    GitHub
    • 主页
      • 用户指南
      • vLLM V1
        • 常见问题
        • 生产指标
        • 可复现性
        • 安全性
        • 故障排除
        • 使用统计收集
        • 离线推理
        • OpenAI 兼容服务器
        • 分布式推理与服务
        • 集成
        • 使用 Docker
        • 使用 Kubernetes
        • 使用 Nginx
        • 框架
        • 集成
        • 基于人类反馈的强化学习
        • Transformer 强化学习
        • 摘要
        • 内存节省
        • 引擎参数
        • 环境变量
        • 模型解析
        • 优化与调优
        • 服务器参数
        • 支持的模型
        • 生成模型
        • 池化模型
        • 扩展
        • 兼容性矩阵
        • 自动前缀缓存
        • 解耦预填充(实验性)
        • LoRA 适配器
        • 多模态输入
        • Prompt Embedding 输入
        • 推理输出
        • 推测解码
        • 结构化输出
        • 工具调用
          • 量化
          • AutoAWQ
          • BitBLAS
          • BitsAndBytes
          • FP8 W8A8
          • GGUF
          • GPTQModel
          • INT4 W4A16
          • INT8 W8A8
          • NVIDIA TensorRT 模型优化器
          • 量化 KV 缓存
          • AMD QUARK
          • 支持的硬件
          • TorchAO
    • 开发者指南
    • API 参考
    • CLI 参考
    • 社区

    量化

    量化牺牲了模型精度,以换取更小的内存占用,从而使大型模型能够在更广泛的设备上运行。

    目录

    • 支持的硬件
    • Auto_Awq
    • Bnb
    • Bitblas
    • Gguf
    • Gptqmodel
    • Int4
    • Int8
    • Fp8
    • Modelopt
    • Quark
    • 量化_Kvcache
    • Torchao
    使用 Material for MkDocs 构建