跳到主要内容
Ctrl+K

您正在查看最新的开发者预览文档。点击此处查看最新稳定版本的文档。

vLLM - Home vLLM - Home

入门指南

  • 安装
    • GPU
    • CPU
    • 其他 AI 加速器
  • 快速入门
  • 示例
    • 离线推理
      • 音频语言
      • 基础
      • 与工具聊天
      • CPU 卸载 LMCache
      • 数据并行
      • 解耦预填充
      • 解耦预填充 LMCache
      • 分布式
      • Eagle
      • 嵌入 Jina Embeddings V3
      • 编码器解码器
      • 编码器解码器多模态
      • LLM 引擎示例
      • 加载分片状态
      • LoRA 与量化推理
      • Mistral-Small
      • MLPSpeculator
      • MultiLoRA 推理
      • Neuron
      • Neuron INT8 量化
      • 使用 OpenAI 批量文件格式进行离线推理
      • 前缀缓存
      • Prithvi 地理空间 MAE
      • 性能分析
      • vLLM TPU 性能分析
      • 可重现性
      • RLHF
      • RLHF 同位
      • RLHF 工具
      • 保存分片状态
      • 简单性能分析
      • 结构化输出
      • Torchrun 示例
      • TPU
      • 视觉语言
      • 视觉语言嵌入
      • 视觉语言多图像
    • 在线服务
      • API 客户端
      • Helm Charts
      • Cohere Rerank 客户端
      • 解耦预填充
      • Gradio OpenAI 聊天机器人 Web 服务器
      • Gradio Web 服务器
      • Jinaai Rerank 客户端
      • 多节点服务
      • OpenAI 聊天完成客户端
      • OpenAI 多模态聊天完成客户端
      • OpenAI 带工具的聊天完成客户端
      • OpenAI 带所需工具的聊天完成客户端
      • OpenAI 结构化输出聊天完成
      • OpenAI 带推理的结构化输出聊天完成
      • OpenAI 带推理的工具调用聊天完成
      • OpenAI 带推理的聊天完成
      • OpenAI 带推理的流式聊天完成
      • OpenAI 多模态聊天嵌入客户端
      • OpenAI 完成客户端
      • OpenAI 交叉编码器评分
      • OpenAI 嵌入客户端
      • OpenAI 池化客户端
      • OpenAI 转录客户端
      • 设置 OpenTelemetry POC
      • Prometheus 和 Grafana
      • 运行集群
      • Sagemaker-Entrypoint
    • 其他
      • 日志配置
      • 张量化 vLLM 模型
  • 问题排查
  • 常见问题解答
  • vLLM V1 用户指南

模型

  • 支持的模型
  • 生成模型
  • 池化模型
  • 内置扩展
    • 使用 Run:ai Model Streamer 加载模型
    • 使用 CoreWeave 的 Tensorizer 加载模型
    • 使用 fastsafetensors 加载模型权重

特性

  • 量化
    • 支持的硬件
    • AutoAWQ
    • BitsAndBytes
    • GGUF
    • GPTQModel
    • INT4 W4A16
    • INT8 W8A8
    • FP8 W8A8
    • AMD QUARK
    • 量化 KV 缓存
    • TorchAO
  • LoRA 适配器
  • 工具调用
  • 推理输出
  • 结构化输出
  • 自动前缀缓存
  • 解耦预填充 (实验性)
  • 推测解码
  • 兼容性矩阵

训练

  • Transformers 强化学习
  • 基于人类反馈的强化学习

推理和服务

  • 离线推理
  • OpenAI 兼容服务器
  • 多模态输入
  • 分布式推理和服务
  • 生产指标
  • 引擎参数
  • 环境变量
  • 使用情况统计收集
  • 外部集成
    • LangChain
    • LlamaIndex

部署

  • 使用 Docker
  • 使用 Kubernetes
  • 使用 Nginx
  • 使用其他框架
    • BentoML
    • Cerebrium
    • dstack
    • Helm
    • LWS
    • Modal
    • SkyPilot
    • NVIDIA Triton
  • 外部集成
    • KServe
    • KubeAI
    • Llama Stack
    • llmaz
    • 生产堆栈

性能

  • 优化和调优
  • 基准测试套件

设计文档

  • 架构概述
  • 与 HuggingFace 集成
  • vLLM 的插件系统
  • vLLM 分页注意力
  • 多模态数据处理
  • 自动前缀缓存
  • Python 多进程

V1 设计文档

  • vLLM 的 torch.compile 集成
  • 自动前缀缓存
  • 指标

开发者指南

  • 为 vLLM 做贡献
  • vLLM 性能分析
  • Dockerfile
  • 添加新模型
    • 实现基本模型
    • 向 vLLM 注册模型
    • 编写单元测试
    • 多模态支持
  • 漏洞管理

API 参考

  • 离线推理
    • LLM 类
    • LLM 输入
  • vLLM 引擎
    • LLMEngine
    • AsyncLLMEngine
  • 推理参数
  • 多模态
    • 输入定义
    • 数据解析
    • 数据处理
    • 内存性能分析
    • 注册表
  • 模型开发
    • 基本模型接口
    • 可选接口
    • 模型适配器

社区

  • vLLM 博客
  • vLLM 聚会
  • 赞助商
  • 仓库
  • 建议编辑
  • .md

内置扩展

内置扩展#

  • 使用 Run:ai Model Streamer 加载模型
  • 使用 CoreWeave 的 Tensorizer 加载模型
  • 使用 fastsafetensors 加载模型权重

上一页

池化模型

下一页

使用 Run:ai Model Streamer 加载模型

由 vLLM 团队提供

© 版权所有 2025, vLLM 团队。