跳到主要内容

Ctrl+K

您正在查看最新的开发者预览文档。点击此处查看最新稳定版本的文档。

入门指南

安装
快速入门
示例
问题排查
常见问题解答
vLLM V1 用户指南

模型

支持的模型
生成模型
池化模型
内置扩展

特性

量化
- 支持的硬件
- AutoAWQ
- BitsAndBytes
- GGUF
- GPTQModel
- INT4 W4A16
- INT8 W8A8
- FP8 W8A8
- AMD QUARK
- 量化 KV 缓存
- TorchAO
LoRA 适配器
工具调用
推理输出
结构化输出
自动前缀缓存
解耦预填充 (实验性)
推测解码
兼容性矩阵

训练

Transformers 强化学习
基于人类反馈的强化学习

推理和服务

离线推理
OpenAI 兼容服务器
多模态输入
分布式推理和服务
生产指标
引擎参数
环境变量
使用情况统计收集
外部集成
- LangChain
- LlamaIndex

部署

使用 Docker
使用 Kubernetes
使用 Nginx
使用其他框架
- BentoML
- Cerebrium
- dstack
- Helm
- LWS
- Modal
- SkyPilot
- NVIDIA Triton
外部集成
- KServe
- KubeAI
- Llama Stack
- llmaz
- 生产堆栈

性能

优化和调优
基准测试套件

设计文档

架构概述
与 HuggingFace 集成
vLLM 的插件系统
vLLM 分页注意力
多模态数据处理
自动前缀缓存
Python 多进程

V1 设计文档

vLLM 的 torch.compile 集成
自动前缀缓存
指标

开发者指南

为 vLLM 做贡献
vLLM 性能分析
Dockerfile
添加新模型
漏洞管理

API 参考

离线推理
- LLM 类
- LLM 输入
vLLM 引擎
- LLMEngine
- AsyncLLMEngine
推理参数
多模态
模型开发

社区

vLLM 博客
vLLM 聚会
赞助商

仓库
建议编辑

.md

内置扩展

内置扩展#

使用 Run:ai Model Streamer 加载模型
使用 CoreWeave 的 Tensorizer 加载模型
使用 fastsafetensors 加载模型权重

上一页

池化模型

下一页

使用 Run:ai Model Streamer 加载模型

由 vLLM 团队提供

© 版权所有 2025, vLLM 团队。