跳到主要内容
返回顶部
Ctrl
+
K
您正在查看最新的开发者预览文档。
点击这里
查看最新稳定版本的文档。
入门指南
安装
GPU
CPU
其他 AI 加速器
快速开始
示例
离线推理
音频语言
基础
与工具聊天
数据并行
解耦预填充
分布式
编码器-解码器
Florence2 推理
LLM 引擎示例
LoRA 量化推理
MLPSpeculator
MultiLoRA 推理
Neuron
Neuron INT8 量化
使用 OpenAI 批量文件格式进行离线推理
Pixtral
前缀缓存
Prithvi 地理空间 Mae
性能分析
vLLM TPU 性能分析
Rlhf
Rlhf Colocate
保存分片状态
简单性能分析
结构化输出
Torchrun 示例
TPU
视觉语言
视觉语言嵌入
视觉语言多图像
Whisper
在线服务
API 客户端
Helm Charts
Cohere Rerank 客户端
解耦预填充
Gradio OpenAI 聊天机器人 Webserver
Gradio Webserver
Jinaai Rerank 客户端
多节点服务
OpenAI 聊天完成客户端
OpenAI 多模态聊天完成客户端
带有工具的 OpenAI 聊天完成客户端
OpenAI 聊天完成结构化输出
OpenAI 聊天完成推理
OpenAI 聊天完成推理流式传输
OpenAI 多模态聊天嵌入客户端
OpenAI 完成客户端
OpenAI 交叉编码器评分
OpenAI 嵌入客户端
OpenAI 池化客户端
OpenAI 转录客户端
设置 OpenTelemetry POC
Prometheus 和 Grafana
运行集群
Sagemaker-Entrypoint
其他
日志配置
张量化 vLLM 模型
故障排除
常见问题解答
模型
生成模型
池化模型
支持模型列表
内置扩展
使用 Run:ai Model Streamer 加载模型
使用 CoreWeave 的 Tensorizer 加载模型
特性
量化
支持的硬件
AutoAWQ
BitsAndBytes
GGUF
INT4 W4A16
INT8 W8A8
FP8 W8A8
量化 KV 缓存
LoRA 适配器
工具调用
推理输出
结构化输出
自动前缀缓存
解耦预填充 (实验性)
推测解码
兼容性矩阵
推理和服务
离线推理
OpenAI 兼容服务器
多模态输入
分布式推理和服务
生产指标
引擎参数
环境变量
使用情况统计收集
外部集成
LangChain
LlamaIndex
部署
使用 Docker
使用 Kubernetes
使用 Nginx
使用其他框架
BentoML
Cerebrium
dstack
Helm
LWS
Modal
SkyPilot
NVIDIA Triton
外部集成
KServe
KubeAI
Llama Stack
llmaz
性能
优化和调优
基准测试套件
设计文档
架构概述
与 HuggingFace 集成
vLLM 的插件系统
vLLM 分页注意力
多模态数据处理
自动前缀缓存
Python 多进程处理
V1 设计文档
自动前缀缓存
开发者指南
为 vLLM 做贡献
vLLM 性能分析
Dockerfile
添加新模型
实现基本模型
将模型注册到 vLLM
编写单元测试
多模态支持
漏洞管理
API 参考
离线推理
LLM 类
LLM 输入
vLLM 引擎
LLMEngine
AsyncLLMEngine
推理参数
多模态
输入定义
数据解析
数据处理
内存性能分析
注册表
模型开发
基本模型接口
可选接口
模型适配器
社区
vLLM 博客
vLLM 聚会
赞助商
仓库
建议编辑
.md
.pdf
使用其他框架
使用其他框架
#
BentoML
Cerebrium
dstack
Helm
LWS
Modal
SkyPilot
NVIDIA Triton