跳到主要内容
返回顶部
Ctrl
+
K
您正在查看最新的开发者预览文档。
点击这里
查看最新稳定版本的文档。
开始使用
安装
GPU
CPU
其他 AI 加速器
快速入门
示例
离线推理
音频语言
基础
与工具聊天
数据并行
解耦预填充
分布式
编码器-解码器
Florence2 推理
LLM 引擎示例
LoRA 量化推理
MLPSpeculator
MultiLoRA 推理
Neuron
Neuron INT8 量化
使用 OpenAI 批量文件格式的离线推理
Pixtral
前缀缓存
Prithvi 地理空间 Mae
性能分析
vLLM TPU 性能分析
Rlhf
Rlhf 共址
保存分片状态
简单性能分析
结构化输出
Torchrun 示例
TPU
视觉语言
视觉语言嵌入
视觉语言多图像
Whisper
在线服务
API 客户端
Helm Charts
Cohere Rerank 客户端
解耦预填充
Gradio OpenAI 聊天机器人 Web 服务器
Gradio Web 服务器
Jinaai Rerank 客户端
多节点服务
OpenAI 聊天完成客户端
OpenAI 多模态聊天完成客户端
OpenAI 带工具的聊天完成客户端
OpenAI 结构化输出聊天完成
OpenAI 带推理的聊天完成
OpenAI 带推理流式传输的聊天完成
OpenAI 多模态聊天嵌入客户端
OpenAI 完成客户端
OpenAI 交叉编码器评分
OpenAI 嵌入客户端
OpenAI 池化客户端
OpenAI 转录客户端
设置 OpenTelemetry POC
Prometheus 和 Grafana
运行集群
Sagemaker-Entrypoint
其他
日志配置
张量化 vLLM 模型
问题排查
常见问题
模型
生成模型
池化模型
支持的模型列表
内置扩展
使用 Run:ai Model Streamer 加载模型
使用 CoreWeave’s Tensorizer 加载模型
特性
量化
支持的硬件
AutoAWQ
BitsAndBytes
GGUF
INT4 W4A16
INT8 W8A8
FP8 W8A8
量化 KV 缓存
LoRA 适配器
工具调用
推理输出
结构化输出
自动前缀缓存
解耦预填充(实验性)
推测解码
兼容性矩阵
推理和服务
离线推理
OpenAI 兼容服务器
多模态输入
分布式推理和服务
生产指标
引擎参数
环境变量
使用情况统计收集
外部集成
LangChain
LlamaIndex
部署
使用 Docker
使用 Kubernetes
使用 Nginx
使用其他框架
BentoML
Cerebrium
dstack
Helm
LWS
Modal
SkyPilot
NVIDIA Triton
外部集成
KServe
KubeAI
Llama Stack
llmaz
性能
优化和调优
基准测试套件
设计文档
架构概览
与 HuggingFace 集成
vLLM 插件系统
vLLM 分页注意力
多模态数据处理
自动前缀缓存
Python 多进程处理
V1 设计文档
自动前缀缓存
开发者指南
为 vLLM 做贡献
vLLM 性能分析
Dockerfile
添加新模型
实现基本模型
向 vLLM 注册模型
编写单元测试
多模态支持
漏洞管理
API 参考
离线推理
LLM 类
LLM 输入
vLLM 引擎
LLMEngine
AsyncLLMEngine
推理参数
多模态
输入定义
数据解析
数据处理
内存性能分析
注册表
模型开发
基础模型接口
可选接口
模型适配器
社区
vLLM 博客
vLLM 聚会
赞助商
仓库
建议编辑
.md
.pdf
外部集成
外部集成
#
KServe
KubeAI
Llama Stack
llmaz