vLLM
KServe
正在初始化搜索
GitHub
v0.9.1
50.2k
8.2k
主页
用户指南
开发者指南
API 参考
CLI 参考
社区
vLLM
GitHub
v0.9.1
50.2k
8.2k
主页
用户指南
用户指南
用户指南
vLLM V1
通用
通用
常见问题解答
生产指标
可重现性
安全性
故障排除
使用统计数据收集
推理与服务
推理与服务
离线推理
OpenAI 兼容服务器
分布式推理与服务
集成
部署
部署
使用 Docker
使用 Kubernetes
使用 Nginx
框架
集成
集成
KServe
KubeAI
Llama Stack
llmaz
生产堆栈
训练
训练
基于人类反馈的强化学习
Transformer 强化学习
配置
配置
概述
节省内存
引擎参数
环境变量
模型解析
优化与调优
服务器参数
模型
模型
支持的模型
生成模型
Pooling 模型
扩展
特性
特性
兼容性矩阵
自动前缀缓存
解耦的预填充 (实验性)
LoRA 适配器
多模态输入
Prompt Embedding 输入
推理输出
推测解码
结构化输出
工具调用
量化
开发者指南
API 参考
CLI 参考
社区
KServe
vLLM 可以与
KServe
一起部署在 Kubernetes 上,实现高度可扩展的分布式模型服务。
有关将 vLLM 与 KServe 结合使用的更多详细信息,请参阅
此指南
。
回到顶部