跳到内容
vLLM
摘要
正在初始化搜索
GitHub
主页
用户指南
开发者指南
API 参考
CLI 参考
社区
vLLM
GitHub
主页
用户指南
用户指南
用户指南
vLLM V1
通用
通用
常见问题
生产指标
可复现性
安全
故障排除
使用统计收集
推理与服务
推理与服务
离线推理
兼容 OpenAI 的服务器
数据并行部署
分布式推理与服务
专家并行部署
集成
部署
部署
使用 Docker
使用 Kubernetes
使用 Nginx
框架
集成
训练
训练
人类反馈强化学习
Transformer 强化学习
配置
配置
摘要
内存节约
引擎参数
环境变量
模型解析
优化与调优
服务器参数
模型
模型
支持的模型
生成模型
池化模型
扩展
硬件支持的模型
功能
功能
兼容性矩阵
自动前缀缓存
解耦预填充(实验性)
LoRA 适配器
多模态输入
提示词嵌入输入
推理输出
推测解码
结构化输出
工具调用
量化
开发者指南
API 参考
CLI 参考
社区
配置选项
¶
本节列出了运行 vLLM 最常用的选项。
共有三个主要的配置优先级级别,从高到低分别是:
请求参数
和
输入参数
引擎参数
环境变量
回到顶部