FAQ#
vLLM Production Stack 的常见问题解答。
安装与设置#
待更新
部署与配置#
问:如何更新到 vLLM Production Stack 的新版本?#
使用新版本更新您的 values.yaml 文件并进行升级。
helm upgrade my-vllm-stack vllm/vllm-stack -f values.yaml
问:如何扩展我的部署?#
您可以通过多种方式进行扩展:
水平扩展:在您的 values 中增加
replicaCount。垂直扩展:为每个副本分配更多 GPU。
自动扩展:使用 KEDA 自动扩展 进行自动扩展。
问:Router 和 vLLM 实例之间有什么区别?#
答:
Router:处理请求路由、负载均衡以及 KV cache 管理等高级功能。
vLLM 实例:运行实际的模型推理。
Router 将请求分发到多个 vLLM 实例,以提高性能和可用性。
性能与优化#
问:如何提高推理性能?#
有几种优化策略可供选择:
KV Cache 优化:请参阅 KV Cache 感知路由。
Prefix 缓存:请参阅 Prefix 感知路由。
解耦 Prefill:请参阅 解耦 Prefill。
多 GPU 利用:将负载分配到多个 GPU。
问:什么是 KV cache,它为什么重要?#
KV (Key-Value) cache 存储了先前 token 计算出的注意力键和值,从而可以更快地生成后续 token。正确的 KV cache 管理可显著提高以下场景的性能:
长对话
相似的提示
批量处理
问:如何监控性能?#
使用内置的监控功能:
故障排除#
问:Pods 卡在 Pending 状态#
请检查:
kubectl describe pod <pod-name> -n vllm-system
常见原因:* GPU 资源不足 * Node 选择器/亲和性问题 * 资源配额超限 * 镜像拉取失败
问:在哪里可以获得帮助?#
答:
GitHub Issues:报告 bug 和功能请求。
社区会议:请参阅 社区会议。
文档:查阅本教程的其他部分。
vLLM 社区:加入更广泛的 vLLM 社区讨论。
问:如何贡献?#
请参阅 贡献指南。
问:有路线图吗?#
请查看 GitHub 仓库获取最新的路线图和功能计划。