FAQ#

vLLM Production Stack 的常见问题解答。

安装与设置#

待更新

部署与配置#

问:如何更新到 vLLM Production Stack 的新版本?#

使用新版本更新您的 values.yaml 文件并进行升级。

helm upgrade my-vllm-stack vllm/vllm-stack -f values.yaml

问:如何扩展我的部署?#

您可以通过多种方式进行扩展:

  • 水平扩展:在您的 values 中增加 replicaCount

  • 垂直扩展:为每个副本分配更多 GPU。

  • 自动扩展:使用 KEDA 自动扩展 进行自动扩展。

问:Router 和 vLLM 实例之间有什么区别?#

答:

  • Router:处理请求路由、负载均衡以及 KV cache 管理等高级功能。

  • vLLM 实例:运行实际的模型推理。

  • Router 将请求分发到多个 vLLM 实例,以提高性能和可用性。

性能与优化#

问:如何提高推理性能?#

有几种优化策略可供选择:

问:什么是 KV cache,它为什么重要?#

KV (Key-Value) cache 存储了先前 token 计算出的注意力键和值,从而可以更快地生成后续 token。正确的 KV cache 管理可显著提高以下场景的性能:

  • 长对话

  • 相似的提示

  • 批量处理

问:如何监控性能?#

使用内置的监控功能:

  • Prometheus 指标:内置指标收集。

  • 分布式追踪:请参阅 分布式追踪

  • 基准测试工具:请参阅 基准测试

故障排除#

问:Pods 卡在 Pending 状态#

请检查:

kubectl describe pod <pod-name> -n vllm-system

常见原因:* GPU 资源不足 * Node 选择器/亲和性问题 * 资源配额超限 * 镜像拉取失败

问:在哪里可以获得帮助?#

答:

  • GitHub Issues:报告 bug 和功能请求。

  • 社区会议:请参阅 社区会议

  • 文档:查阅本教程的其他部分。

  • vLLM 社区:加入更广泛的 vLLM 社区讨论。

问:如何贡献?#

请参阅 贡献指南

问:有路线图吗?#

请查看 GitHub 仓库获取最新的路线图和功能计划。