常见问题解答

FAQ#

vLLM Production Stack 的常见问题解答。

安装与设置#

待更新

部署与配置#

问：如何更新到 vLLM Production Stack 的新版本？#

使用新版本更新您的 values.yaml 文件并进行升级。

helm upgrade my-vllm-stack vllm/vllm-stack -f values.yaml

问：如何扩展我的部署？#

您可以通过多种方式进行扩展：

水平扩展：在您的 values 中增加 replicaCount。
垂直扩展：为每个副本分配更多 GPU。
自动扩展：使用 KEDA 自动扩展进行自动扩展。

问：Router 和 vLLM 实例之间有什么区别？#

答：

Router：处理请求路由、负载均衡以及 KV cache 管理等高级功能。
vLLM 实例：运行实际的模型推理。
Router 将请求分发到多个 vLLM 实例，以提高性能和可用性。

性能与优化#

问：如何提高推理性能？#

有几种优化策略可供选择：

KV Cache 优化：请参阅 KV Cache 感知路由。
Prefix 缓存：请参阅 Prefix 感知路由。
解耦 Prefill：请参阅解耦 Prefill。
多 GPU 利用：将负载分配到多个 GPU。

问：什么是 KV cache，它为什么重要？#

KV (Key-Value) cache 存储了先前 token 计算出的注意力键和值，从而可以更快地生成后续 token。正确的 KV cache 管理可显著提高以下场景的性能：

长对话
相似的提示
批量处理

问：如何监控性能？#

使用内置的监控功能：

Prometheus 指标：内置指标收集。
分布式追踪：请参阅分布式追踪。
基准测试工具：请参阅基准测试。

故障排除#

问：Pods 卡在 Pending 状态#

请检查：

kubectl describe pod <pod-name> -n vllm-system

常见原因：* GPU 资源不足 * Node 选择器/亲和性问题 * 资源配额超限 * 镜像拉取失败

问：在哪里可以获得帮助？#

答：

GitHub Issues：报告 bug 和功能请求。
社区会议：请参阅社区会议。
文档：查阅本教程的其他部分。
vLLM 社区：加入更广泛的 vLLM 社区讨论。

问：如何贡献？#

请参阅贡献指南。

问：有路线图吗？#

请查看 GitHub 仓库获取最新的路线图和功能计划。