欢迎来到 production-stack!#
vLLM 的 K8S 原生集群级部署。
vLLM Production Stack 项目提供了一个参考实现,展示了如何在 vLLM 之上构建推理堆栈,使您能够
🚀 无需更改任何应用程序代码,即可从单个 vLLM 实例扩展到分布式 vLLM 部署
💻 通过 Web 仪表板监控指标
😄 享受请求路由和 KV 缓存卸载带来的性能优势
📈 轻松将堆栈部署在 AWS、GCP 或任何其他云提供商上
vLLM 的 K8S 原生集群级部署。
vLLM Production Stack 项目提供了一个参考实现,展示了如何在 vLLM 之上构建推理堆栈,使您能够
🚀 无需更改任何应用程序代码,即可从单个 vLLM 实例扩展到分布式 vLLM 部署
💻 通过 Web 仪表板监控指标
😄 享受请求路由和 KV 缓存卸载带来的性能优势
📈 轻松将堆栈部署在 AWS、GCP 或任何其他云提供商上