欢迎来到 production-stack!

欢迎来到 production-stack!#

production-stack

vLLM 的 K8S 原生集群级部署。

Star Watch Fork

vLLM Production Stack 项目提供了一个参考实现,展示了如何在 vLLM 之上构建推理堆栈,使您能够

  • 🚀 无需更改任何应用程序代码,即可从单个 vLLM 实例扩展到分布式 vLLM 部署

  • 💻 通过 Web 仪表板监控指标

  • 😄 享受请求路由和 KV 缓存卸载带来的性能优势

  • 📈 轻松将堆栈部署在 AWS、GCP 或任何其他云提供商上

文档#

用例