欢迎来到 production-stack!

欢迎来到 production-stack!#

production-stack

vLLM 的 K8S 原生集群级部署。

Star Watch Fork

vLLM Production Stack 项目提供了关于如何在 vLLM 之上构建推理堆栈的参考实现,它允许您

  • 🚀 从单个 vLLM 实例扩展到分布式 vLLM 部署,而无需更改任何应用程序代码

  • 💻 通过 Web 仪表板监控指标

  • 😄 享受请求路由和 KV 缓存卸载带来的性能优势

  • 📈 轻松在 AWS、GCP 或任何其他云提供商上部署堆栈

文档#

用例