欢迎来到 production-stack!#
vLLM 的 K8S 原生集群级部署。
vLLM Production Stack 项目提供了关于如何在 vLLM 之上构建推理堆栈的参考实现,它允许您
🚀 从单个 vLLM 实例扩展到分布式 vLLM 部署,而无需更改任何应用程序代码
💻 通过 Web 仪表板监控指标
😄 享受请求路由和 KV 缓存卸载带来的性能优势
📈 轻松在 AWS、GCP 或任何其他云提供商上部署堆栈
vLLM 的 K8S 原生集群级部署。
vLLM Production Stack 项目提供了关于如何在 vLLM 之上构建推理堆栈的参考实现,它允许您
🚀 从单个 vLLM 实例扩展到分布式 vLLM 部署,而无需更改任何应用程序代码
💻 通过 Web 仪表板监控指标
😄 享受请求路由和 KV 缓存卸载带来的性能优势
📈 轻松在 AWS、GCP 或任何其他云提供商上部署堆栈