跳到内容

llm-d

vLLM 可以通过 llm-d 进行部署,这是一个 Kubernetes 原生的分布式推理服务栈,为用户提供了一条便捷的路径,以便在大规模环境下部署大型生成式 AI 模型。它有助于在大多数硬件加速器和基础设施提供商上,针对主流开源(OSS)模型实现最快的“达到顶尖(SOTA)性能”的时间。

您可以按照此指南直接将 vLLM 与 llm-d 一起使用,或者通过 KServe 的 LLMInferenceService 进行使用。