跳到内容

BentoML

BentoML 允许您使用 vLLM 作为后端部署大型语言模型 (LLM) 服务器,该服务器公开与 OpenAI 兼容的端点。您可以将模型本地服务化,或者将其容器化为符合 OCI 标准的镜像并在 Kubernetes 上部署。

有关详细信息,请参阅 BentoML 文档中的教程 vLLM 推理