BentoML¶

BentoML 允许您部署一个以 vLLM 作为后端的 LLM（大型语言模型）服务器，该服务器公开了与 OpenAI 兼容的端点。您可以在本地提供模型服务，或者将其容器化为符合 OCI 标准的镜像并部署到 Kubernetes 上。

欲了解详情，请参阅 BentoML 文档中的教程vLLM 推理。