BentoML

BentoML#

BentoML 允许您部署一个大型语言模型 (LLM) 服务器,以 vLLM 作为后端,它公开了与 OpenAI 兼容的端点。您可以在本地服务模型,或将其容器化为符合 OCI 标准的镜像,并将其部署在 Kubernetes 上。

有关详细信息,请参阅 BentoML 文档中的 vLLM 推理教程