BentoML# BentoML 允许您部署一个以 vLLM 为后端的、兼容 OpenAI 端点的大型语言模型 (LLM) 服务器。您可以本地服务模型,或者将其容器化为符合 OCI 标准的镜像,并将其部署在 Kubernetes 上。 有关详细信息,请参阅 BentoML 文档中关于 vLLM 推理的教程。