BentoML
BentoML 允许您使用vLLM作为后端部署大型语言模型(LLM)服务器,该服务器暴露OpenAI兼容的端点。您可以在本地提供模型服务,或将其容器化为OCI兼容镜像并部署到Kubernetes上。
有关详细信息,请参阅 BentoML文档中的vLLM推理 教程。
BentoML 允许您使用vLLM作为后端部署大型语言模型(LLM)服务器,该服务器暴露OpenAI兼容的端点。您可以在本地提供模型服务,或将其容器化为OCI兼容镜像并部署到Kubernetes上。
有关详细信息,请参阅 BentoML文档中的vLLM推理 教程。