KServe¶
vLLM 可以部署在 Kubernetes 上的 KServe 中,以实现高可扩展的分布式模型服务。
你可以将 vLLM 与 KServe 的 Hugging Face 服务运行时配合使用,也可以通过使用 llm-d 的 LLMInferenceService 来使用。
vLLM 可以部署在 Kubernetes 上的 KServe 中,以实现高可扩展的分布式模型服务。
你可以将 vLLM 与 KServe 的 Hugging Face 服务运行时配合使用,也可以通过使用 llm-d 的 LLMInferenceService 来使用。