NVIDIA Triton¶
Triton 推理服务器 (Triton Inference Server) 提供了一个教程,演示如何使用 vLLM 快速部署一个简单的 facebook/opt-125m 模型。更多详情请参阅 在 Triton 中部署 vLLM 模型。
Triton 推理服务器 (Triton Inference Server) 提供了一个教程,演示如何使用 vLLM 快速部署一个简单的 facebook/opt-125m 模型。更多详情请参阅 在 Triton 中部署 vLLM 模型。