vLLM Intel® Gaudi® 硬件插件快速入门指南¶
vLLM Intel® Gaudi® 硬件插件提供即用型容器镜像,将 vLLM 与 Intel® Gaudi® 软件打包在一起。这使得通过预构建的 Docker 镜像和 Docker Compose,能够快速简便地启动 vLLM Intel® Gaudi® 硬件插件,并支持自定义运行时参数和基准测试。
本指南将介绍在 Ubuntu 上运行 vLLM Intel® Gaudi® 硬件插件的最简方法。它包括模型基准测试、运行时自定义以及选择经过验证的模型(如 LLaMA、Mistral 和 Qwen)等功能。可以通过环境变量或 YAML 配置文件进行高级配置。
如果您希望从源代码或使用自定义 Dockerfile 构建 vLLM Intel® Gaudi® 硬件插件,请参阅 安装 指南。
要求¶
在开始之前,请确保您的环境满足以下要求:
- Ubuntu 22.04 或 24.04
- Python 3.10
- Intel® Gaudi® 2 或 3 AI 加速器
- Intel® Gaudi® 软件版本 1.22.2 或更高版本
此外,请确保 Intel® Gaudi® 执行环境已正确设置。如果尚未设置,请按照 安装指南 中的说明完成设置。
使用 Docker Compose 运行 vLLM Intel® Gaudi® 硬件插件¶
请按照以下步骤在 Gaudi 上使用 Docker Compose 运行 vLLM 服务器或启动基准测试。
-
克隆 vLLM 插件存储库以获取所需文件和 Docker Compose 配置。
-
导航到相应目录。
-
选择以下变量的首选值。
可变 描述 MODEL首选的大型语言模型。有关可用模型列表,请参见下表。 HF_TOKEN从 https://hugging-face.cn 生成的 Hugging Face 令牌。 DOCKER_IMAGEvLLM Gaudi 容器的 Docker 镜像名称或 URL。使用 Gaudi 存储库时,请确保选择文件名中带有 *vllm-plugin* 前缀的 Docker 镜像。 下表列出了支持的 vLLM 模型:
模型名称 已验证的 TP 大小 deepseek-ai/DeepSeek-R1-Distill-Llama-70B 8 meta-llama/Llama-3.1-70B-Instruct 4 meta-llama/Llama-3.1-405B-Instruct 8 meta-llama/Llama-3.1-8B-Instruct 1 meta-llama/Llama-3.3-70B-Instruct 4 mistralai/Mistral-7B-Instruct-v0.2 1 mistralai/Mixtral-8x7B-Instruct-v0.1 2 mistralai/Mixtral-8x22B-Instruct-v0.1 4 Qwen/Qwen2.5-7B-Instruct 1 Qwen/Qwen2.5-VL-7B-Instruct 1 Qwen/Qwen2.5-14B-Instruct 1 Qwen/Qwen2.5-32B-Instruct 1 Qwen/Qwen2.5-72B-Instruct 4 ibm-granite/granite-8b-code-instruct-4k 1 ibm-granite/granite-20b-code-instruct-8k 1 -
使用以下示例作为参考,设置所选的环境变量。
-
使用 Docker Compose 运行 vLLM 服务器。
要使用默认设置自动运行所选模型的基准测试,请添加
--profile benchmark up选项。
完成此步骤后,vLLM 服务器将运行,并且相关的基准测试套件将自动启动。您可以选择使用 高级配置选项 来调整设置以满足您的特定需求。对于大多数用户来说,基本设置已足够,但高级用户可能会从额外的自定义中受益。
设置并运行 vLLM Intel® Gaudi® 硬件插件后,您可以开始执行推理以生成模型输出。有关详细说明,请参阅 执行推理 指南。
为了在 HPU 上获得最佳性能,请遵循 优化训练平台指南 中概述的方法。