vLLM Intel® Gaudi® 硬件插件快速入门指南¶

vLLM Intel® Gaudi® 硬件插件提供即用型容器镜像，将 vLLM 与 Intel® Gaudi® 软件打包在一起。这使得通过预构建的 Docker 镜像和 Docker Compose，能够快速简便地启动 vLLM Intel® Gaudi® 硬件插件，并支持自定义运行时参数和基准测试。

本指南将介绍在 Ubuntu 上运行 vLLM Intel® Gaudi® 硬件插件的最简方法。它包括模型基准测试、运行时自定义以及选择经过验证的模型（如 LLaMA、Mistral 和 Qwen）等功能。可以通过环境变量或 YAML 配置文件进行高级配置。

如果您希望从源代码或使用自定义 Dockerfile 构建 vLLM Intel® Gaudi® 硬件插件，请参阅安装指南。

要求¶

在开始之前，请确保您的环境满足以下要求：

Ubuntu 22.04 或 24.04
Python 3.10
Intel® Gaudi® 2 或 3 AI 加速器
Intel® Gaudi® 软件版本 1.22.2 或更高版本

此外，请确保 Intel® Gaudi® 执行环境已正确设置。如果尚未设置，请按照安装指南中的说明完成设置。

使用 Docker Compose 运行 vLLM Intel® Gaudi® 硬件插件¶

请按照以下步骤在 Gaudi 上使用 Docker Compose 运行 vLLM 服务器或启动基准测试。

克隆 vLLM 插件存储库以获取所需文件和 Docker Compose 配置。
```
git clone https://github.com/vllm-project/vllm-gaudi.git
```
导航到相应目录。
```
cd vllm-gaudi/.cd/
```

选择以下变量的首选值。

可变	描述
`MODEL`	首选的大型语言模型。有关可用模型列表，请参见下表。
`HF_TOKEN`	从 https://hugging-face.cn 生成的 Hugging Face 令牌。
`DOCKER_IMAGE`	vLLM Gaudi 容器的 Docker 镜像名称或 URL。使用 Gaudi 存储库时，请确保选择文件名中带有 vllm-plugin 前缀的 Docker 镜像。

下表列出了支持的 vLLM 模型：

模型名称	已验证的 TP 大小
deepseek-ai/DeepSeek-R1-Distill-Llama-70B	8
meta-llama/Llama-3.1-70B-Instruct	4
meta-llama/Llama-3.1-405B-Instruct	8
meta-llama/Llama-3.1-8B-Instruct	1
meta-llama/Llama-3.3-70B-Instruct	4
mistralai/Mistral-7B-Instruct-v0.2	1
mistralai/Mixtral-8x7B-Instruct-v0.1	2
mistralai/Mixtral-8x22B-Instruct-v0.1	4
Qwen/Qwen2.5-7B-Instruct	1
Qwen/Qwen2.5-VL-7B-Instruct	1
Qwen/Qwen2.5-14B-Instruct	1
Qwen/Qwen2.5-32B-Instruct	1
Qwen/Qwen2.5-72B-Instruct	4
ibm-granite/granite-8b-code-instruct-4k	1
ibm-granite/granite-20b-code-instruct-8k	1

使用以下示例作为参考，设置所选的环境变量。

MODEL="Qwen/Qwen2.5-14B-Instruct" \
HF_TOKEN="<your huggingface token>" \
DOCKER_IMAGE="vault.habana.ai/gaudi-docker/1.22.2/ubuntu24.04/habanalabs/vllm-plugin-2.7.1:latest"

使用 Docker Compose 运行 vLLM 服务器。
```
docker compose up
```
要使用默认设置自动运行所选模型的基准测试，请添加 --profile benchmark up 选项。
```
docker compose --profile benchmark up
```

完成此步骤后，vLLM 服务器将运行，并且相关的基准测试套件将自动启动。您可以选择使用高级配置选项来调整设置以满足您的特定需求。对于大多数用户来说，基本设置已足够，但高级用户可能会从额外的自定义中受益。

设置并运行 vLLM Intel® Gaudi® 硬件插件后，您可以开始执行推理以生成模型输出。有关详细说明，请参阅执行推理指南。

为了在 HPU 上获得最佳性能，请遵循优化训练平台指南中概述的方法。