跳到内容

vLLM Intel® Gaudi® 硬件插件快速入门指南

vLLM Intel® Gaudi® 硬件插件提供即用型容器镜像,将 vLLM 与 Intel® Gaudi® 软件打包在一起。这使得通过预构建的 Docker 镜像和 Docker Compose,能够快速简便地启动 vLLM Intel® Gaudi® 硬件插件,并支持自定义运行时参数和基准测试。

本指南将介绍在 Ubuntu 上运行 vLLM Intel® Gaudi® 硬件插件的最简方法。它包括模型基准测试、运行时自定义以及选择经过验证的模型(如 LLaMA、Mistral 和 Qwen)等功能。可以通过环境变量或 YAML 配置文件进行高级配置。

如果您希望从源代码或使用自定义 Dockerfile 构建 vLLM Intel® Gaudi® 硬件插件,请参阅 安装 指南。

要求

在开始之前,请确保您的环境满足以下要求:

  • Ubuntu 22.04 或 24.04
  • Python 3.10
  • Intel® Gaudi® 2 或 3 AI 加速器
  • Intel® Gaudi® 软件版本 1.22.2 或更高版本

此外,请确保 Intel® Gaudi® 执行环境已正确设置。如果尚未设置,请按照 安装指南 中的说明完成设置。

使用 Docker Compose 运行 vLLM Intel® Gaudi® 硬件插件

请按照以下步骤在 Gaudi 上使用 Docker Compose 运行 vLLM 服务器或启动基准测试。

  1. 克隆 vLLM 插件存储库以获取所需文件和 Docker Compose 配置。

    git clone https://github.com/vllm-project/vllm-gaudi.git
    
  2. 导航到相应目录。

    cd vllm-gaudi/.cd/
    
  3. 选择以下变量的首选值。

    可变 描述
    MODEL 首选的大型语言模型。有关可用模型列表,请参见下表。
    HF_TOKEN https://hugging-face.cn 生成的 Hugging Face 令牌。
    DOCKER_IMAGE vLLM Gaudi 容器的 Docker 镜像名称或 URL。使用 Gaudi 存储库时,请确保选择文件名中带有 *vllm-plugin* 前缀的 Docker 镜像。

    下表列出了支持的 vLLM 模型:

    模型名称 已验证的 TP 大小
    deepseek-ai/DeepSeek-R1-Distill-Llama-70B 8
    meta-llama/Llama-3.1-70B-Instruct 4
    meta-llama/Llama-3.1-405B-Instruct 8
    meta-llama/Llama-3.1-8B-Instruct 1
    meta-llama/Llama-3.3-70B-Instruct 4
    mistralai/Mistral-7B-Instruct-v0.2 1
    mistralai/Mixtral-8x7B-Instruct-v0.1 2
    mistralai/Mixtral-8x22B-Instruct-v0.1 4
    Qwen/Qwen2.5-7B-Instruct 1
    Qwen/Qwen2.5-VL-7B-Instruct 1
    Qwen/Qwen2.5-14B-Instruct 1
    Qwen/Qwen2.5-32B-Instruct 1
    Qwen/Qwen2.5-72B-Instruct 4
    ibm-granite/granite-8b-code-instruct-4k 1
    ibm-granite/granite-20b-code-instruct-8k 1
  4. 使用以下示例作为参考,设置所选的环境变量。

    MODEL="Qwen/Qwen2.5-14B-Instruct" \
    HF_TOKEN="<your huggingface token>" \
    DOCKER_IMAGE="vault.habana.ai/gaudi-docker/1.22.2/ubuntu24.04/habanalabs/vllm-plugin-2.7.1:latest"
    
  5. 使用 Docker Compose 运行 vLLM 服务器。

    docker compose up
    

    要使用默认设置自动运行所选模型的基准测试,请添加 --profile benchmark up 选项。

    docker compose --profile benchmark up
    

完成此步骤后,vLLM 服务器将运行,并且相关的基准测试套件将自动启动。您可以选择使用 高级配置选项 来调整设置以满足您的特定需求。对于大多数用户来说,基本设置已足够,但高级用户可能会从额外的自定义中受益。

设置并运行 vLLM Intel® Gaudi® 硬件插件后,您可以开始执行推理以生成模型输出。有关详细说明,请参阅 执行推理 指南。

为了在 HPU 上获得最佳性能,请遵循 优化训练平台指南 中概述的方法。