跳到内容

常见问题

先决条件和系统要求

在 Intel® Gaudi® 上运行 vLLM 的系统要求是什么?

  • Ubuntu 22.04 LTS 操作系统。
  • Python 3.10。
  • Intel Gaudi 2 或 Intel Gaudi 3 AI 加速器。
  • Intel Gaudi 软件版本 1.22.2 及以上版本。

什么是 vLLM 插件,我在哪里可以找到它的 GitHub 存储库?

Intel 开发并维护自己的 vLLM 插件项目,名为 vLLM Intel® Gaudi® 硬件插件,位于 GitHub 的 vLLM-gaudi 存储库中。

如何验证 Intel® Gaudi® 软件已正确安装?

  1. 运行 hl-smi 以检查 Intel® Gaudi® 加速器是否可见。有关更多详细信息,请参阅 系统验证和最终测试

  2. 运行 apt list --installed | grep habana 以验证已安装的软件包。输出应与以下示例类似

    $ apt list --installed | grep habana
    habanalabs-container-runtime
    habanalabs-dkms
    habanalabs-firmware-tools
    habanalabs-graph
    habanalabs-qual
    habanalabs-rdma-core
    habanalabs-thunk
    habanalabs-tools
    
  3. 通过运行 pip list | grep habanapip list | grep neural 来检查已安装的 Python 软件包。输出应与此示例类似

    $ pip list | grep habana
    habana_gpu_migration              1.19.0.561
    habana-media-loader               1.19.0.561
    habana-pyhlml                     1.19.0.561
    habana-torch-dataloader           1.19.0.561
    habana-torch-plugin               1.19.0.561
    lightning-habana                  1.6.0
    Pillow-SIMD                       9.5.0.post20+habana
    $ pip list | grep neural
    neural_compressor_pt              3.2
    

如何使用 Docker 快速设置 vLLM 环境?

使用 GitHub .cd 目录中提供的 Dockerfile.ubuntu.pytorch.vllm 文件来构建和运行一个包含最新 Intel® Gaudi® 软件发布的容器。

有关更多详细信息,请参阅 使用 Dockerfile 快速入门

构建和安装 vLLM

如何在 Intel Gaudi 上安装 vLLM?

有两种不同的安装方法

示例和模型支持

哪些模型和配置已在 Intel® Gaudi® 2 和 Intel® Gaudi® 3 设备上进行了验证?

已验证模型列表可在 已验证模型文档中找到。该列表包括以下模型:

  • Llama 2、Llama 3 和 Llama 3.1(7B、8B 和 70B 版本)。请参阅 Llama-3.1 jupyter notebook 示例。

  • Mistral 和 Mixtral 模型。

  • 不同的张量并行配置,例如单 HPU、2x 和 8x HPU。

功能支持

vLLM 在 Intel® Gaudi® 上支持哪些主要功能?

支持的功能列表可在 支持的功能文档中找到。它包括以下功能:

  • 离线批处理推理

  • 兼容 OpenAI 的服务器

  • 为 Intel® Gaudi® 设备优化的分页 KV 缓存

  • 投机解码(实验性)

  • 张量并行推理

  • FP8 模型和使用 Intel® Neural Compressor (INC) 进行 KV 缓存量化和校准。有关更多详细信息,请参阅 Intel® Neural Compressor 量化和推理指南。

性能调优

该插件支持哪些执行模式?

  • PyTorch Eager 模式(默认)

  • torch.compile(默认)

  • HPU 图(推荐以获得最佳性能)

  • PyTorch Lazy 模式

vLLM Intel® Gaudi® 硬件插件中的分桶机制是如何工作的?

分桶机制通过对张量形状进行分组来优化性能。这减少了所需的图的数量,并最大限度地减少了服务器运行时中的编译次数。分桶由批量大小和序列长度的参数决定。有关更多信息,请参阅 分桶机制

如果请求超过最大分桶大小,我应该怎么做?

考虑使用环境变量增加上限分桶边界,以避免由于图编译可能导致的延迟增加。