常见问题

先决条件和系统要求¶

在 Intel® Gaudi® 上运行 vLLM 的系统要求是什么？¶

Ubuntu 22.04 LTS 操作系统。
Python 3.10。
Intel Gaudi 2 或 Intel Gaudi 3 AI 加速器。
Intel Gaudi 软件版本 1.22.2 及以上版本。

什么是 vLLM 插件，我在哪里可以找到它的 GitHub 存储库？¶

Intel 开发并维护自己的 vLLM 插件项目，名为 vLLM Intel® Gaudi® 硬件插件，位于 GitHub 的 vLLM-gaudi 存储库中。

如何验证 Intel® Gaudi® 软件已正确安装？¶

运行 hl-smi 以检查 Intel® Gaudi® 加速器是否可见。有关更多详细信息，请参阅系统验证和最终测试。

运行 apt list --installed | grep habana 以验证已安装的软件包。输出应与以下示例类似

$ apt list --installed | grep habana
habanalabs-container-runtime
habanalabs-dkms
habanalabs-firmware-tools
habanalabs-graph
habanalabs-qual
habanalabs-rdma-core
habanalabs-thunk
habanalabs-tools

通过运行 pip list | grep habana 和 pip list | grep neural 来检查已安装的 Python 软件包。输出应与此示例类似

$ pip list | grep habana
habana_gpu_migration              1.19.0.561
habana-media-loader               1.19.0.561
habana-pyhlml                     1.19.0.561
habana-torch-dataloader           1.19.0.561
habana-torch-plugin               1.19.0.561
lightning-habana                  1.6.0
Pillow-SIMD                       9.5.0.post20+habana
$ pip list | grep neural
neural_compressor_pt              3.2

如何使用 Docker 快速设置 vLLM 环境？¶

使用 GitHub .cd 目录中提供的 Dockerfile.ubuntu.pytorch.vllm 文件来构建和运行一个包含最新 Intel® Gaudi® 软件发布的容器。

有关更多详细信息，请参阅使用 Dockerfile 快速入门。

构建和安装 vLLM¶

如何在 Intel Gaudi 上安装 vLLM？¶

有两种不同的安装方法

使用 Dockerfile 运行 vLLM Intel® Gaudi® 硬件插件：我们推荐此方法，因为它是生产部署最合适的选项。
从源代码构建 vLLM Intel® Gaudi® 硬件插件：此方法适用于处理仍处于测试中的实验性代码或新功能的开发人员。

示例和模型支持¶

哪些模型和配置已在 Intel® Gaudi® 2 和 Intel® Gaudi® 3 设备上进行了验证？¶

已验证模型列表可在已验证模型文档中找到。该列表包括以下模型：

Llama 2、Llama 3 和 Llama 3.1（7B、8B 和 70B 版本）。请参阅 Llama-3.1 jupyter notebook 示例。
Mistral 和 Mixtral 模型。
不同的张量并行配置，例如单 HPU、2x 和 8x HPU。

功能支持¶

vLLM 在 Intel® Gaudi® 上支持哪些主要功能？¶

支持的功能列表可在支持的功能文档中找到。它包括以下功能：

离线批处理推理
兼容 OpenAI 的服务器
为 Intel® Gaudi® 设备优化的分页 KV 缓存
投机解码（实验性）
张量并行推理
FP8 模型和使用 Intel® Neural Compressor (INC) 进行 KV 缓存量化和校准。有关更多详细信息，请参阅 Intel® Neural Compressor 量化和推理指南。

性能调优¶

该插件支持哪些执行模式？¶

PyTorch Eager 模式（默认）
torch.compile（默认）
HPU 图（推荐以获得最佳性能）
PyTorch Lazy 模式

vLLM Intel® Gaudi® 硬件插件中的分桶机制是如何工作的？¶

分桶机制通过对张量形状进行分组来优化性能。这减少了所需的图的数量，并最大限度地减少了服务器运行时中的编译次数。分桶由批量大小和序列长度的参数决定。有关更多信息，请参阅分桶机制。

如果请求超过最大分桶大小，我应该怎么做？¶

考虑使用环境变量增加上限分桶边界，以避免由于图编译可能导致的延迟增加。