常见问题
先决条件和系统要求¶
在 Intel® Gaudi® 上运行 vLLM 的系统要求是什么?¶
- Ubuntu 22.04 LTS 操作系统。
- Python 3.10。
- Intel Gaudi 2 或 Intel Gaudi 3 AI 加速器。
- Intel Gaudi 软件版本 1.22.2 及以上版本。
什么是 vLLM 插件,我在哪里可以找到它的 GitHub 存储库?¶
Intel 开发并维护自己的 vLLM 插件项目,名为 vLLM Intel® Gaudi® 硬件插件,位于 GitHub 的 vLLM-gaudi 存储库中。
如何验证 Intel® Gaudi® 软件已正确安装?¶
-
运行
hl-smi以检查 Intel® Gaudi® 加速器是否可见。有关更多详细信息,请参阅 系统验证和最终测试。 -
运行
apt list --installed | grep habana以验证已安装的软件包。输出应与以下示例类似 -
通过运行
pip list | grep habana和pip list | grep neural来检查已安装的 Python 软件包。输出应与此示例类似
如何使用 Docker 快速设置 vLLM 环境?¶
使用 GitHub .cd 目录中提供的 Dockerfile.ubuntu.pytorch.vllm 文件来构建和运行一个包含最新 Intel® Gaudi® 软件发布的容器。
有关更多详细信息,请参阅 使用 Dockerfile 快速入门。
构建和安装 vLLM¶
如何在 Intel Gaudi 上安装 vLLM?¶
有两种不同的安装方法
-
使用 Dockerfile 运行 vLLM Intel® Gaudi® 硬件插件:我们推荐此方法,因为它是生产部署最合适的选项。
-
从源代码构建 vLLM Intel® Gaudi® 硬件插件:此方法适用于处理仍处于测试中的实验性代码或新功能的开发人员。
示例和模型支持¶
哪些模型和配置已在 Intel® Gaudi® 2 和 Intel® Gaudi® 3 设备上进行了验证?¶
已验证模型列表可在 已验证模型文档中找到。该列表包括以下模型:
-
Llama 2、Llama 3 和 Llama 3.1(7B、8B 和 70B 版本)。请参阅 Llama-3.1 jupyter notebook 示例。
-
Mistral 和 Mixtral 模型。
-
不同的张量并行配置,例如单 HPU、2x 和 8x HPU。
功能支持¶
vLLM 在 Intel® Gaudi® 上支持哪些主要功能?¶
支持的功能列表可在 支持的功能文档中找到。它包括以下功能:
-
离线批处理推理
-
兼容 OpenAI 的服务器
-
为 Intel® Gaudi® 设备优化的分页 KV 缓存
-
投机解码(实验性)
-
张量并行推理
-
FP8 模型和使用 Intel® Neural Compressor (INC) 进行 KV 缓存量化和校准。有关更多详细信息,请参阅 Intel® Neural Compressor 量化和推理指南。
性能调优¶
该插件支持哪些执行模式?¶
-
PyTorch Eager 模式(默认)
-
torch.compile(默认)
-
HPU 图(推荐以获得最佳性能)
-
PyTorch Lazy 模式
vLLM Intel® Gaudi® 硬件插件中的分桶机制是如何工作的?¶
分桶机制通过对张量形状进行分组来优化性能。这减少了所需的图的数量,并最大限度地减少了服务器运行时中的编译次数。分桶由批量大小和序列长度的参数决定。有关更多信息,请参阅 分桶机制。
如果请求超过最大分桶大小,我应该怎么做?¶
考虑使用环境变量增加上限分桶边界,以避免由于图编译可能导致的延迟增加。