跳到内容

发布说明

本文档概述了 vLLM Intel® Gaudi® 硬件插件每个版本引入的功能、变更和修复。

0.11.2

此版本基于 vLLM 0.11.2,支持 Intel® Gaudi® v1.22.2

此版本引入了面向生产环境的 vLLM Intel® Gaudi® 硬件插件,这是一个基于 vLLM v1 架构 的社区驱动集成层。它能够在外理 Intel® Gaudi® AI 加速器上实现高效、高性能的大型语言模型 (LLM) 推理。该插件是 vLLM 分支 的替代方案,vLLM 分支已于此版本达到生命周期结束,并在 v1.24.0 中弃用,仅保留用于遗留用例。我们强烈建议所有分支用户开始规划迁移到该插件。

该插件提供了与分支 功能对等 的功能,包括自动前缀缓存 (APC) 和异步调度程序的成熟、面向生产环境的实现。已停用两个遗留功能——多步调度和延迟采样,因为它们的功能现在已由异步调度程序覆盖。

有关插件实现的更多详细信息,请参阅 插件系统

要开始使用该插件,请遵循 基本快速入门指南 并浏览本文档的其余部分。