跳到内容

vLLM 硬件插件（Intel® Gaudi®）

概述

概述

x

Star Watch Fork

vLLM 硬件插件（Intel® Gaudi®）是一个社区驱动的集成层，可在 Intel® Gaudi® AI 加速器上实现高效、高性能的大型语言模型（LLM）推理。

vLLM 硬件插件（Intel® Gaudi®）将 vLLM 服务引擎与 Intel® Gaudi® 硬件连接起来，为企业级 LLM 工作负载提供优化的推理能力。它由 Intel® Gaudi® 团队开发和维护，并遵循硬件可插拔 RFC 和 vLLM 插件架构 RFC 进行模块化集成。

优势¶

vLLM 硬件插件（Intel® Gaudi®）提供以下主要优势：

针对 Intel® Gaudi® 进行优化：支持高级功能，例如分桶机制、浮点 8 位（FP8）量化和自定义图缓存，以实现快速热身和高效的内存利用。
可扩展性和效率：旨在最大限度地提高吞吐量并最小化延迟，适用于大规模部署，是生产级 LLM 推理的理想选择。
社区支持：由 Intel® Gaudi® 团队和更广泛的 vLLM 生态系统的贡献者在 GitHub 上积极维护。

入门¶

要开始使用 vLLM 硬件插件（Intel® Gaudi®）：

使用快速入门指南设置您的环境，并在本地或容器化环境中本地使用该插件。
使用受支持的模型进行推理，例如 Llama 3.1、Mixtral 或 DeepSeek。
探索高级功能，例如 FP8 量化、配方缓存和专家并行。
通过为 vLLM-Gaudi GitHub 存储库做出贡献来加入社区。

参考¶

有关更多信息，请参阅：