跳到内容

vLLM 硬件插件（Intel® Gaudi®）

概述

概述

x

Star Watch Fork

vLLM Intel® Gaudi® 硬件插件是一个社区驱动的集成层，可实现高效、高性能的大型语言模型（LLM）在 Intel® Gaudi® AI 加速器上的推理。

vLLM Intel® Gaudi® 硬件插件连接了 vLLM 服务引擎和 Intel® Gaudi® 硬件，为企业级 LLM 工作负载提供优化的推理能力。它由 Intel® Gaudi® 团队开发和维护，并遵循硬件可插拔 RFC 和 vLLM 插件架构 RFC 进行模块化集成。

优势¶

vLLM Intel® Gaudi® 硬件插件提供以下主要优势：

针对 Intel® Gaudi® 进行优化：支持先进功能，例如分桶机制、8 位浮点（FP8）量化和自定义图缓存，以实现快速预热和高效的内存利用。
可扩展性和效率：旨在最大化大规模部署的吞吐量并最小化延迟，是生产级 LLM 推理的理想选择。
社区支持：由 Intel® Gaudi® 团队和更广泛的 vLLM 生态系统的贡献者在 GitHub 上积极维护。

入门¶

开始使用 vLLM Intel® Gaudi® 硬件插件

使用快速入门指南设置您的环境，并在本地或容器化环境中本地使用该插件。
使用支持的模型（如 Llama 3.1、Mixtral 或 DeepSeek）运行推理。
探索高级功能，如 FP8 量化、配方缓存和专家并行。
通过贡献到 vLLM-Gaudi GitHub 存储库来加入社区。

参考¶

有关更多信息，请参阅：