跳到内容

概述

vLLM x Intel-Gaudi

Star Watch Fork

vLLM 硬件插件(Intel® Gaudi®)是一个社区驱动的集成层,可在 Intel® Gaudi® AI 加速器上实现高效、高性能的大型语言模型(LLM)推理。

vLLM 硬件插件(Intel® Gaudi®)将 vLLM 服务引擎Intel® Gaudi® 硬件连接起来,为企业级 LLM 工作负载提供优化的推理能力。它由 Intel® Gaudi® 团队开发和维护,并遵循 硬件可插拔 RFCvLLM 插件架构 RFC 进行模块化集成。

优势

vLLM 硬件插件(Intel® Gaudi®)提供以下主要优势:

  • 针对 Intel® Gaudi® 进行优化:支持高级功能,例如分桶机制、浮点 8 位(FP8)量化和自定义图缓存,以实现快速热身和高效的内存利用。
  • 可扩展性和效率:旨在最大限度地提高吞吐量并最小化延迟,适用于大规模部署,是生产级 LLM 推理的理想选择。
  • 社区支持:由 Intel® Gaudi® 团队和更广泛的 vLLM 生态系统的贡献者在 GitHub 上积极维护。

入门

要开始使用 vLLM 硬件插件(Intel® Gaudi®):

  • 使用 快速入门 指南设置您的环境,并在本地或容器化环境中本地使用该插件。
  • 使用受支持的模型进行推理,例如 Llama 3.1、Mixtral 或 DeepSeek。
  • 探索高级功能,例如 FP8 量化、配方缓存和专家并行。
  • 通过为 vLLM-Gaudi GitHub 存储库做出贡献来加入社区。

参考

有关更多信息,请参阅: