跳到内容

概述

vLLM x Intel-Gaudi

Star Watch Fork

vLLM Intel® Gaudi® 硬件插件是一个社区驱动的集成层,可实现高效、高性能的大型语言模型(LLM)在 Intel® Gaudi® AI 加速器上的推理。

vLLM Intel® Gaudi® 硬件插件连接了 vLLM 服务引擎Intel® Gaudi® 硬件,为企业级 LLM 工作负载提供优化的推理能力。它由 Intel® Gaudi® 团队开发和维护,并遵循 硬件可插拔 RFCvLLM 插件架构 RFC 进行模块化集成。

优势

vLLM Intel® Gaudi® 硬件插件提供以下主要优势:

  • 针对 Intel® Gaudi® 进行优化:支持先进功能,例如分桶机制、8 位浮点(FP8)量化和自定义图缓存,以实现快速预热和高效的内存利用。
  • 可扩展性和效率:旨在最大化大规模部署的吞吐量并最小化延迟,是生产级 LLM 推理的理想选择。
  • 社区支持:由 Intel® Gaudi® 团队和更广泛的 vLLM 生态系统的贡献者在 GitHub 上积极维护。

入门

开始使用 vLLM Intel® Gaudi® 硬件插件

  • 使用 快速入门指南设置您的环境,并在本地或容器化环境中本地使用该插件。
  • 使用支持的模型(如 Llama 3.1、Mixtral 或 DeepSeek)运行推理。
  • 探索高级功能,如 FP8 量化、配方缓存和专家并行。
  • 通过贡献到 vLLM-Gaudi GitHub 存储库来加入社区。

参考

有关更多信息,请参阅: