概述
x 
vLLM Intel® Gaudi® 硬件插件是一个社区驱动的集成层,可实现高效、高性能的大型语言模型(LLM)在 Intel® Gaudi® AI 加速器上的推理。
vLLM Intel® Gaudi® 硬件插件连接了 vLLM 服务引擎和 Intel® Gaudi® 硬件,为企业级 LLM 工作负载提供优化的推理能力。它由 Intel® Gaudi® 团队开发和维护,并遵循 硬件可插拔 RFC 和 vLLM 插件架构 RFC 进行模块化集成。
优势¶
vLLM Intel® Gaudi® 硬件插件提供以下主要优势:
- 针对 Intel® Gaudi® 进行优化:支持先进功能,例如分桶机制、8 位浮点(FP8)量化和自定义图缓存,以实现快速预热和高效的内存利用。
- 可扩展性和效率:旨在最大化大规模部署的吞吐量并最小化延迟,是生产级 LLM 推理的理想选择。
- 社区支持:由 Intel® Gaudi® 团队和更广泛的 vLLM 生态系统的贡献者在 GitHub 上积极维护。
入门¶
开始使用 vLLM Intel® Gaudi® 硬件插件
- 使用 快速入门指南设置您的环境,并在本地或容器化环境中本地使用该插件。
- 使用支持的模型(如 Llama 3.1、Mixtral 或 DeepSeek)运行推理。
- 探索高级功能,如 FP8 量化、配方缓存和专家并行。
- 通过贡献到 vLLM-Gaudi GitHub 存储库来加入社区。
参考¶
有关更多信息,请参阅: