跳到内容

8位浮点数

8位浮点数 (FP8) 通过使用8位浮点数精度表示模型权重和激活,从而实现更快、更内存高效的推理。FP8 工作流程包括三个主要阶段:

  • 校准:分析模型权重和激活,以确定最佳的缩放因子和值范围,从而实现准确转换。

  • 量化:使用校准后的范围,将模型从更高精度(如 FP16)转换为 FP8,以最大限度地减少精度损失。

  • 推理:使用 FP8 计算运行量化模型,在较低内存开销的情况下实现更快的执行,同时保持模型质量。

校准

在 Intel® Gaudi® HPU 上以 FP8 精度运行推理之前,必须先对模型进行校准。校准会生成准确 FP8 推理所需的测量值、量化文件和配置数据。vLLM Intel® Gaudi® 硬件插件使用 Intel® Neural Compressor (INC) 包来执行此校准,并在 HPU 上实现高效的 FP8 推理。有关校准过程的更多信息和详细设置说明,请参阅 校准 配置指南。

量化

量化以较小的内存占用为代价来平衡模型精度,从而允许在更广泛的设备上运行大型模型。Intel® Gaudi® 后端支持以下量化后端:

  • Intel® Neural Compressor
  • Auto_Awq
  • Gptqmodel

有关每个后端的更多信息和详细配置建议,请参阅 量化和推理 配置指南。

推理

推理阶段涉及执行训练好的模型,以从新输入数据生成预测或输出。在校准和量化之后,vLLM Intel® Gaudi® 硬件插件在支持的硬件上运行优化模型,以提供快速准确的推理结果。有关不同量化后端的更多信息和示例,请参阅 量化和推理 指南。