跳到内容

故障排除

本文档包含在使用 vLLM Intel® Gaudi® 硬件插件时可能遇到的常见问题的故障排除说明。

启用 torch compile 时 FP8 模型失败

如果在启用 torch compile 时,您的浮点 8 位 (FP8) 模型无法正常工作,并且您收到以下错误,则问题很可能由运行时缩放补丁 (Runtime Scale Patching) 功能引起。

AssertionError: Scaling method "ScaleMethodString.ACT_MAXABS_PCS_POW2_WEIGHT_MAXABS_PTS_POW2_HW" is not supported for runtime scale patching (graph recompile reduction)

默认的运行时缩放补丁功能不支持您的工作负载在 FP8 执行过程中使用的缩放方法。要解决此问题,请在运行此模型时通过在环境中导出 RUNTIME_SCALE_PATCHING=0 来禁用运行时缩放补丁。

设置 max_concurrency 时出现服务器错误

如果设置 max_concurrency 导致以下错误,则指定的可能值不正确。

assert num_output_tokens == 0, \
(EngineCore_DP0 pid=545) ERROR 10-13 06:03:56 [core.py:710] AssertionError: req_id: cmpl-benchmark-serving39-0, 236

vLLM 根据 KV 缓存设置计算当前环境的最大可用并发量。要解决此问题,请使用日志中打印的值。

[kv_cache_utils.py:1091] Maximum concurrency for 4,352 tokens per request: 10.59x 

在此示例中,在此特定场景下的正确 max_concurrency 值为 10

推理过程中出现内存不足错误

可用 HPU 内存、模型大小和输入序列长度等因素可能会阻止标准推理命令成功运行您的模型,从而可能导致内存不足 (OOM) 错误。要解决这些错误,请考虑以下建议:

  • gpu_memory_utilization 提高到高于默认值 0.9 的值。为解决内存限制,vLLM 使用 gpu_memory_utilization 定义的内存百分比预先分配 HPU 缓存。增加此值可以为 KV 缓存分配更多空间。

  • tensor_parallel_size 提高到高于默认值 1 的值。此方法将模型权重分布到各个 HPU 上,从而增加了每个 HPU 上可用于 KV 缓存的内存。

  • 减少 max_num_seqsmax_num_batched_tokens:这可以减少批处理中的并发请求数量,从而降低 KV 缓存的使用量。

  • 完全禁用 HPU 图,方法是切换到任何其他执行模式,以最大化 KV 缓存空间分配。