高层级剖析¶
注意
此方法是端到端剖析的一部分,如果已完成端到端剖析,则无需单独执行。
由于推理服务的动态特性——提示和解码可能在不可预测的时间表中到达并运行很长时间——因此,了解实际执行情况通常很有用。高层级剖析不能准确地表示提示或解码阶段的实际执行时间。此限制是由于使用了异步测量方法。例如,在涉及延迟采样或多步调度的场景中,系统会避免仅为了指示设备何时暂停执行而将主机与设备同步。这样做会严重影响性能。因此,为每个提示或解码阶段记录的时间仅反映主机端的时间,应谨慎解释。
您可以使用 export VLLM_PROFILER_ENABLED=true 标志启用高层级剖析。结果是,将生成一个 server_events(...).json 文件,可以使用 Perfetto 查看该文件。

此文件提供了关于提示和解码批次大小、输入长度、使用的块数以及用于 seq_len 和 batch size 的解码和提示桶的调试信息。这些信息以时间线形式呈现,且跟踪大小最小。