高层级剖析¶

注意

此方法是端到端剖析的一部分，如果已完成端到端剖析，则无需单独执行。

由于推理服务的动态特性——提示和解码可能在不可预测的时间表中到达并运行很长时间——因此，了解实际执行情况通常很有用。高层级剖析不能准确地表示提示或解码阶段的实际执行时间。此限制是由于使用了异步测量方法。例如，在涉及延迟采样或多步调度的场景中，系统会避免仅为了指示设备何时暂停执行而将主机与设备同步。这样做会严重影响性能。因此，为每个提示或解码阶段记录的时间仅反映主机端的时间，应谨慎解释。

您可以使用 export VLLM_PROFILER_ENABLED=true 标志启用高层级剖析。结果是，将生成一个 server_events(...).json 文件，可以使用 Perfetto 查看该文件。

此文件提供了关于提示和解码批次大小、输入长度、使用的块数以及用于 seq_len 和 batch size 的解码和提示桶的调试信息。这些信息以时间线形式呈现，且跟踪大小最小。