性能分析¶

有几种可用的方法来衡量和分析 vLLM 的性能，每种方法都提供不同级别的详细程度，并适用于特定的用例。本文档概述了这些方法，以帮助评估执行时间、识别性能瓶颈以及分析推理期间的主机和设备行为。下表列出了可用的性能跟踪收集方法。每种链接的方法都在单独的部分中进行了详细描述。

性能分析方法	类别	详细程度	用例
端到端性能分析	全面性能分析	高	捕获主机、Python 和设备的所有性能数据。
高级性能分析	高级性能分析	低	调试提示/解码结构、批处理大小和调度模式。
通过异步服务器进行 PyTorch 性能分析	基于服务器的性能分析	中	测量延迟、主机空闲时间和服务响应时间。
通过脚本进行 PyTorch 性能分析	基于脚本的性能分析	中	在测试脚本中进行性能分析。
性能分析特定提示或解码执行	设备级性能分析	中/高	捕获通用执行流程，不包含图的详细信息（无形状、操作）。可选地，分析融合操作、节点名称、图结构和时序。