性能分析¶
有几种可用的方法来衡量和分析 vLLM 的性能,每种方法都提供不同级别的详细程度,并适用于特定的用例。本文档概述了这些方法,以帮助评估执行时间、识别性能瓶颈以及分析推理期间的主机和设备行为。下表列出了可用的性能跟踪收集方法。每种链接的方法都在单独的部分中进行了详细描述。
| 性能分析方法 | 类别 | 详细程度 | 用例 |
|---|---|---|---|
| 端到端性能分析 | 全面性能分析 | 高 | 捕获主机、Python 和设备的所有性能数据。 |
| 高级性能分析 | 高级性能分析 | 低 | 调试提示/解码结构、批处理大小和调度模式。 |
| 通过异步服务器进行 PyTorch 性能分析 | 基于服务器的性能分析 | 中 | 测量延迟、主机空闲时间和服务响应时间。 |
| 通过脚本进行 PyTorch 性能分析 | 基于脚本的性能分析 | 中 | 在测试脚本中进行性能分析。 |
| 性能分析特定提示或解码执行 | 设备级性能分析 | 中/高 | 捕获通用执行流程,不包含图的详细信息(无形状、操作)。可选地,分析融合操作、节点名称、图结构和时序。 |