跳到内容

性能分析

有几种可用的方法来衡量和分析 vLLM 的性能,每种方法都提供不同级别的详细程度,并适用于特定的用例。本文档概述了这些方法,以帮助评估执行时间、识别性能瓶颈以及分析推理期间的主机和设备行为。下表列出了可用的性能跟踪收集方法。每种链接的方法都在单独的部分中进行了详细描述。

性能分析方法 类别 详细程度 用例
端到端性能分析 全面性能分析 捕获主机、Python 和设备的所有性能数据。
高级性能分析 高级性能分析 调试提示/解码结构、批处理大小和调度模式。
通过异步服务器进行 PyTorch 性能分析 基于服务器的性能分析 测量延迟、主机空闲时间和服务响应时间。
通过脚本进行 PyTorch 性能分析 基于脚本的性能分析 在测试脚本中进行性能分析。
性能分析特定提示或解码执行 设备级性能分析 中/高 捕获通用执行流程,不包含图的详细信息(无形状、操作)。可选地,分析融合操作、节点名称、图结构和时序。