vLLM 的 `torch.compile` 集成¶

在 vLLM 的 V1 架构中，torch.compile 默认启用，是框架的关键组成部分。本文档提供一个简单的示例演示，以展示如何理解 torch.compile 的用法。

在整个示例中，我们将使用 v1 运行一个常见的 Llama 模型，并打开调试级别的日志记录来显示所有详细信息。要使用的命令是 VLLM_USE_V1=1 VLLM_LOGGING_LEVEL=DEBUG vllm serve meta-llama/Llama-3.2-1B。

编译缓存¶

在非常详细的日志中，我们可以看到

INFO 03-07 03:06:55 [backends.py:409] Using cache directory: ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0 for vLLM's torch.compile

vLLM 将考虑所有可用因素，并确定一个目录来存储所有编译工件。这意味着，您可以在部署场景中直接复制整个 ~/.cache/vllm/torch_compile_cache 目录，以节省大量的编译时间，从而加速 vLLM 实例的启动时间。

考虑的因素包括：

所有相关配置（参见 config.py) 中的 compute_hash 函数）
PyTorch 配置（参见 compiler_interface.py) 中的 compute_hash 函数）
模型的 forward 函数以及 forward 函数调用的相关函数（见下文）

考虑到所有这些因素，通常我们可以保证缓存是安全的，不会引起任何意外行为。因此，默认情况下启用缓存。如果您想调试编译过程，或者怀疑缓存引起了一些问题，可以通过设置环境变量 VLLM_DISABLE_COMPILE_CACHE=1 来禁用它。

vLLM 的 torch.compile 集成的一个独特之处在于，我们保证所有编译在提供任何请求之前完成。任何请求都不会触发新的编译。否则，引擎将被该请求阻塞，响应时间会出现意外的峰值。

Python 代码编译¶

在非常详细的日志中，我们可以看到

DEBUG 03-07 03:06:52 [decorators.py:203] Start compiling function <code object forward at 0x7f08acf40c90, file "xxx/vllm/model_executor/models/llama.py", line 339>

DEBUG 03-07 03:06:54 [backends.py:370] Traced files (to be considered for compilation cache):
DEBUG 03-07 03:06:54 [backends.py:370] xxx/torch/_dynamo/polyfills/builtins.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/torch/nn/modules/container.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/torch/nn/modules/module.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/attention/layer.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/distributed/communication_op.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/distributed/parallel_state.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/custom_op.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/layers/activation.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/layers/layernorm.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/layers/linear.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/layers/rotary_embedding.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/layers/vocab_parallel_embedding.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/models/llama.py

DEBUG 03-07 03:07:07 [backends.py:462] Computation graph saved to ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/computation_graph.py
DEBUG 03-07 03:07:07 [wrapper.py:105] Dynamo transformed code saved to ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/transformed_code.py

这指的是 Python 代码编译，即 Dynamo 进行的图捕获。它尝试跟踪代码为 xxx/vllm/model_executor/models/llama.py:339 的函数，这是我们编译的模型的 forward 函数。在 forward 过程中，正如日志所示，Dynamo 还会调用并内联其他函数，包括来自 xxx/torch/nn/modules/module.py 的一些 PyTorch 函数（由 PyTorch 的 nn.Module 使用，因为模块属性访问会触发函数调用），以及 vLLM 中的一些通信/注意力/激活函数。在决定使用哪个缓存目录时，所有被跟踪的文件都将被考虑在内。这样，上述文件中的任何代码更改都会导致编译缓存未命中，从而触发重新编译。

Dynamo 编译的结果是一个新函数，存储在 ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/transformed_code.py 中。通常，这个函数会从模块中解包张量，然后将其传递给跟踪的计算图。计算图存储在 ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/computation_graph.py 中。

计算图处理¶

计算图对每个张量都有形状注释。输入是输入 id、位置 id、模型的权重和缓冲区，输出是最终的隐藏状态。请注意，lm head 投影和采样操作不包含在图中。

计算图的大多数输入具有静态形状，因为它们是模型的权重和缓冲区，并且在模型的生命周期内不会改变。只有输入 id 和位置 id 具有符号形状，即形状可以因批次而异。然而，它们将共享相同的符号形状。也就是说，计算图中唯一改变的大小是批次大小（当前 forward 过程中处理的 token 数量）。

注意力操作很复杂，需要与 kv 缓存交互，并具有复杂的形状。幸运的是，注意力操作的输出与注意力操作的输入查询共享相同的形状。因此，我们将整个注意力操作封装到一个 PyTorch 自定义操作 torch.ops.vllm.unified_attention_with_output 中，这样 Dynamo 就不会尝试检查任何内部操作。通过这种方式，即使注意力操作很复杂，从 Dynamo 的角度来看，我们仍然可以将模型的计算图作为一个完整的图捕获。

计算图通过 splitting_ops（通常是注意力操作）进一步分割成块。因此，在 ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/computation_graph.py 文件中，我们可以看到许多子模块，每个子模块都是分割后的图的一部分。

注意力操作本身是一个子模块。
计算图的一部分，从一个注意力操作到下一个注意力操作，是一个子模块。

每个子模块都可以通过其索引来识别，并单独处理。

计算图编译¶

在非常详细的日志中，我们还可以看到

DEBUG 03-07 03:52:37 [backends.py:134] store the 0-th graph for shape None from inductor via handle ('fpegyiq3v3wzjzphd45wkflpabggdbjpylgr7tta4hj6uplstsiw', '~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/iw/ciwzrk3ittdqatuzwonnajywvno3llvjcs2vfdldzwzozn3zi3iy.py')
DEBUG 03-07 03:52:39 [backends.py:134] store the 1-th graph for shape None from inductor via handle ('f7fmlodmf3h3by5iiu2c4zarwoxbg4eytwr3ujdd2jphl4pospfd', '~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/ly/clyfzxldfsj7ehaluis2mca2omqka4r7mgcedlf6xfjh645nw6k2.py')
...
DEBUG 03-07 03:52:45 [backends.py:134] store the 15-th graph for shape None from inductor via handle ('f7fmlodmf3h3by5iiu2c4zarwoxbg4eytwr3ujdd2jphl4pospfd', '~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/ly/clyfzxldfsj7ehaluis2mca2omqka4r7mgcedlf6xfjh645nw6k2.py')
DEBUG 03-07 03:52:45 [backends.py:134] store the 16-th graph for shape None from inductor via handle ('fvj3ccoi7m34f3dnr4itmu55mmun44l5xymwhrjlwisylsk7q6jy', '~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/tf/ctfftkglj7b4lcttq5cymx6cew372uoauupqn6ldsvpiucavqcjc.py')

这意味着计算图的第一块（对于符号形状，形状为 None）由 Inductor 编译（使用密钥 fpegyiq3v3wzjzphd45wkflpabggdbjpylgr7tta4hj6uplstsiw）。编译后的 kernel 存储在 ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/iw/ciwzrk3ittdqatuzwonnajywvno3llvjcs2vfdldzwzozn3zi3iy.py 中。您可以打开该文件查看 Inductor 最终运行的代码。

另一个细节：您可以看到第 1 个图和第 15 个图具有相同的密钥，而第 0 个图和第 16 个图不同。这是预料之中的，因为我们通过注意力操作分割图，我们得到 3 个独特的子图：

注意力之前的第一个层
每个中间层，从一个注意力操作到下一个注意力操作
注意力之后的最后一个层

如果我们已经有了缓存目录（例如，第二次运行相同的代码），我们将看到以下日志：

DEBUG 03-07 04:00:45 [backends.py:86] Directly load the 0-th graph for shape None from inductor via handle ('fpegyiq3v3wzjzphd45wkflpabggdbjpylgr7tta4hj6uplstsiw', '~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/iw/ciwzrk3ittdqatuzwonnajywvno3llvjcs2vfdldzwzozn3zi3iy.py')

这次，Inductor 编译完全被绕过，我们将从磁盘加载并读取上次获得的编译工件。

上面的例子只是使用 Inductor 编译一般形状（即符号形状）。我们也可以使用 Inductor 编译一些特定形状，例如

vllm serve meta-llama/Llama-3.2-1B --compilation_config '{"compile_sizes": [1, 2, 4, 8]}'

然后它也会为批次大小 1, 2, 4, 8 编译一个特定的 kernel。此时，计算图中的所有形状都是静态且已知的，我们将开启自动调优以获得最大性能。首次运行时可能会很慢，但下次运行时，我们可以直接绕过调优并运行已调优的 kernel。

当所有形状都已知时，torch.compile 可以比较不同的配置，并且通常可以找到一些更好的配置来运行 kernel。例如，我们可以看到以下日志：

AUTOTUNE mm(8x2048, 2048x3072)
  triton_mm_4 0.0130 ms 100.0% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=128, BLOCK_M=16, BLOCK_N=32, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=5, num_warps=2
  triton_mm_8 0.0134 ms 97.4% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=128, BLOCK_M=16, BLOCK_N=64, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=5, num_warps=4
  triton_mm_12 0.0148 ms 87.7% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=128, BLOCK_M=16, BLOCK_N=128, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=4, num_warps=4
  mm 0.0160 ms 81.6% 
  triton_mm_16 0.0165 ms 78.7% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=64, BLOCK_M=16, BLOCK_N=128, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=5, num_warps=8
  triton_mm_3 0.0199 ms 65.4% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=32, BLOCK_M=16, BLOCK_N=32, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=5, num_warps=2
  triton_mm_1 0.0203 ms 64.2% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=128, BLOCK_M=16, BLOCK_N=32, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=2, num_warps=2
  triton_mm_7 0.0203 ms 64.1% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=64, BLOCK_M=16, BLOCK_N=64, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=3, num_warps=4
  triton_mm_2 0.0208 ms 62.5% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=32, BLOCK_M=16, BLOCK_N=64, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=5, num_warps=4
  triton_mm_11 0.0215 ms 60.5% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=64, BLOCK_M=16, BLOCK_N=128, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=3, num_warps=4
SingleProcess AUTOTUNE benchmarking takes 2.0428 seconds and 7.5727 seconds precompiling

这意味着，对于形状为 8x2048x3072 的矩阵乘法，torch.compile 尝试使用各种配置的 triton 模板，并且它比默认代码（分派给 cublas 库）快得多。

不幸的是，由于自动调优需要相当长的时间（从几秒到几分钟不等，具体取决于模型大小和批次大小），即使它可以缓存供以后使用，为了用户友好性，我们默认将其关闭。如果您想获得最大性能，建议尝试编译特定形状。

Cudagraph 捕获¶

vLLM 的 V1 架构使用分段 cudagraph。完整的计算图如上所述被分割，我们只捕获注意力操作之间的图片段的 cudagraph（包括任何注意力操作之前的第一个图，以及所有注意力操作之后的最后一个图）。这基于一个常见的观察：注意力之间的计算通常是 token 级别的，并且易于与 cudagraph 兼容；而注意力操作不容易与 cudagraph 兼容。因此，通过在 eager 模式下运行注意力操作，而其余操作在 cudagraph 中运行，我们保持了注意力操作的灵活性。

分段 cudagraph 也具有细粒度的内存管理。目的是只将注意力 kernel 从 cudagraph 中排除，而将所有其余模块和内存分配操作保留在 cudagraph 中。这就是为什么 V1 中的注意力操作将输出张量作为注意力的输入。

cudagraph 由编译器后端捕获和管理，并在批次大小对应已捕获的 cudagraph 时进行重放。模型的调用者（model runner）只需确保正确管理输入缓冲区即可。所有中间缓冲区都由编译器后端自动管理。

默认情况下，vLLM 会尝试确定一组要捕获 cudagraph 的大小。您也可以使用配置 cudagraph_capture_sizes 覆盖它。

vllm serve meta-llama/Llama-3.2-1B --compilation-config '{"cudagraph_capture_sizes": [1, 2, 4, 8]}'

然后它将只捕获指定大小的 cudagraph。这对于对 cudagraph 捕获进行细粒度控制非常有用。

完整 Cudagraph 捕获¶

如果使用与 cudagraph 兼容的注意力后端，可以将注意力作为 cudagraph 的一部分。这在某些情况下可以提高性能，例如小型模型的解码速度。使用 --compilation-config '{"full_cuda_graph": true}' 启用此功能。

目前只有 FlashAttention 3 兼容，并且仅在禁用 cascade attention 时兼容。

vLLM 的 torch.compile 集成¶