跳到内容

torch.compile 集成

在 vLLM 的 V1 架构中,torch.compile 是默认启用的,并且是该框架的一个关键部分。本文档提供了一个简单的演练示例,展示如何理解 torch.compile 的使用。

在整个示例中,我们将运行一个常见的 Llama 模型,并开启调试级别的日志记录以显示所有细节。所使用的命令为 VLLM_LOGGING_LEVEL=DEBUG vllm serve meta-llama/Llama-3.2-1B

注意

有关 torch.compile 集成的更多信息和最新进展,请参阅此 博客文章

编译缓存

在非常详细的日志中,我们可以看到

INFO 03-07 03:06:55 [backends.py:409] Using cache directory: ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0 for vLLM's torch.compile

vLLM 会考虑所有可用因素,并决定一个用于存储所有编译产物的目录。这意味着在部署场景中,您可以直接复制整个 ~/.cache/vllm/torch_compile_cache 目录,从而节省大量的编译时间,进而加快 vLLM 实例的启动速度。

考虑的因素包括

  • 所有相关配置(请参阅 config 文件夹 中各配置对应的 compute_hash 函数)
  • PyTorch 配置(请参阅 compiler_interface.py 中的 compute_hash 函数)
  • 模型的 forward 函数以及 forward 函数调用的相关函数(见下文)

考虑到所有这些因素,通常我们可以保证缓存是安全可用的,不会导致任何意外行为。因此,缓存默认开启。如果您想调试编译过程,或者怀疑缓存导致了某些问题,可以通过设置环境变量 VLLM_DISABLE_COMPILE_CACHE=1 来禁用它。

vLLM 的 torch.compile 集成的一个独特之处在于,我们保证在处理任何请求之前完成所有编译。没有任何请求会触发新的编译。否则,引擎会被该请求阻塞,响应时间会出现意外的峰值。

默认情况下,缓存将已编译的产物保存为二进制文件。如果您希望为了调试目的与生成的代码进行交互,请在编译配置中设置字段 compile_cache_save_format=unpacked,或者直接设置环境变量 VLLM_COMPILE_CACHE_SAVE_FORMAT=unpacked

动态形状与 vllm 防护机制(guard)的丢弃

torch.compile 被设计为在需要时毫不犹豫地对动态形状施加防护机制(guard)。这与 vLLM 丢弃防护机制的 torch.compile 方法相矛盾,因为其中许多防护机制可能是本质性的。

torch.compile 提供了两种动态形状:backedunbackedtorch.compile 会对 backed 动态形状施加防护,并不保证不会向其添加防护机制。用户代码、dynamo、inductor 和 autograd 都可以添加防护。此外,对于 0/1 特化,即使没有遇到这些范围的分支,backed 符号也会被无条件特化为 0、1 或 >=2。

相反,unbacked 动态形状保证不会被施加防护,也不会进行 0/1 特化。但是,当遇到需要它们值的分支且未定义明确的 unbacked 处理时,可能会抛出数据依赖错误(Data Dependent Error)。该框架正在趋向于一种不抛出 DDE 而是选择通用路径的状态。使用 unbacked 的一个缺点是,由于性能 bug 或选择了通用路径,可能会错过优化机会,此外还使用了基于非示例输入的固定提示(hint)(这很快将通过 override_hint API 修复)。选择通用路径的一个例子是:在函数无法通过符号证明时,假设输入不是连续的,从而调用 contiguous() 和 reshape(),这引入了 clone 操作。

backed_size_oblivious 是一个标志,它允许在定义了明确的 unbacked 处理的地方将 backed 符号视为 unbacked。在这种模式下,0/1 特化在框架代码中大多被避免,默认的 0/1 特化也不会发生。然而,仍然没有保证 torch.compile 不会施加防护,尤其是在由于用户代码或自定义转换(pass)的情况下。backed_size_oblivious 在 PyTorch 编译中是实验性的,可能会被弃用。话虽如此,它比 backed 更安全,且导致性能下降的可能性比 unbacked 低。

配置动态形状

DynamicShapesConfig 允许您通过设置 type 字段来控制动态形状行为。您可以在三种模式中选择:BACKED(默认)、UNBACKEDBACKED_SIZE_OBLIVIOUS

离线推理示例(使用 LLM 类)

当使用 LLM 类进行离线推理时,您可以通过 compilation_config 参数配置动态形状

from vllm import LLM, SamplingParams
from vllm.config.compilation import CompilationConfig, DynamicShapesConfig, DynamicShapesType

# Example: Using backed_size_oblivious (experimental, safer than backed)
llm = LLM(
    model="meta-llama/Llama-3.2-1B",
    compilation_config=CompilationConfig(
        dynamic_shapes_config=DynamicShapesConfig(
            type=DynamicShapesType.BACKED_SIZE_OBLIVIOUS
        )
    )
)

# Example: Using unbacked (strongest guarantee against guards)
llm = LLM(
    model="meta-llama/Llama-3.2-1B",
    compilation_config=CompilationConfig(
        dynamic_shapes_config=DynamicShapesConfig(
            type=DynamicShapesType.UNBACKED
        )
    )
)

# Generate outputs
prompts = ["Hello, my name is", "The future of AI is"]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
outputs = llm.generate(prompts, sampling_params)

在线服务示例(使用 vllm serve)

当使用 vllm serve 进行在线服务时,您可以通过 --compilation-config 标志配置动态形状

# Example: Using unbacked
vllm serve meta-llama/Llama-3.2-1B \
  --compilation-config '{"dynamic_shapes_config": {"type": "unbacked"}}'


# Alternative: Using dot notation (simpler for single values)
vllm serve meta-llama/Llama-3.2-1B -cc.dynamic_shapes_config.type=unbacked

选择正确的模式

  • BACKED(默认):当您愿意接受潜在的不安全防护丢弃以获得最大性能时使用。防护可能会被不稳健地添加,然后被忽略。

  • UNBACKED:当您需要最强力的防护机制保证时使用。这是最保守的选项,但可能会错过一些优化机会。

  • BACKED_SIZE_OBLIVIOUS:当您希望在避免防护和性能之间取得平衡时使用。这种实验性模式比 BACKED 更安全,但不如 UNBACKED 保守。

Python 代码编译

在非常详细的日志中,我们可以看到

日志
DEBUG 03-07 03:06:52 [decorators.py:203] Start compiling function <code object forward at 0x7f08acf40c90, file "xxx/vllm/model_executor/models/llama.py", line 339>

DEBUG 03-07 03:06:54 [backends.py:370] Traced files (to be considered for compilation cache):
DEBUG 03-07 03:06:54 [backends.py:370] xxx/torch/_dynamo/polyfills/builtins.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/torch/nn/modules/container.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/torch/nn/modules/module.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/attention/layer.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/distributed/communication_op.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/distributed/parallel_state.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/custom_op.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/layers/activation.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/layers/layernorm.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/layers/linear.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/layers/rotary_embedding.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/layers/vocab_parallel_embedding.py
DEBUG 03-07 03:06:54 [backends.py:370] xxx/vllm/model_executor/models/llama.py

DEBUG 03-07 03:07:07 [backends.py:462] Computation graph saved to ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/computation_graph.py
DEBUG 03-07 03:07:07 [wrapper.py:105] Dynamo transformed code saved to ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/transformed_code.py

这涉及 Python 代码编译,即 Dynamo 进行的图捕获。它尝试追踪代码位于 xxx/vllm/model_executor/models/llama.py:339 的函数,这是我们编译的模型的 forward 函数。在前向传播过程中,日志显示还会调用其他函数并由 Dynamo 进行内联,包括来自 xxx/torch/nn/modules/module.py 的一些 PyTorch 函数(被 PyTorch 的 nn.Module 使用,因为模块属性访问会触发函数调用),以及来自 vLLM 的一些通信/注意力/激活函数。所有被追踪的文件都将在我们决定使用哪个缓存目录时被考虑在内。这样,上述文件中的任何代码更改都会导致编译缓存未命中,从而触发重新编译。

Dynamo 编译的结果是一个存储在 ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/transformed_code.py 中的新函数。通常,此函数会将张量从模块中解包,然后将其传递给已追踪的计算图。计算图存储在 ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/computation_graph.py 中。

计算图处理

计算图对每个张量都有形状标注。输入是输入 ID、位置 ID、模型的权重和缓冲区,输出是最终的隐藏状态。请注意,lm head 投影和采样操作未包含在图中。

计算图的大多数输入具有静态形状,因为它们是模型权重和缓冲区,在模型生命周期内不会改变。只有输入 ID 和位置 ID 具有符号化(symbolic)形状,即形状可能在批次之间发生变化。然而,它们会共享相同的符号化形状。也就是说,计算图中唯一变化的尺寸是批大小(当前前向传播中处理的 Token 数量)。

注意力操作很复杂,需要与具有复杂形状的 kv 缓存交互。幸运的是,注意力操作的输出与注意力操作的输入查询共享相同的形状。因此,我们将整个注意力操作封装成一个 PyTorch 自定义算子 torch.ops.vllm.unified_attention_with_output,这样 Dynamo 就不会尝试检查任何内部操作。通过这种方式,尽管注意力操作很复杂,我们仍然可以从 Dynamo 的角度将模型的计算图作为全图进行捕获。

计算图通过 splitting_ops(通常是注意力操作)进一步分割成片段。因此,在 ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/computation_graph.py 文件中,我们可以看到许多子模块,每个子模块都是分割后的图片段。

  • 注意力操作本身是一个子模块。
  • 从一个注意力操作到下一个注意力操作的计算图部分是一个子模块。

每个子模块都可以通过其索引来识别,并将被单独处理。

计算图编译

在非常详细的日志中,我们还可以看到

DEBUG 03-07 03:52:37 [backends.py:134] store the 0-th graph for shape None from inductor via handle ('fpegyiq3v3wzjzphd45wkflpabggdbjpylgr7tta4hj6uplstsiw', '~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/iw/ciwzrk3ittdqatuzwonnajywvno3llvjcs2vfdldzwzozn3zi3iy.py')
DEBUG 03-07 03:52:39 [backends.py:134] store the 1-th graph for shape None from inductor via handle ('f7fmlodmf3h3by5iiu2c4zarwoxbg4eytwr3ujdd2jphl4pospfd', '~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/ly/clyfzxldfsj7ehaluis2mca2omqka4r7mgcedlf6xfjh645nw6k2.py')
...
DEBUG 03-07 03:52:45 [backends.py:134] store the 15-th graph for shape None from inductor via handle ('f7fmlodmf3h3by5iiu2c4zarwoxbg4eytwr3ujdd2jphl4pospfd', '~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/ly/clyfzxldfsj7ehaluis2mca2omqka4r7mgcedlf6xfjh645nw6k2.py')
DEBUG 03-07 03:52:45 [backends.py:134] store the 16-th graph for shape None from inductor via handle ('fvj3ccoi7m34f3dnr4itmu55mmun44l5xymwhrjlwisylsk7q6jy', '~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/tf/ctfftkglj7b4lcttq5cymx6cew372uoauupqn6ldsvpiucavqcjc.py')

这意味着计算图的第一个片段(符号形状为 None)由 Inductor 编译(键为 fpegyiq3v3wzjzphd45wkflpabggdbjpylgr7tta4hj6uplstsiw)。编译后的内核存储在 ~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/iw/ciwzrk3ittdqatuzwonnajywvno3llvjcs2vfdldzwzozn3zi3iy.py。您可以打开该文件查看 Inductor 最终运行的代码。

另一个细节:您可以看到第 1 个图和第 15 个图具有相同的键,而第 0 个图和第 16 个图则不同。这是预期的,因为我们将图按注意力算子分割,所以得到了 3 个独特的子图:

  • 注意力操作之前的第一层
  • 每个中间层,从一个注意力操作到下一个注意力操作
  • 注意力操作之后的最后一层

如果我们已经有了缓存目录(例如第二次运行相同的代码),我们将看到以下日志

DEBUG 03-07 04:00:45 [backends.py:86] Directly load the 0-th graph for shape None from inductor via handle ('fpegyiq3v3wzjzphd45wkflpabggdbjpylgr7tta4hj6uplstsiw', '~/.cache/vllm/torch_compile_cache/1517964802/rank_0_0/inductor_cache/iw/ciwzrk3ittdqatuzwonnajywvno3llvjcs2vfdldzwzozn3zi3iy.py')

这一次,Inductor 编译被完全跳过,我们将从磁盘加载上次获得的编译产物。

上面的示例仅使用 Inductor 为通用形状(即符号形状)进行编译。我们也可以使用 Inductor 为某些特定形状进行编译,例如

vllm serve meta-llama/Llama-3.2-1B \
  --compilation_config '{"compile_sizes": [1, 2, 4, 8]}'

然后它将仅针对批大小 1, 2, 4, 8 编译特定的内核。此时,计算图中的所有形状都是静态且已知的,我们将开启自动调优(auto-tuning)以实现最大性能。这在第一次运行时可能很慢,但在下次运行时,我们可以直接绕过调优并运行已调优的内核。

当所有形状都已知时,torch.compile 可以比较不同的配置,并经常能找到更好的配置来运行内核。例如,我们可以看到以下日志

日志
AUTOTUNE mm(8x2048, 2048x3072)
  triton_mm_4 0.0130 ms 100.0% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=128, BLOCK_M=16, BLOCK_N=32, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=5, num_warps=2
  triton_mm_8 0.0134 ms 97.4% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=128, BLOCK_M=16, BLOCK_N=64, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=5, num_warps=4
  triton_mm_12 0.0148 ms 87.7% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=128, BLOCK_M=16, BLOCK_N=128, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=4, num_warps=4
  mm 0.0160 ms 81.6%
  triton_mm_16 0.0165 ms 78.7% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=64, BLOCK_M=16, BLOCK_N=128, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=5, num_warps=8
  triton_mm_3 0.0199 ms 65.4% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=32, BLOCK_M=16, BLOCK_N=32, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=5, num_warps=2
  triton_mm_1 0.0203 ms 64.2% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=128, BLOCK_M=16, BLOCK_N=32, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=2, num_warps=2
  triton_mm_7 0.0203 ms 64.1% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=64, BLOCK_M=16, BLOCK_N=64, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=3, num_warps=4
  triton_mm_2 0.0208 ms 62.5% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=32, BLOCK_M=16, BLOCK_N=64, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=5, num_warps=4
  triton_mm_11 0.0215 ms 60.5% ACC_TYPE='tl.float32', ALLOW_TF32=False, BLOCK_K=64, BLOCK_M=16, BLOCK_N=128, B_PROLOGUE_CAST_TYPE=None, EVEN_K=True, GROUP_M=8, num_stages=3, num_warps=4
SingleProcess AUTOTUNE benchmarking takes 2.0428 seconds and 7.5727 seconds precompiling

这意味着对于形状为 8x2048x3072 的矩阵乘法,torch.compile 尝试了具有各种配置的 triton 模板,这比默认代码(分派到 cublas 库)要快得多。

不幸的是,由于自动调优需要很长时间(从几秒到几分钟不等,取决于模型大小和批大小),尽管它可以缓存供以后使用,但为了用户友好性,我们默认关闭了它。如果您想获得最大性能,建议尝试通过编译特定形状来开启它。

Cudagraph 捕获

vLLM 的 V1 架构使用了与分段编译相一致的分段 cudagraph。完整的计算图如上所述被分割,我们仅捕获注意力操作之间那部分图的 cudagraph(包括任何注意力操作之前的第一个图,以及所有注意力操作之后的最后一个图)。这是基于一个常见的观察结果:注意力之间的计算通常是 Token 级的,且易于处理;而注意力操作本身在 cudagraph 兼容性方面并不简单。因此,通过以 eager 模式运行注意力操作,同时在 cudagraph 中运行其余操作,我们保持了注意力操作的灵活性。

分段 cudagraph 还具有细粒度的内存管理。其目的是仅将注意力内核排除在 cudagraph 之外,同时将所有剩余模块和内存分配操作保持在 cudagraph 中。这就是为什么 V1 中的注意力操作将输出张量作为注意力输入的原因。

Cudagraph 由编译器后端捕获和管理,并在批大小具有对应的已捕获 cudagraph 时进行重放。模型的调用者(模型运行器)只需要确保正确管理输入缓冲区即可。所有中间缓冲区由编译器后端自动管理。

默认情况下,vLLM 会尝试确定一组用于捕获 cudagraph 的尺寸。您也可以使用配置 cudagraph_capture_sizes 来覆盖它

vllm serve meta-llama/Llama-3.2-1B \
  --compilation-config '{"cudagraph_capture_sizes": [1, 2, 4, 8]}'

然后它将仅为指定的尺寸捕获 cudagraph。这对于对 cudagraph 捕获进行细粒度控制非常有用。

完整 Cudagraph 捕获

如果使用与 cudagraph 兼容的注意力后端,则可以将注意力作为 cudagraph 的一部分包含在内。这在某些情况下可以提高性能,例如针对较小模型或 MOE 的解码速度。更多详细信息,请参阅 CUDA Graphs