源代码 examples/offline_inference/profiling_tpu

vLLM TPU 性能分析#

此脚本用于分析 vLLM 在特定预填充或解码令牌形状下的 TPU 性能。

注意:实际运行的服务器是多种形状的预填充和多种形状的解码的混合。

我们假设您已在 TPU 上(这已在 TPU v6e 上测试),并已按照安装指南安装了 vLLM。

在以下所有示例中,我们在之前运行了多次预热(因此 --enforce-eager 可以接受)

性能分析示例#

生成预填充跟踪#

此示例使用单个 1024 个输入令牌的请求运行 Qwen/Qwen2.5-7B-Instruct。 此设置旨在仅分析预填充时间和操作。

export XLA_HLO_DEBUG=1
export MODEL=Qwen/Qwen2.5-7B-Instruct
export VLLM_TPU_PROFILE_DURATION_MS=3000
export VLLM_TPU_PROFILE_DELAY_MS=0

python3 profiling.py \
    --model $MODEL \
    --input-len 1024 --output-len 1 \
    --batch-size 1 --enforce-eager \
    --max-model-len 2048 \
    --tensor-parallel-size 1 \
    --profile-result-dir profiles

生成解码跟踪#

此示例使用一批 32 个请求运行 Llama 3.1 70B,其中每个请求有 1 个输入令牌和 128 个输出令牌。 此设置旨在通过具有极小的 1 个令牌的预填充并设置 VLLM_TPU_PROFILE_DELAY_MS=1000 来跳过推理的第一秒(希望是预填充),从而仅分析并行运行的 32 个解码。

export XLA_HLO_DEBUG=1
export MODEL=meta-llama/Llama-3.1-70B-Instruct
export VLLM_TPU_PROFILE_DURATION_MS=2000
export VLLM_TPU_PROFILE_DELAY_MS=1000

rm -rf ~/.cache/vllm/xla_cache
python3 profiling.py \
    --model $MODEL \
    --input-len 1 \
    --output-len 128 \
    --batch-size 32 \
    --enforce-eager \
    --profile-result-dir profiles \
    --max-model-len 2048 --tensor-parallel-size 8

可视化性能分析#

收集此脚本的性能分析后,您可以使用 TensorBoard 可视化它们。

以下是您可能需要安装的大部分依赖项

pip install tensorflow-cpu tensorboard-plugin-profile etils importlib_resources

然后,您只需将 TensorBoard 指向您保存性能分析的目录,并在浏览器中访问 https://127.0.0.1:6006/

tensorboard --logdir profiles/ --port 6006

示例材料#