跳到内容

推荐模型与特性矩阵

尽管 vLLM TPU 新的统一后端使得 vLLM 支持的任何模型都能实现开箱即用的高性能推理,但事实上我们仍在实现一些核心组件。因此,在开发出更多功能之前,我们建议从以下经过压力测试的模型和特性列表中开始使用。

我们仍在向 tpu-inference 中集成组件,这将提升更大规模、更高复杂度模型(如 XL MoE、视觉编码器、MLA 等)的性能。

如果您希望我们优先处理某些特定功能,请在此处提交 GitHub 功能请求。

下表展示了当前已通过准确性和性能测试的模型。

模型

模型 类型 单元测试 准确性/正确性 基准测试
Qwen/Qwen2.5-VL-7B-Instruct 多模态
Qwen/Qwen3-Omni-30B-A3B-Instruct 多模态 未验证 未验证 未验证
meta-llama/Llama-4-Maverick-17B-128E-Instruct 多模态 未验证 未验证 未验证
Qwen/Qwen3-30B-A3B 文本
Qwen/Qwen3-32B 文本
Qwen/Qwen3-4B 文本
Qwen/Qwen3-Coder-480B-A35B-Instruct 文本 未验证 未验证 未验证
deepseek-ai/DeepSeek-V3.1 文本 未验证 未验证 未验证
google/gemma-3-27b-it 文本
meta-llama/Llama-3.1-8B-Instruct 文本
meta-llama/Llama-3.3-70B-Instruct 文本
meta-llama/Llama-Guard-4-12B 文本
moonshotai/Kimi-K2-Thinking 文本 未验证 未验证 未验证
openai/gpt-oss-120b 文本 未验证 未验证 未验证

下表展示了当前已通过准确性和性能测试的特性。

功能 正确性测试 性能测试
分块预填充
基于 DCN 的 P/D 分离 未验证
KV cache 主机卸载 未验证 未验证
LoRA_Torch
多模态输入
树外(Out-of-tree)模型支持
前缀缓存
单程序多数据 (SPMD)
单机 P-D 分离 不适用 不适用
推测解码:Eagle3
推测解码:Ngram
异步调度器
数据并行 (data_parallelism) 未验证
RunAI 模型流式加载器 不适用
sampling_params 不适用
结构化解码 (structured_decoding) 不适用

Kernel 支持

下表展示了当前的 Kernel 支持状态。

功能 正确性测试 性能测试
集体通信矩阵乘法 (Collective Communication Matmul) 未验证
MLA 未验证 未验证
MoE 未验证 未验证
量化注意力机制 未验证 未验证
量化 KV 缓存 未验证 未验证
量化矩阵乘法 未验证 未验证
Ragged Paged Attention V3

并行支持

下表展示了当前的并行支持状态。

功能 正确性测试 性能测试
上下文并行 (CP) 未验证 未验证
数据并行 (DP) 未验证
专家并行 (EP) 未验证
PP
序列并行 (SP) 未验证 未验证
张量并行 (TP) 未验证

量化支持

下表展示了当前的量化支持状态。

功能 推荐 TPU 代际 正确性测试 性能测试
AWQ INT4 v5, v6 未验证 未验证
FP4 W4A16 v7 未验证 未验证
FP8 W8A8 v7 未验证 未验证
FP8 W8A16 v7 未验证 未验证
INT4 W4A16 v5, v6 未验证 未验证
INT8 W8A8 v5, v6 未验证 未验证