跳到内容

推荐模型和功能矩阵

尽管 vLLM TPU 的新统一后端能够让任何 vLLM 支持的模型实现开箱即用的高性能服务,但现实是,我们仍在实现一些核心组件的过程中。因此,在我们落地更多功能之前,我们建议从以下经过压力测试的模型和功能列表中开始。

我们仍在 tpu-inference 中落地一些将提高更大规模、更复杂模型(XL MoE、+vision 编码器、MLA 等)性能的组件。

如果您希望我们优先处理特定内容,请在此处 提交 GitHub 功能请求

这些表格显示了当前经过准确性和性能测试的模型。

仅文本模型

模型 单元测试 集成测试 基准测试
meta-llama/Llama-3.3-70B-Instruct
Qwen/Qwen3-4B
google/gemma-3-27b-it
Qwen/Qwen3-32B
meta-llama/Llama-Guard-4-12B
meta-llama/Llama-3.1-8B-Instruct
Qwen/Qwen3-30B-A3B

多模态模型

模型 单元测试 集成测试 基准测试
meta-llama/Llama-4-Maverick-17B-128E-Instruct 未经验证 未经验证 未经验证
Qwen/Qwen2.5-VL-7B-Instruct

此表显示了当前经过准确性和性能测试的功能。

功能 正确性测试 性能测试
分块预填充
基于 DCN 的 P/D 分离 未经验证 未经验证
KV 缓存主机卸载 未经验证 未经验证
LoRA_Torch 未经验证
多模态输入
外部模型支持
前缀缓存
单程序多数据
推测性解码:Eagle3
推测性解码:Ngram
异步调度器
runai_model_streamer_loader 不适用
sampling_params 不适用
结构化解码 不适用

内核支持

此表显示了当前的内核支持状态。

功能 正确性测试 性能测试
集体通信矩阵乘法 未经验证
MLA 未经验证 未经验证
MoE 未经验证 未经验证
量化注意力 未经验证 未经验证
量化 KV 缓存 未经验证 未经验证
量化矩阵乘法 未经验证 未经验证
Ragged Paged Attention V3

并行支持

此表显示了当前的并行支持状态。

功能 正确性测试 性能测试
CP 未经验证 未经验证
DP 不适用
EP 未经验证 未经验证
PP
SP 未经验证 未经验证
TP 未经验证 未经验证

量化支持

此表显示了当前的量化支持状态。

功能 推荐的 TPU 代 正确性测试 性能测试
AWQ INT4 v5, v6 未经验证 未经验证
FP4 W4A16 v7 未经验证 未经验证
FP8 W8A8 v7 未经验证 未经验证
FP8 W8A16 v7 未经验证 未经验证
INT4 W4A16 v5, v6 未经验证 未经验证
INT8 W8A8 v5, v6 未经验证 未经验证