推荐模型与特性矩阵¶
尽管 vLLM TPU 新的统一后端使得 vLLM 支持的任何模型都能实现开箱即用的高性能推理,但事实上我们仍在实现一些核心组件。因此,在开发出更多功能之前,我们建议从以下经过压力测试的模型和特性列表中开始使用。
我们仍在向 tpu-inference 中集成组件,这将提升更大规模、更高复杂度模型(如 XL MoE、视觉编码器、MLA 等)的性能。
如果您希望我们优先处理某些特定功能,请在此处提交 GitHub 功能请求。
推荐模型¶
下表展示了当前已通过准确性和性能测试的模型。
模型¶
| 模型 | 类型 | 单元测试 | 准确性/正确性 | 基准测试 |
|---|---|---|---|---|
| Qwen/Qwen2.5-VL-7B-Instruct | 多模态 | ✅ | ✅ | ✅ |
| Qwen/Qwen3-Omni-30B-A3B-Instruct | 多模态 | 未验证 | 未验证 | 未验证 |
| meta-llama/Llama-4-Maverick-17B-128E-Instruct | 多模态 | 未验证 | 未验证 | 未验证 |
| Qwen/Qwen3-30B-A3B | 文本 | ✅ | ✅ | ✅ |
| Qwen/Qwen3-32B | 文本 | ✅ | ✅ | ✅ |
| Qwen/Qwen3-4B | 文本 | ✅ | ✅ | ✅ |
| Qwen/Qwen3-Coder-480B-A35B-Instruct | 文本 | 未验证 | 未验证 | 未验证 |
| deepseek-ai/DeepSeek-V3.1 | 文本 | 未验证 | 未验证 | 未验证 |
| google/gemma-3-27b-it | 文本 | ✅ | ✅ | ✅ |
| meta-llama/Llama-3.1-8B-Instruct | 文本 | ✅ | ✅ | ✅ |
| meta-llama/Llama-3.3-70B-Instruct | 文本 | ✅ | ✅ | ✅ |
| meta-llama/Llama-Guard-4-12B | 文本 | ✅ | ✅ | ✅ |
| moonshotai/Kimi-K2-Thinking | 文本 | 未验证 | 未验证 | 未验证 |
| openai/gpt-oss-120b | 文本 | 未验证 | 未验证 | 未验证 |
推荐特性¶
下表展示了当前已通过准确性和性能测试的特性。
| 功能 | 正确性测试 | 性能测试 |
|---|---|---|
| 分块预填充 | ✅ | ✅ |
| 基于 DCN 的 P/D 分离 | 未验证 | ✅ |
| KV cache 主机卸载 | 未验证 | 未验证 |
| LoRA_Torch | ✅ | ✅ |
| 多模态输入 | ✅ | ✅ |
| 树外(Out-of-tree)模型支持 | ✅ | ✅ |
| 前缀缓存 | ✅ | ✅ |
| 单程序多数据 (SPMD) | ✅ | ✅ |
| 单机 P-D 分离 | 不适用 | 不适用 |
| 推测解码:Eagle3 | ✅ | ✅ |
| 推测解码:Ngram | ✅ | ✅ |
| 异步调度器 | ✅ | ✅ |
| 数据并行 (data_parallelism) | ✅ | 未验证 |
| RunAI 模型流式加载器 | ✅ | 不适用 |
| sampling_params | ✅ | 不适用 |
| 结构化解码 (structured_decoding) | ✅ | 不适用 |
Kernel 支持¶
下表展示了当前的 Kernel 支持状态。
| 功能 | 正确性测试 | 性能测试 |
|---|---|---|
| 集体通信矩阵乘法 (Collective Communication Matmul) | ✅ | 未验证 |
| MLA | 未验证 | 未验证 |
| MoE | 未验证 | 未验证 |
| 量化注意力机制 | 未验证 | 未验证 |
| 量化 KV 缓存 | 未验证 | 未验证 |
| 量化矩阵乘法 | 未验证 | 未验证 |
| Ragged Paged Attention V3 | ✅ | ✅ |
并行支持¶
下表展示了当前的并行支持状态。
| 功能 | 正确性测试 | 性能测试 |
|---|---|---|
| 上下文并行 (CP) | 未验证 | 未验证 |
| 数据并行 (DP) | ✅ | 未验证 |
| 专家并行 (EP) | ✅ | 未验证 |
| PP | ✅ | ✅ |
| 序列并行 (SP) | 未验证 | 未验证 |
| 张量并行 (TP) | ✅ | 未验证 |
量化支持¶
下表展示了当前的量化支持状态。
| 功能 | 推荐 TPU 代际 | 正确性测试 | 性能测试 |
|---|---|---|---|
| AWQ INT4 | v5, v6 | 未验证 | 未验证 |
| FP4 W4A16 | v7 | 未验证 | 未验证 |
| FP8 W8A8 | v7 | 未验证 | 未验证 |
| FP8 W8A16 | v7 | 未验证 | 未验证 |
| INT4 W4A16 | v5, v6 | 未验证 | 未验证 |
| INT8 W8A8 | v5, v6 | 未验证 | 未验证 |