推荐模型和功能矩阵¶
尽管 vLLM TPU 的新统一后端能够让任何 vLLM 支持的模型实现开箱即用的高性能服务,但现实是,我们仍在实现一些核心组件的过程中。因此,在我们落地更多功能之前,我们建议从以下经过压力测试的模型和功能列表中开始。
我们仍在 tpu-inference 中落地一些将提高更大规模、更复杂模型(XL MoE、+vision 编码器、MLA 等)性能的组件。
如果您希望我们优先处理特定内容,请在此处 提交 GitHub 功能请求。
推荐模型¶
这些表格显示了当前经过准确性和性能测试的模型。
仅文本模型¶
| 模型 | 单元测试 | 集成测试 | 基准测试 |
|---|---|---|---|
| meta-llama/Llama-3.3-70B-Instruct | ✅ | ✅ | ✅ |
| Qwen/Qwen3-4B | ✅ | ✅ | ✅ |
| google/gemma-3-27b-it | ✅ | ✅ | ✅ |
| Qwen/Qwen3-32B | ✅ | ✅ | ✅ |
| meta-llama/Llama-Guard-4-12B | ✅ | ✅ | ✅ |
| meta-llama/Llama-3.1-8B-Instruct | ✅ | ✅ | ✅ |
| Qwen/Qwen3-30B-A3B | ✅ | ✅ | ✅ |
多模态模型¶
| 模型 | 单元测试 | 集成测试 | 基准测试 |
|---|---|---|---|
| meta-llama/Llama-4-Maverick-17B-128E-Instruct | 未经验证 | 未经验证 | 未经验证 |
| Qwen/Qwen2.5-VL-7B-Instruct | ✅ | ✅ | ✅ |
推荐功能¶
此表显示了当前经过准确性和性能测试的功能。
| 功能 | 正确性测试 | 性能测试 |
|---|---|---|
| 分块预填充 | ✅ | ✅ |
| 基于 DCN 的 P/D 分离 | 未经验证 | 未经验证 |
| KV 缓存主机卸载 | 未经验证 | 未经验证 |
| LoRA_Torch | ✅ | 未经验证 |
| 多模态输入 | ✅ | ✅ |
| 外部模型支持 | ✅ | ✅ |
| 前缀缓存 | ✅ | ✅ |
| 单程序多数据 | ✅ | ✅ |
| 推测性解码:Eagle3 | ✅ | ✅ |
| 推测性解码:Ngram | ✅ | ✅ |
| 异步调度器 | ✅ | ✅ |
| runai_model_streamer_loader | ✅ | 不适用 |
| sampling_params | ✅ | 不适用 |
| 结构化解码 | ✅ | 不适用 |
内核支持¶
此表显示了当前的内核支持状态。
| 功能 | 正确性测试 | 性能测试 |
|---|---|---|
| 集体通信矩阵乘法 | ✅ | 未经验证 |
| MLA | 未经验证 | 未经验证 |
| MoE | 未经验证 | 未经验证 |
| 量化注意力 | 未经验证 | 未经验证 |
| 量化 KV 缓存 | 未经验证 | 未经验证 |
| 量化矩阵乘法 | 未经验证 | 未经验证 |
| Ragged Paged Attention V3 | ✅ | ✅ |
并行支持¶
此表显示了当前的并行支持状态。
| 功能 | 正确性测试 | 性能测试 |
|---|---|---|
| CP | 未经验证 | 未经验证 |
| DP | ❌ | 不适用 |
| EP | 未经验证 | 未经验证 |
| PP | ✅ | ✅ |
| SP | 未经验证 | 未经验证 |
| TP | 未经验证 | 未经验证 |
量化支持¶
此表显示了当前的量化支持状态。
| 功能 | 推荐的 TPU 代 | 正确性测试 | 性能测试 |
|---|---|---|---|
| AWQ INT4 | v5, v6 | 未经验证 | 未经验证 |
| FP4 W4A16 | v7 | 未经验证 | 未经验证 |
| FP8 W8A8 | v7 | 未经验证 | 未经验证 |
| FP8 W8A16 | v7 | 未经验证 | 未经验证 |
| INT4 W4A16 | v5, v6 | 未经验证 | 未经验证 |
| INT8 W8A8 | v5, v6 | 未经验证 | 未经验证 |