功能特性¶
兼容性矩阵¶
下表展示了互斥功能以及在某些硬件上的支持情况。
所用符号的含义如下:
- ✅ = 完全兼容
- 🟠 = 部分兼容
- ❌ = 不兼容
- ❔ = 未知或待定
注意
点击带有链接的 ❌ 或 🟠 查看不支持的功能/硬件组合的追踪问题。
功能 x 功能¶
| 功能 | CP | APC | LoRA | SD | CUDA 图 | pooling | 编解码器 (enc-dec) | logP | 提示词 logP | 异步输出 | 多步执行 | mm | best-of | 束搜索 (beam-search) | 提示词嵌入 (prompt-embeds) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CP | ✅ | ||||||||||||||
| APC | ✅ | ✅ | |||||||||||||
| LoRA | ✅ | ✅ | ✅ | ||||||||||||
| SD | ✅ | ✅ | ❌ | ✅ | |||||||||||
| CUDA 图 | ✅ | ✅ | ✅ | ✅ | ✅ | ||||||||||
| pooling | 🟠* | 🟠* | ✅ | ❌ | ✅ | ✅ | |||||||||
| 编解码器 (enc-dec) | ❌ | ❌ | ❌ | ❌ | ✅ | ✅ | ✅ | ||||||||
| logP | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | |||||||
| 提示词 logP | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | ✅ | ||||||
| 异步输出 | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ | ❌ | ✅ | ✅ | ✅ | |||||
| 多步执行 | ❌ | ✅ | ❌ | ❌ | ✅ | ❌ | ❌ | ✅ | ✅ | ✅ | ✅ | ||||
| mm | ✅ | ✅ | 🟠^ | ❔ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❔ | ✅ | |||
| best-of | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ | ✅ | ✅ | ✅ | ❔ | ❌ | ✅ | ✅ | ||
| 束搜索 (beam-search) | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ | ✅ | ✅ | ✅ | ❔ | ❌ | ❔ | ✅ | ✅ | |
| 提示词嵌入 (prompt-embeds) | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ | ❌ | ✅ | ❌ | ❔ | ❔ | ❌ | ❔ | ❔ | ✅ |
* 分块预填充 (Chunked prefill) 和前缀缓存 (Prefix caching) 仅适用于最后标记 (last-token) 或使用因果注意力机制的完整池化 (all pooling)。
^ LoRA 仅适用于多模态模型的语言主干部分。
功能 x 硬件¶
| 功能 | Volta | Turing | Ampere | Ada | Hopper | CPU | AMD | Intel GPU |
|---|---|---|---|---|---|---|---|---|
| CP | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| APC | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| LoRA | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| SD | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ |
| CUDA 图 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ |
| pooling | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 编解码器 (enc-dec) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| mm | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 提示词嵌入 (prompt-embeds) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❔ | ✅ |
| logP | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 提示词 logP | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 异步输出 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | ✅ |
| 多步执行 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ |
| best-of | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 束搜索 (beam-search) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
注意
有关 Google TPU 上的功能支持信息,请参考 TPU 推理推荐模型与功能文档。