兼容性矩阵
下表显示了互斥的功能特性以及对部分硬件的支持情况。
使用的符号具有以下含义
- ✅ = 完全兼容
- 🟠 = 部分兼容
- ❌ = 不兼容
- ❔ = 未知或待定
注意
查看带有链接的 ❌ 或 🟠 以查看不受支持的功能特性/硬件组合的跟踪问题。
功能特性 x 功能特性¶
功能特性 | 持续批处理 | 自动前缀缓存 | LoRA | Prompt Embedding | 推测解码 | CUDA graph | 池化 | 编码器-解码器 | logP | prompt logP | 异步输出 | 多步 | 多模态 | best-of | beam-search |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
持续批处理 | ✅ | ||||||||||||||
自动前缀缓存 | ✅ | ✅ | |||||||||||||
LoRA | ✅ | ✅ | ✅ | ||||||||||||
Prompt Embedding | ✅ | ✅ | ✅ | ✅ | |||||||||||
推测解码 | ✅ | ✅ | ❌ | ✅ | ✅ | ||||||||||
CUDA graph | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |||||||||
池化 | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ | ||||||||
编码器-解码器 | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ | ✅ | ✅ | |||||||
logP | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | ||||||
prompt logP | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | ✅ | |||||
异步输出 | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ | ❌ | ✅ | ✅ | ✅ | ||||
多步 | ❌ | ✅ | ❌ | ✅ | ❌ | ✅ | ❌ | ❌ | ✅ | ✅ | ✅ | ✅ | |||
多模态 | ✅ | 🟠 | 🟠 | ❔ | ❔ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❔ | ✅ | ||
best-of | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ | ✅ | ✅ | ✅ | ❔ | ❌ | ✅ | ✅ | |
beam-search | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ | ✅ | ✅ | ✅ | ❔ | ❌ | ❔ | ✅ | ✅ |
功能特性 x 硬件¶
功能特性 | Volta | Turing | Ampere | Ada | Hopper | CPU | AMD |
---|---|---|---|---|---|---|---|
持续批处理 | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
自动前缀缓存 | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
LoRA | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Prompt Embedding | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
推测解码 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
CUDA graph | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
池化 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❔ |
编码器-解码器 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ |
多模态 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
logP | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
prompt logP | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
异步输出 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
多步 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
best-of | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
beam-search | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
注意
请参考通过 NxD Inference backend 支持的功能特性,以了解 AWS Neuron 硬件上支持的功能特性