跳到内容

功能特性

兼容性矩阵

下表显示了互斥的功能以及在某些硬件上的支持情况。

使用的符号具有以下含义

  • ✅ = 完全兼容
  • 🟠 = 部分兼容
  • ❌ = 不兼容
  • ❔ = 未知或待定

注意

查看带有链接的 ❌ 或 🟠 以查看不支持的功能/硬件组合的跟踪问题。

特性 x 特性

功能 CP APC LoRA SD CUDA graph pooling enc-dec logP prmpt logP async output multi-step mm best-of beam-search prompt-embeds
CP
APC
LoRA
SD
CUDA graph
pooling 🟠* 🟠*
enc-dec
logP
prmpt logP
async output
multi-step
mm 🟠^
best-of
beam-search
prompt-embeds

* 分块预填充和前缀缓存仅适用于因果注意力机制的最后一个 token 或全部 pooling。
^ LoRA 仅适用于多模态模型的语言主干。

特性 x 硬件

功能 Volta Turing Ampere Ada Hopper CPU AMD Intel GPU
CP
APC
LoRA
SD 🟠
CUDA graph
pooling
enc-dec
mm
prompt-embeds
logP
prmpt logP
async output
multi-step
best-of
beam-search

注意

有关 Google TPU 上功能支持的信息,请参阅 TPU-Inference 推荐模型和功能 文档。