支持的模型#
最新信息请查看: https://github.com/vllm-project/vllm-ascend/issues/1608
纯文本语言模型#
生成式模型#
模型 |
支持 |
注意 |
BF16 |
支持的硬件 |
W8A8 |
分块预填充 |
自动前缀缓存 |
LoRA |
推测解码 |
异步调度 |
张量并行 |
流水线并行 |
专家并行 |
数据并行 |
预填充-解码分离 |
分块 AclGraph |
完整图 AclGraph |
最大模型长度 |
MLP 权重预取 |
文档 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
DeepSeek V3/3.1 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
240k |
|||||
DeepSeek V3.2 EXP |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
❌ |
160k |
||||||
DeepSeek R1 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
128k |
|||||
DeepSeek Distill (Qwen/Llama) |
✅ |
|||||||||||||||||||
Qwen3 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
128k |
✅ |
|||||||
Qwen3-based |
✅ |
|||||||||||||||||||
Qwen3-Coder |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
||||||||||
Qwen3-Moe |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
256k |
||||||
Qwen3-Next |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
||||||||||||
Qwen2.5 |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
||||||||||||
Qwen2 |
✅ |
|||||||||||||||||||
Qwen2-based |
✅ |
|||||||||||||||||||
QwQ-32B |
✅ |
|||||||||||||||||||
Llama2/3/3.1 |
✅ |
|||||||||||||||||||
Internlm |
✅ |
|||||||||||||||||||
Baichuan |
✅ |
|||||||||||||||||||
Baichuan2 |
✅ |
|||||||||||||||||||
Phi-4-mini |
✅ |
|||||||||||||||||||
MiniCPM |
✅ |
|||||||||||||||||||
MiniCPM3 |
✅ |
|||||||||||||||||||
Ernie4.5 |
✅ |
|||||||||||||||||||
Ernie4.5-Moe |
✅ |
|||||||||||||||||||
Gemma-2 |
✅ |
|||||||||||||||||||
Gemma-3 |
✅ |
|||||||||||||||||||
Phi-3/4 |
✅ |
|||||||||||||||||||
Mistral/Mistral-Instruct |
✅ |
|||||||||||||||||||
GLM-4.5 |
✅ |
|||||||||||||||||||
GLM-4 |
❌ |
|||||||||||||||||||
GLM-4-0414 |
❌ |
|||||||||||||||||||
ChatGLM |
❌ |
|||||||||||||||||||
DeepSeek V2.5 |
🟡 |
需要测试 |
||||||||||||||||||
Mllama |
🟡 |
需要测试 |
||||||||||||||||||
MiniMax-Text |
🟡 |
需要测试 |
池化模型#
模型 |
支持 |
注意 |
BF16 |
支持的硬件 |
W8A8 |
分块预填充 |
自动前缀缓存 |
LoRA |
推测解码 |
异步调度 |
张量并行 |
流水线并行 |
专家并行 |
数据并行 |
预填充-解码分离 |
分块 AclGraph |
完整图 AclGraph |
最大模型长度 |
MLP 权重预取 |
文档 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Qwen3-Embedding |
✅ |
|||||||||||||||||||
Qwen3-Reranker |
✅ |
|||||||||||||||||||
Molmo |
✅ |
|||||||||||||||||||
XLM-RoBERTa-based |
✅ |
|||||||||||||||||||
Bert |
✅ |
多模态语言模型#
生成式模型#
模型 |
支持 |
注意 |
BF16 |
支持的硬件 |
W8A8 |
分块预填充 |
自动前缀缓存 |
LoRA |
推测解码 |
异步调度 |
张量并行 |
流水线并行 |
专家并行 |
数据并行 |
预填充-解码分离 |
分块 AclGraph |
完整图 AclGraph |
最大模型长度 |
MLP 权重预取 |
文档 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Qwen2-VL |
✅ |
|||||||||||||||||||
Qwen2.5-VL |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
30k |
||||||||
Qwen3-VL |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
|||||||||||||||
Qwen3-VL-MOE |
✅ |
✅ |
A2/A3 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
256k |
||||||
Qwen2.5-Omni |
✅ |
|||||||||||||||||||
QVQ |
✅ |
|||||||||||||||||||
Qwen2-Audio |
✅ |
|||||||||||||||||||
Aria |
✅ |
|||||||||||||||||||
LLaVA-Next |
✅ |
|||||||||||||||||||
LLaVA-Next-Video |
✅ |
|||||||||||||||||||
MiniCPM-V |
✅ |
|||||||||||||||||||
Mistral3 |
✅ |
|||||||||||||||||||
Phi-3-Vision/Phi-3.5-Vision |
✅ |
|||||||||||||||||||
Gemma3 |
✅ |
|||||||||||||||||||
Llama4 |
❌ |
|||||||||||||||||||
Llama3.2 |
❌ |
|||||||||||||||||||
Keye-VL-8B-Preview |
❌ |
|||||||||||||||||||
Florence-2 |
❌ |
|||||||||||||||||||
GLM-4V |
❌ |
|||||||||||||||||||
InternVL2.0/2.5/3.0 |
❌ |
|||||||||||||||||||
Whisper |
❌ |
|||||||||||||||||||
Ultravox |
🟡 |
需要测试 |