支持的模型#

最新信息请查看: https://github.com/vllm-project/vllm-ascend/issues/1608

纯文本语言模型#

生成式模型#

模型

支持

注意

BF16

支持的硬件

W8A8

分块预填充

自动前缀缓存

LoRA

推测解码

异步调度

张量并行

流水线并行

专家并行

数据并行

预填充-解码分离

分块 AclGraph

完整图 AclGraph

最大模型长度

MLP 权重预取

文档

DeepSeek V3/3.1

A2/A3

240k

DeepSeek-V3.1

DeepSeek V3.2 EXP

A2/A3

160k

DeepSeek-V3.2

DeepSeek R1

A2/A3

128k

DeepSeek-R1

DeepSeek Distill (Qwen/Llama)

Qwen3

A2/A3

128k

Qwen3-Dense

Qwen3-based

Qwen3-Coder

A2/A3

Qwen3-Coder-30B-A3B 教程

Qwen3-Moe

A2/A3

256k

Qwen3-235B-A22B

Qwen3-Next

A2/A3

Qwen3-Next

Qwen2.5

A2/A3

Qwen2.5-7B

Qwen2

Qwen2-based

QwQ-32B

Llama2/3/3.1

Internlm

#1962

Baichuan

Baichuan2

Phi-4-mini

MiniCPM

MiniCPM3

Ernie4.5

Ernie4.5-Moe

Gemma-2

Gemma-3

Phi-3/4

Mistral/Mistral-Instruct

GLM-4.5

GLM-4

#2255

GLM-4-0414

#2258

ChatGLM

#554

DeepSeek V2.5

🟡

需要测试

Mllama

🟡

需要测试

MiniMax-Text

🟡

需要测试

池化模型#

模型

支持

注意

BF16

支持的硬件

W8A8

分块预填充

自动前缀缓存

LoRA

推测解码

异步调度

张量并行

流水线并行

专家并行

数据并行

预填充-解码分离

分块 AclGraph

完整图 AclGraph

最大模型长度

MLP 权重预取

文档

Qwen3-Embedding

Qwen3-Reranker

Molmo

1942

XLM-RoBERTa-based

Bert

多模态语言模型#

生成式模型#

模型

支持

注意

BF16

支持的硬件

W8A8

分块预填充

自动前缀缓存

LoRA

推测解码

异步调度

张量并行

流水线并行

专家并行

数据并行

预填充-解码分离

分块 AclGraph

完整图 AclGraph

最大模型长度

MLP 权重预取

文档

Qwen2-VL

Qwen2.5-VL

A2/A3

30k

Qwen-VL-Dense

Qwen3-VL

A2/A3

Qwen-VL-Dense

Qwen3-VL-MOE

A2/A3

256k

Qwen3-VL-235B-A22B-Instruct

Qwen2.5-Omni

Qwen2.5-Omni

QVQ

Qwen2-Audio

Aria

LLaVA-Next

LLaVA-Next-Video

MiniCPM-V

Mistral3

Phi-3-Vision/Phi-3.5-Vision

Gemma3

Llama4

1972

Llama3.2

1972

Keye-VL-8B-Preview

1963

Florence-2

2259

GLM-4V

2260

InternVL2.0/2.5/3.0
InternVideo2.5/Mono-InternVL

2064

Whisper

2262

Ultravox

🟡

需要测试