支持的功能

支持的特性#

vLLM Ascend 的功能支持原则是:与 vLLM 对齐。我们也在积极与社区合作以加速支持。

功能调用:https://docs.vllm.com.cn/en/latest/features/tool_calling/

您可以查看 vLLM V1 Engine 的支持状态。以下是 vLLM Ascend 的功能支持状态

功能

状态

下一步

分块预填充

🟢 可用

功能性,详见详细说明: 分块预填充

自动前缀缓存

🟢 可用

功能性,详见详细说明: vllm-ascend#732

LoRA

🟢 可用

vllm-ascend#396, vllm-ascend#893

投机解码

🟢 可用

基本支持

池化

🟢 可用

需要 CI 来适应更多模型;V1 支持依赖 vLLM 的支持。

编码器-解码器

🟡 计划中

vLLM 应首先支持此功能。

多模态

🟢 可用

教程,优化和适配更多模型

LogProbs

🟢 可用

需要 CI

Prompt logProbs

🟢 可用

需要 CI

异步输出

🟢 可用

需要 CI

束搜索

🟢 可用

需要 CI

引导解码

🟢 可用

vllm-ascend#177

张量并行

🟢 可用

使 TP >4 在图模式下工作。

流水线并行

🟢 可用

编写官方指南和教程。

专家并行

🟢 可用

支持动态 EPLB。

数据并行

🟢 可用

Qwen3 MoE 的数据并行支持。

预填充解码分离

🟢 可用

功能性,xPyD 受到支持。

量化

🟢 可用

W8A8 可用;正在开发更多量化方法支持(W4A8 等)

图模式

🔵 实验性

实验性,详见详细说明: vllm-ascend#767

睡眠模式

🟢 可用

  • 🟢 功能性:完全运行,并持续优化。

  • 🔵 实验性:实验性支持,接口和功能可能会发生变化。

  • 🚧 进行中:积极开发中,即将支持。

  • 🟡 计划中:计划未来实现(部分可能有公开的 PR/RFC)。

  • 🔴 无计划/已弃用:无计划或已被 vLLM 弃用。