支持的特性#
vLLM Ascend 的功能支持原则是:与 vLLM 对齐。我们也在积极与社区合作以加速支持。
功能调用:https://docs.vllm.com.cn/en/latest/features/tool_calling/
您可以查看 vLLM V1 Engine 的支持状态。以下是 vLLM Ascend 的功能支持状态
功能 |
状态 |
下一步 |
|---|---|---|
分块预填充 |
🟢 可用 |
功能性,详见详细说明: 分块预填充 |
自动前缀缓存 |
🟢 可用 |
功能性,详见详细说明: vllm-ascend#732 |
LoRA |
🟢 可用 |
|
投机解码 |
🟢 可用 |
基本支持 |
池化 |
🟢 可用 |
需要 CI 来适应更多模型;V1 支持依赖 vLLM 的支持。 |
编码器-解码器 |
🟡 计划中 |
vLLM 应首先支持此功能。 |
多模态 |
🟢 可用 |
教程,优化和适配更多模型 |
LogProbs |
🟢 可用 |
需要 CI |
Prompt logProbs |
🟢 可用 |
需要 CI |
异步输出 |
🟢 可用 |
需要 CI |
束搜索 |
🟢 可用 |
需要 CI |
引导解码 |
🟢 可用 |
|
张量并行 |
🟢 可用 |
使 TP >4 在图模式下工作。 |
流水线并行 |
🟢 可用 |
编写官方指南和教程。 |
专家并行 |
🟢 可用 |
支持动态 EPLB。 |
数据并行 |
🟢 可用 |
Qwen3 MoE 的数据并行支持。 |
预填充解码分离 |
🟢 可用 |
功能性,xPyD 受到支持。 |
量化 |
🟢 可用 |
W8A8 可用;正在开发更多量化方法支持(W4A8 等) |
图模式 |
🔵 实验性 |
实验性,详见详细说明: vllm-ascend#767 |
睡眠模式 |
🟢 可用 |
🟢 功能性:完全运行,并持续优化。
🔵 实验性:实验性支持,接口和功能可能会发生变化。
🚧 进行中:积极开发中,即将支持。
🟡 计划中:计划未来实现(部分可能有公开的 PR/RFC)。
🔴 无计划/已弃用:无计划或已被 vLLM 弃用。