发布说明#
v0.11.0 - 2025.12.16#
我们很高兴地宣布 vLLM Ascend 发布 v0.11.0。这是 v0.11.0 的正式发布版本。请遵循 官方文档 开始使用。如果需要,我们会考虑在未来发布补丁版本。此发布说明仅包含 v0.11.0rc3 的重要更改和说明。
亮点#
其他#
弃用公告#
LLMdatadist 连接器已被弃用,将在 v0.12.0rc1 中移除
Torchair 图已被弃用,将在 v0.12.0rc1 中移除
Ascend 调度器已被弃用,将在 v0.12.0rc1 中移除
升级通知#
torch-npu 已升级到 2.7.1.post1。请注意,该包已推送到 pypi 镜像。因此,很难将其添加到自动依赖中。请自行安装。
CANN 已升级到 8.3.rc2。
已知问题#
此版本中,Qwen3-Next 不支持专家并行和 MTP 功能。如果输入过长,可能会导致 OOM。我们将在下一个版本中进行改进。
此版本中,DeepSeek 3.2 仅支持 torchair 图模式。我们将在下一个版本中使其支持 aclgraph 模式。
Qwen2-audio 默认不起作用。临时解决方案是将 `--gpu-memory-utilization` 设置为合适的值,例如 0.8。
当同一节点上运行多个 vLLM 实例时,CPU 绑定功能不起作用。
v0.12.0rc1 - 2025.12.13#
这是 vLLM Ascend v0.12.0 的第一个发布候选版本。此版本中我们进行了大量的错误修复、性能改进和功能支持。欢迎任何反馈来帮助我们改进 vLLM Ascend。请遵循 官方文档 开始使用。
亮点#
DeepSeek 3.2 现已稳定且性能得到提升。此版本中,您无需再安装任何其他软件包。请遵循 官方教程 开始使用。
异步调度器现已更加稳定,可供启用。请设置 `--async-scheduling` 以启用它。
现已支持更多新模型,例如 Qwen3-omni、DeepSeek OCR、PaddleOCR、OpenCUA。
核心#
[实验性]现已支持完整的解码(decode only)图模式。虽然默认未启用,但在大多数情况下,我们建议通过 `--compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'` 来启用它。如果您遇到任何错误,请告知我们。我们将在接下来的几个版本中持续改进并默认启用它。
已添加大量 triton 内核。vLLM Ascend 的性能,特别是 Qwen3-Next 和 DeepSeek 3.2 的性能得到提升。请注意,triton 默认不安装也不启用,但我们建议在大多数情况下启用它。您可以从 包 URL 下载并手动安装。如果您使用的是 X86 架构运行 vLLM Ascend,则需要自行从 源代码 构建 triton ascend。
已添加大量 Ascend 算子以提高性能。这意味着从本版本开始,vLLM Ascend 仅与编译的自定义算子一起工作。因此,我们已移除环境变量 `COMPILE_CUSTOM_KERNELS`。您现在不能将其设置为 0。
投机解码(speculative decode)方法 `MTP` 现已更加稳定。在大多数情况下都可以启用,并且解码的 token 数量可以是 1、2、3。
现已支持投机解码(speculative decode)方法 `suffix`。感谢招商银行的贡献。
llm-comppressor 量化工具(W8A8)现已可用。您现在可以直接通过此工具部署 W8A8 量化模型。
W4A4 量化现已可用。
现已支持池化模型(Pooling model),例如 bge、reranker 等。
官方文档已改进。我们重构了教程,使其更加清晰。用户指南和开发者指南现已更加完善。我们将持续改进。
其他#
[实验性] 现已支持 Mooncake 层级连接器。
[实验性] 已添加 KV 缓存池 功能。
[实验性] 引入了一种新的图模式 `xlite`。它在某些模型上表现良好。请遵循 官方教程 开始使用。
LLMdatadist kv 连接器已被移除。请使用 mooncake 连接器代替。
Ascend 调度器已被移除。`--additional-config '{"ascend_scheudler": {"enabled": true}}'` 不再可用。
Torchair 图模式已被移除。`--additional-config '{"torchair_graph_config": {"enabled": true}}'` 不再可用。请使用 aclgraph 代替。
环境变量 `VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION` 已移除。此功能已足够稳定。我们现在默认启用它。
投机解码(speculative decode)方法 `Ngram` 已回归。
已添加 msprobe 工具,以帮助用户检查模型精度。请遵循 官方文档 开始使用。
已添加 msserviceprofiler 工具,以帮助用户分析模型性能。请遵循 官方文档 开始使用。
升级说明#
vLLM Ascend 自维护的模型文件已被移除。相关的 Python 入口点也已被移除。因此,在升级前,请在您的环境中卸载旧版本的 vLLM Ascend。
CANN 已升级到 8.3.RC2,Pytorch 和 torch-npu 已升级到 2.8.0。请勿忘记安装它们。
已删除 Python 3.9 支持,以与 vLLM v0.12.0 保持一致。
已知问题#
DeepSeek 3/3.1 和 Qwen3 在 FULL_DECODE_ONLY 图模式下不起作用。我们将在下一个版本中修复。 #4990
DeepSeek 3.2 在此版本中不支持 chat template。这是因为 vLLM v0.12.0 不支持它。我们将在下一个 v0.13.0rc1 版本中提供支持。
DeepSeek 3.2 在某些情况下在高并发下不起作用。我们将在下一个版本中修复。 #4996
我们注意到 bf16/fp16 模型性能不佳,这主要是因为 `VLLM_ASCEND_ENABLE_NZ` 默认启用。请设置 `VLLM_ASCEND_ENABLE_NZ=0` 来禁用它。我们将在下一个版本中添加自动检测机制。
投机解码(speculative decode)方法 `suffix` 不起作用。我们将在下一个版本中修复。您可以拾取此提交来解决问题: #4813
v0.11.0rc3 - 2025.12.03#
这是 vLLM Ascend v0.11.0 的第三个发布候选版本。出于质量考虑,我们在正式发布前发布了一个新的 rc 版本。感谢您的所有反馈。请遵循 官方文档 开始使用。
亮点#
其他#
v0.11.0rc2 - 2025.11.21#
这是 vLLM Ascend v0.11.0 的第二个发布候选版本。在此版本中,我们解决了许多 bug 以提高质量。感谢您的所有反馈。我们将继续致力于 bug 修复和性能改进。v0.11.0 正式版本即将发布。请遵循 官方文档 开始使用。
亮点#
核心#
其他#
已知问题#
v0.11.0rc1 - 2025.11.10#
这是 vLLM Ascend v0.11.0 的第一个发布候选版本。请遵循 官方文档 开始使用。v0.11.0 将是 vLLM Ascend 的下一个官方发布版本。我们将在未来几天内发布。任何反馈都欢迎,以帮助我们改进 v0.11.0。
亮点#
核心#
其他#
已知问题#
长时间服务后可能会发生内存泄漏和服务挂起。这是 torch-npu 的一个 bug,我们将尽快升级并修复。
qwen2.5 VL 的精度不高。这是 CANN 导致的一个 bug,我们将尽快修复。
对于长序列输入场景,有时没有响应,并且 kv 缓存使用率会变高。这是调度器的一个 bug。我们正在处理。
Qwen2-audio 默认不起作用,我们正在修复。临时解决方案是将 `--gpu-memory-utilization` 设置为合适的值,例如 0.8。
当启用专家并行运行 Qwen3-Next 时,请将 `HCCL_BUFFSIZE` 环境变量设置为合适的值,例如 1024。
DeepSeek3.2 与 aclgraph 的精度不正确。临时解决方案是将 `cudagraph_capture_sizes` 设置为适合输入批次大小的值。
v0.11.0rc0 - 2025.09.30#
这是 vLLM Ascend v0.11.0 的特别发布候选版本。请遵循 官方文档 开始使用。
亮点#
核心#
其他#
v0.10.2rc1 - 2025.09.16#
这是 vLLM Ascend v0.10.2 的第一个发布候选版本。请遵循 官方文档 开始使用。
亮点#
核心#
其他#
W8A8 量化的性能有所提升。 #2275
修复了应用投机解码和 aclgraph 时的资源限制错误。 #2472
修复了 Docker 镜像中的 git 配置错误。 #2746
修复了预填充(prefill)时滑动窗口注意力(sliding windows attention)的 bug。 #2758
添加了 Qwen3 的预填充-解码分离(Prefill-Decode Disaggregation)官方文档。 #2751
环境变量 `VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP` 现已恢复工作。 #2740
为 deepseek 添加了一个新的 oproj 改进。设置 `oproj_tensor_parallel_size` 来启用此功能。 #2167
修复了 deepseek 与 torchair 在设置 `graph_batch_sizes` 时不按预期工作的 bug。 #2760
当 kv_seqlen > 4k 时,避免在 rope 中重复生成 sin_cos_cache。 #2744
使用 flashcomm_v1 提升了 Qwen3 密集模型的性能。设置 `VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1` 和 `VLLM_ASCEND_ENABLE_FLASHCOMM=1` 来启用它。 #2779
使用 prefetch 功能提升了 Qwen3 密集模型的性能。设置 `VLLM_ASCEND_ENABLE_PREFETCH_MLP=1` 来启用它。 #2816
通过更新 rope 算子,提升了 Qwen3 MoE 模型的性能。 #2571
修复了 RLHF 场景下的权重加载错误。 #2756
添加了 warm_up_atb 步骤以加速推理。 #2823
修复了 moe 模型的 aclgraph steam 错误。 #2827
已知问题#
当 P 和 D 的 TP 大小不同时,服务器在运行 Prefill Decode Disaggregation 时会挂起。这个问题已通过 vLLM commit 修复,但未包含在 v0.10.2 中。您可以拾取此提交来修复问题。
Qwen3-Next 的 HBM 使用量高于预期。这是一个 已知问题,我们正在解决。您可以根据您的并行配置设置 `max_model_len` 和 `gpu_memory_utilization` 为合适的值,以避免 OOM 错误。
我们注意到 LoRA 在此版本中无法工作,原因是 KV 缓存的重构。我们将尽快修复。 2941
在使用 Ascend 调度器运行时,请勿启用分块预填充(chunked prefill)与前缀缓存(prefix cache)一起使用。其性能和精度不佳/不正确。 #2943
v0.10.1rc1 - 2025.09.04#
这是 vLLM Ascend v0.10.1 的第一个发布候选版本。请遵循 官方文档 开始使用。
亮点#
核心#
其他#
错误修复
通过大量的 PR 提升了性能
一系列重构 PR,以增强代码架构
参数变更
在
additional_config中添加了lmhead_tensor_parallel_size,用于启用 lmhead 张量并行。#2309移除了未使用的环境变量
HCCN_PATH,PROMPT_DEVICE_ID,DECODE_DEVICE_ID,LLMDATADIST_COMM_PORT和LLMDATADIST_SYNC_CACHE_WAIT_TIME。#2448环境变量
VLLM_LLMDD_RPC_PORT已重命名为VLLM_ASCEND_LLMDD_RPC_PORT。#2450在环境变量中添加了
VLLM_ASCEND_ENABLE_MLP_OPTIMIZE,用于在启用张量并行时是否启用 mlp 优化。此功能可在 eager 模式下提供更好的性能。#2120移除了环境变量中的
MOE_ALL2ALL_BUFFER和VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ。#2612在
additional_config中添加了enable_prefetch,用于是否启用权重预取。#2465在
additional_config.torchair_graph_config中添加了mode,在使用 torchair 的 reduce-overhead 模式时需要设置此模式。#2461在
additional_config中的enable_shared_expert_dp现在默认禁用,建议在推理 deepseek 时启用。#2457
已知问题#
v0.9.1 - 2025.09.03#
我们很高兴地宣布 vLLM Ascend 的最新官方发布。此版本包含许多功能支持、性能改进和 bug 修复。我们建议用户从 0.7.3 升级到此版本。请始终设置 VLLM_USE_V1=1 来使用 V1 引擎。
在此版本中,我们为大规模专家并行场景添加了许多增强功能。建议遵循官方指南。
请注意,此发布说明将列出自上次官方发布(v0.7.3)以来所有重要更改。
亮点#
注意#
以下说明特别针对从上次最终发布(v0.7.3)升级的用户。
从本版本开始不再支持 V0 引擎。请始终设置
VLLM_USE_V1=1来使用 vLLM Ascend 的 V1 引擎。此版本不再需要 Mindie Turbo,并且旧版本的 Mindie Turbo 不兼容。请不要安装它。目前所有功能和增强功能已包含在 vLLM Ascend 中。我们将在未来根据需要考虑将其添加回来。
Torch-npu 已升级到 2.5.1.post1。CANN 已升级到 8.2.RC1。请勿忘记升级它们。
核心#
为 V1 引擎添加了 Ascend 调度器。此调度器更适合 Ascend 硬件。
结构化输出功能现在可以在 V1 引擎上工作。
添加了一系列自定义操作以提高性能。
变更#
已知问题#
运行 MoE 模型时,Aclgraph 模式仅支持张量并行。在此版本中 DP/EP 不可用。
此版本不支持 V1 引擎的流水线并行。
如果您使用 w4a8 量化和 eager 模式,请设置
VLLM_ASCEND_MLA_PARALLEL=1以避免 OOM 错误。使用某些工具进行的精度测试可能不准确。这不会影响实际用户场景。我们将在下个发布后修复。#2654
我们注意到在使用 Prefill Decode Disaggregation 运行 vLLM Ascend 时仍然存在一些问题。例如,可能会发生内存泄漏,服务可能会卡住。这是由 vLLM 和 vLLM Ascend 的已知问题引起的。我们将在下一个发布后修复。#2650 #2604 vLLM#22736 vLLM#23554 vLLM#23981
v0.9.1rc3 - 2025.08.22#
这是 vLLM Ascend v0.9.1 的第三个候选发布。请遵循官方文档开始。
核心#
MTP 支持 V1 调度器 #2371
添加 LMhead TP 通信组 #1956
修复了 qwen3 moe 在 aclgraph 下无法工作的问题 #2478
修复了过时的
apply_grammar_bitmask方法导致的grammar_bitmaskIndexError #2314移除
chunked_prefill_for_mla#2177修复 bug 并重构了缓存掩码生成逻辑 #2326
修复了关于 ascend 调度器的配置检查逻辑 #2327
取消了 disaggregated-prefill 部署中 deepseek-mtp 和非 ascend 调度器之间的验证 #2368
修复了与 ray 分布式后端一起运行时出现的问题 #2306
修复了 ascend 调度器中不正确的 req block 长度 #2394
修复了 rope 中的头文件包含问题 #2398
修复了 mtp 配置 bug #2412
修复了因配置不匹配和
.kv_cache_bytes文件缺失导致的 torchair 运行时错误 #2312修复了错误信息并适配了
attn_metedata重构 #2402将 prefill 阶段的
with_prefillallreduce 从 cpu 移至 npu #2230
文档#
添加了 deepseek large EP 的文档 #2339
已知问题#
在 A2 (910B1) 上运行
test_aclgraph.py时,使用"full_cuda_graph": True会失败 #2182
v0.10.0rc1 - 2025.08.07#
这是 vLLM Ascend v0.10.0 的第一个候选发布。请遵循官方文档开始。V0 已从该版本完全移除。
亮点#
核心#
Ascend PyTorch 适配器 (torch_npu) 已升级到
2.7.1.dev20250724。#1562 CANN 已升级到8.2.RC1。#1653 请勿忘记在您的环境中更新它们,或使用最新的镜像。vLLM Ascend 现在可以在 Atlas 800I A3 上运行,从该版本开始将发布 A3 镜像。#1582
vLLM Ascend 支持 Kimi-K2(w8a8 量化)、Qwen3-Coder 和 GLM-4.5。请遵循此教程进行尝试。#2162
V1 现在支持流水线并行。#1800
前缀缓存功能现在与 Ascend 调度器协同工作。#1446
Torchair 图模式现在支持 tp > 4。#1508
MTP 现在支持 torchair 图模式 #2145
其他#
错误修复
通过大量的 PR 提升了性能
一系列重构 PR,以增强代码架构
参数变更
已移除
additional_config中的expert_tensor_parallel_size,EP 和 TP 现在与 vLLM 对齐。#1681在环境变量中添加
VLLM_ASCEND_MLA_PA,用于启用 deepseek mla 解码的分页注意力算子。在环境变量中添加
VLLM_ASCEND_ENABLE_MATMUL_ALLREDUCE,在启用张量并行时启用MatmulAllReduce融合内核。此功能在 A2 上得到支持,eager 模式将获得更好的性能。在环境变量中添加
VLLM_ASCEND_ENABLE_MOE_ALL2ALL_SEQ,用于启用 moe all2all seq,这提供了一个基于 alltoall 的基本框架,方便扩展。
在遵循此 rfc 后,UT 覆盖率达到 76.34%:#1298
序列并行支持 Qwen3 MoE。#2209
现已添加中文在线文档。#1870
已知问题#
v0.9.1rc2 - 2025.08.04#
这是 vLLM Ascend v0.9.1 的第二个候选发布。请遵循官方文档开始。
亮点#
模型改进#
DeepSeek DeepSeek DBO 支持和改进:#1285 #1291 #1328 #1420 #1445 #1589 #1759 #1827 #2093
DeepSeek MTP 改进和 bug 修复:#1214 #943 #1584 #1473 #1294 #1632 #1694 #1840 #2076 #1990 #2019
Qwen3 性能改进(rmsnorm/repo/mlp 操作):#1545 #1719 #1726 #1782 #1745
DeepSeek MLA 分块预填充/图模式/多流改进和 bug 修复:#1240 #933 #1135 #1311 #1750 #1872 #2170 #1551
Ray:修复使用 ray 时的设备错误,并添加 initialize_cache 和改进警告信息:#1234 #1501
图模式改进#
修复了 deepseek 与 mc2 的组合在 #1269 中存在的问题
修复了 torchair 图模式下,长序列预测时 deepseek V3/R1 模型的精度问题 #1332
修复了
torchair_graph_batch_sizesbug #1570在 #1404 中,为 torchair 图模式的 TP <= 4 启用了限制
修复了 rope 精度 bug #1887
支持 FusedMoE 中共享专家的多流 #997
在 torchair 图模式的解码过程中启用了 kvcache_nz#1098
修复了 torchair 场景下的分块预填充,解决了 UnboundLocalError: local variable ‘decode_hs_or_q_c’ 问题 #1378
改进了 w8a8 动态量化的共享专家多流性能。在 #1561
修复了设置多流时的 moe 错误。在 #1882
在 EP 场景下,将图批次大小四舍五入到 TP 大小 #1610
修复了 DP 启用时的 torchair bug #1727
在 #1675 中,为 torchair_graph_config 添加了额外检查
修复了 torchair+chunk-prefill 场景下的 rope bug #1693
torchair_graph 在 chunked_prefill 为 true 时的 bug 修复 #1748
改进了预填充优化以支持 torchair 图模式 #2090
修复了 DP 场景下的 rank 设置 #1247
重置所有未使用的位置以防止越界,以解决 GatherV3 bug #1397
在 ModelRunner 中移除重复的多模态代码 #1393
修复了 block table 形状以解决精度问题 #1297
在 #1503 中,为有限场景实现了完全图
在 #1677 中,为了性能恢复了 Full Graph 的分页注意力内核
修复了在极端
--gpu-memory-utilization场景下的 DeepSeek OOM 问题 #1829在 #2154 中,启用 TorchAir 时关闭 aclgraph
算子改进#
核心:#
CANN 已升级到 8.2.rc1 #2036
torch-npu 已升级到 2.5.1.post1 #2135
Python 已升级到 3.11 #2136
禁用了 mindie_turbo 中的量化 #1749
修复了 v0 spec decode #1323
仅在 v0 spec decode #1271 中直接启用
ACL_OP_INIT_MODE=1重构 forward_context 和 model_runner_v1 #1422
修复了 sampling params #1423
添加了启用 NZ 布局的权重开关,并为 GMM 启用了 NZ。#1409
处理 PrefillCacheHit 状态以修复前缀缓存精度 bug #1492
修复了加载权重错误并添加了新的端到端案例 #1651
优化了 deepseek 中与 rope 相关的索引选择数量。#1614
添加了 mc2 掩码 #1642
为预填充添加了分块 mc2 #1703
修复了 mc2 op GroupCoordinator 错误,在 #1711
修复了无法识别量化实际类型的问题,在 #1721
修复了 tp_size == 1 时 DeepSeek 的错误,在 #1755
在预填充节点中添加了对无延迟块的支持,在 #1691
MoE alltoallv 通信优化,适用于未量化的 RL 训练 & alltoallv 支持 dpo,在 #1547
适配了 dispatchV2 接口,在 #1822
修复了长输出时 disaggregate prefill 挂起的问题,在 #1807
修复了 engine v0 时的 flashcomm_v1,在 #1859
在某些情况下 ep_group 不等于 word_size,在 #1862。
修复了 wheel glibc 版本不兼容的问题,在 #1808。
修复了 mc2 进程组,以解决 self.cpu_group 为 None 的问题,在 #1831。
将 vllm 版本固定为 v0.9.1,以使 mypy 检查通过,在 #1904。
应用了 npu_moe_gating_top_k_softmax 来优化 moe 性能,在 #1902。
修复了 engine v0 时 path_decorator 的错误,在 #1919。
在 disaggregated-prefill 场景下避免执行 cpu all_reduce,在 #1644。
在 decode MoE 中添加了 super kernel,在 #1916
[Prefill 性能] 并行策略优化 (VRAM-Speed 权衡),在 #1802。
移除了 shared_experts.down_proj 中不必要的 reduce_results 访问,在 #2016。
使用向量化优化了 greedy reject sampler,在 #2002。
使多个 Ps 和 Ds 可以在单台机器上运行,在 #1936。
当 tp > 1 且启用了 multistream_moe 时,修复了 deepseek 模型共享专家和路由专家之间的形状冲突,在 #2075。
添加了 CPU 绑定支持 #2031。
添加了带 prefill 的 cpu allreduce 来处理 D-node 的重计算,在 #2129。
添加了 D2H & initRoutingQuantV2 来提高预填充性能,在 #2038。
文档#
已知问题#
v0.9.2rc1 - 2025.07.11#
这是 vLLM Ascend v0.9.2 的第一个发布候选版本。请遵循 官方文档 开始使用。从这个版本开始,V1 引擎将默认启用,不再需要设置 VLLM_USE_V1=1。此版本是最后一个支持 V0 引擎的版本,未来将清理 V0 代码。
亮点#
核心#
其他#
官方文档已更新,以提供更好的阅读体验。例如,添加了更多部署教程,更新了用户/开发者文档。更多指南即将推出。
修复了 deepseek V3/R1 模型在长序列预测时使用 torchair graph 的准确性问题。 #1331
添加了一个新的环境变量
VLLM_ENABLE_FUSED_EXPERTS_ALLGATHER_EP。它启用了用于 Deepseek V3/R1 模型的融合 allgather-experts 内核。默认值为0。 #1335添加了一个新的环境变量
VLLM_ASCEND_ENABLE_TOPK_TOPP_OPTIMIZATION,以提高 topk-topp 采样的性能。默认值为 0,我们将在未来考虑将其设为默认值 #1732Ascend 调度器现已支持前缀缓存。 #1446
DeepSeek 现已支持前缀缓存。 #1498
支持 prompt logprobs 以在 V1 中恢复 ceval 准确性 #1483
已知问题#
流水线并行在与 ray 和 graph 模式一起使用时不起作用:https://github.com/vllm-project/vllm-ascend/issues/1751 https://github.com/vllm-project/vllm-ascend/issues/1754
新贡献者#
@xleoken 在 https://github.com/vllm-project/vllm-ascend/pull/1357 中首次贡献
@lyj-jjj 在 https://github.com/vllm-project/vllm-ascend/pull/1335 中首次贡献
@sharonyunyun 在 https://github.com/vllm-project/vllm-ascend/pull/1194 中首次贡献
@Pr0Wh1teGivee 在 https://github.com/vllm-project/vllm-ascend/pull/1308 中首次贡献
@leo-pony 在 https://github.com/vllm-project/vllm-ascend/pull/1374 中首次贡献
@zeshengzong 在 https://github.com/vllm-project/vllm-ascend/pull/1452 中首次贡献
@GDzhu01 在 https://github.com/vllm-project/vllm-ascend/pull/1477 中首次贡献
@Agonixiaoxiao 在 https://github.com/vllm-project/vllm-ascend/pull/1531 中首次贡献
@zhanghw0354 在 https://github.com/vllm-project/vllm-ascend/pull/1476 中首次贡献
@farawayboat 在 https://github.com/vllm-project/vllm-ascend/pull/1591 中首次贡献
@ZhengWG 在 https://github.com/vllm-project/vllm-ascend/pull/1196 中首次贡献
@wm901115nwpu 在 https://github.com/vllm-project/vllm-ascend/pull/1654 中首次贡献
完整变更日志: https://github.com/vllm-project/vllm-ascend/compare/v0.9.1rc1…v0.9.2rc1
v0.9.1rc1 - 2025.06.22#
这是 vLLM Ascend v0.9.1 的第一个发布候选版本。请遵循 官方文档 开始使用。
实验性#
在此版本中,Atlas 300I 系列得到实验性支持(功能测试通过 Qwen2.5-7b-instruct/Qwen2.5-0.5b/Qwen3-0.6B/Qwen3-4B/Qwen3-8B)。 #1333
支持 EAGLE-3 用于投机解码。 #1032
经过仔细考虑,考虑到 v0.9.1 的发布质量和功能快速迭代,以上功能**将不包含在 v0.9.1-dev 分支 (v0.9.1 最终发布) 中**。我们将在 0.9.2rc1 及以后改进这一点。
核心#
其他改进#
MLA 的初始 Chunked Prefill 支持。 #1172
添加了运行 DeepSeek 与 ETP 的最佳实践示例。 #1101
支持使用 AscendScheduler 进行投机解码功能。 #943
提高了
VocabParallelEmbedding自定义 op 的性能。将在下个版本中启用。 #796修复了在 Ray 上运行 vLLM Ascend 时出现的设备发现和设置错误 #884
修复了带有静态 EPLB 功能的 log2phy NoneType 错误。 #1186
重构 AscendFusedMoE #1229
添加了初始用户故事页面 (包括 LLaMA-Factory/TRL/verl/MindIE Turbo/GPUStack) #1224
添加单元测试框架 #1201
已知问题#
完整变更日志#
https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2…v0.9.1rc1
新贡献者#
@farawayboat 在 https://github.com/vllm-project/vllm-ascend/pull/1333 中首次贡献
@yzim 在 https://github.com/vllm-project/vllm-ascend/pull/1159 中首次贡献
@chenwaner 在 https://github.com/vllm-project/vllm-ascend/pull/1098 中首次贡献
@wangyanhui-cmss 在 https://github.com/vllm-project/vllm-ascend/pull/1184 中首次贡献
@songshanhu07 在 https://github.com/vllm-project/vllm-ascend/pull/1186 中首次贡献
@yuancaoyaoHW 在 https://github.com/vllm-project/vllm-ascend/pull/1032 中首次贡献
完整变更日志: https://github.com/vllm-project/vllm-ascend/compare/v0.9.0rc2…v0.9.1rc1
v0.9.0rc2 - 2025.06.10#
此版本包含对 v0.9.0rc1 的一些快速修复。请使用此版本而非 v0.9.0rc1。
亮点#
修复了未以可编辑方式安装 vllm-ascend 时的导入错误。 #1152
v0.9.0rc1 - 2025.06.09#
这是 vllm-ascend v0.9.0 的第一个发布候选版本。请遵循 官方文档 开始您的旅程。从这个版本开始,推荐使用 V1 引擎。V0 引擎的代码已冻结,不再维护。请设置环境变量 VLLM_USE_V1=1 来启用 V1 引擎。
亮点#
核心#
模型#
其他#
已知问题#
在某些情况下,启用 aclgraph 时 vLLM 进程可能会因 **GatherV3** 错误而崩溃。我们正在处理此问题,将在下一个版本中修复。
多节点数据并行在此版本中不起作用。这是 vllm 中的一个已知问题,已在 main 分支中修复。 #18981
v0.7.3.post1 - 2025.05.29#
这是 0.7.3 的第一个发布后版本。请遵循 官方文档 开始您的旅程。它包括以下更改:
亮点#
错误修复#
文档#
v0.7.3 - 2025.05.08#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend 发布 0.7.3 版本。这是第一个正式版本。此版本的各项功能、性能和稳定性均经过全面测试和验证。我们鼓励您尝试并提供反馈。如果需要,我们将在未来发布错误修复版本。请遵循 官方文档 开始您的旅程。
亮点#
此版本包含了先前版本候选版本 (v0.7.1rc1, v0.7.3rc1, v0.7.3rc2) 中已合并的所有功能。所有功能均经过全面测试和验证。请访问官方文档获取详细信息,了解 功能 和 模型 支持矩阵。
将 CANN 升级到 8.1.RC1,以启用分块预填充和自动前缀缓存功能。您现在可以启用它们。
升级 PyTorch 到 2.5.1。vLLM Ascend 不再依赖 torch-npu 的开发版本。现在用户无需手动安装 torch-npu。torch-npu 的 2.5.1 版本将自动安装。 #662
将 MindIE Turbo 集成到 vLLM Ascend 中,以提高 DeepSeek V3/R1 和 Qwen 2 系列的性能。 #708
核心#
现已支持 LoRA、Multi-LoRA 和动态服务。性能将在下一个版本中得到提升。请遵循官方文档以获取更多使用信息。感谢招商银行的贡献。 #700
模型#
其他#
v0.8.5rc1 - 2025.05.06#
这是 vllm-ascend v0.8.5 的第一个发布候选版本。请遵循 官方文档 开始您的旅程。现在您可以通过设置环境变量 VLLM_USE_V1=1 来启用 V1 引擎,请在此处查看 vLLM Ascend 的功能支持状态:这里。
亮点#
核心#
升级 vLLM 到 0.8.5.post1 #715
修复 profile_run 期间 CustomDeepseekV2MoE.forward 中的提前返回 #682
适配 modelslim 生成的新量化模型 #719
基于 llm_datadist 的 P2P 离散预填充的初始支持 #694
使用
/vllm-workspace作为代码路径,并将.git包含在容器镜像中,以修复在/workspace下启动 vllm 的问题 #726优化 NPU 内存使用,使 DeepSeek R1 W8A8 32K 模型长度工作。 #728
修复 setup.py 中的
PYTHON_INCLUDE_PATH拼写错误 #762
其他#
v0.8.4rc2 - 2025.04.29#
这是 vllm-ascend v0.8.4 的第二个发布候选版本。请遵循 官方文档 开始您的旅程。此版本包含一些实验性功能,例如 W8A8 量化和 EP/DP 支持。我们将在下一个版本中使其足够稳定。
亮点#
核心#
其他#
v0.8.4rc1 - 2025.04.18#
这是 vllm-ascend v0.8.4 的第一个发布候选版本。请遵循 官方文档 开始您的旅程。从这个版本开始,vllm-ascend 将遵循最新的 vllm 版本并每两周发布一次。例如,如果 vllm 在未来两周内发布 v0.8.5,vllm-ascend 将发布 v0.8.5rc1 而不是 v0.8.4rc2。请从 官方文档 中查找详细信息。
亮点#
核心#
其他#
v0.7.3rc2 - 2025.03.29#
这是 v0.7.3 的第二个候选版本,适用于 vllm-ascend。请遵循 官方文档 开始您的旅程。
通过容器快速入门: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
安装: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html
亮点#
核心#
将 torch_npu 版本更新至 dev20250320.3 以提高精度,修复
!!!输出问题。 #406
模型#
通过优化 patch embedding (Conv3D) 提高了 Qwen2-vl 的性能。 #398
其他#
v0.7.3rc1 - 2025.03.14#
🎉 你好,世界!这是 vllm-ascend v0.7.3 的第一个候选版本。请遵循 官方文档 开始您的旅程。
通过容器快速入门: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/quick_start.html
安装: https://vllm-ascend.readthedocs.io/en/v0.7.3-dev/installation.html
亮点#
核心#
将 torch_npu 版本更新至 dev20250308.3 以提高
_exponential精度添加了对池化模型(pooling models)的初始支持。Bert 模型,例如
BAAI/bge-base-en-v1.5和BAAI/bge-reranker-v2-m3现已可用。 #229
模型#
其他#
已知问题#
v0.7.1rc1 - 2025.02.19#
🎉 你好,世界!
我们很高兴地宣布 vllm-ascend v0.7.1 的第一个候选版本。
vLLM Ascend Plugin (vllm-ascend) 是一个社区维护的硬件插件,用于在 Ascend NPU 上运行 vLLM。通过此版本,用户现在可以在 Ascend NPU 上享受 vLLM 的最新功能和改进。
请遵循 官方文档 开始您的旅程。请注意,这是一个候选版本,可能存在一些 bug 或问题。我们非常感谢您的反馈和建议 在此处。
亮点#
核心#
其他#
已知问题#
此版本依赖于未发布的 torch_npu 版本。它已安装在官方容器镜像中。如果您使用的是非容器环境,请 手动安装。
运行 vllm-ascend 时会显示类似
No platform detected, vLLM is running on UnspecifiedPlatform或Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")的日志。这实际上并不影响任何功能和性能。您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 中。运行 vllm-ascend 时会显示类似
# CPU blocks: 35064, # CPU blocks: 2730的日志,而应为# NPU blocks:。这实际上并不影响任何功能和性能。您可以忽略它。此问题已在此 PR 中修复,并将很快包含在 v0.7.3 中。