功能指南# 本节将概述 vLLM Ascend 中实现的功能。开发人员可以参考本指南来了解 vLLM Ascend 的工作原理。 功能指南 vLLM Ascend 中的补丁 为模型推理准备输入 Prefill 分离 专家并行负载均衡器 (EPLB) 多 Token 预测 (MTP) ACL 图 KV 缓存池 添加自定义 aclnn 算子