附加配置

附加配置#

附加配置是 vLLM 提供的一种机制,允许插件自行控制内部行为。VLLM Ascend 使用此机制来使项目更具灵活性。

如何使用#

用户可以在在线模式或离线模式下使用附加配置。以 Qwen3 为例

在线模式:

vllm serve Qwen/Qwen3-8B --additional-config='{"config_key":"config_value"}'

离线模式:

from vllm import LLM

LLM(model="Qwen/Qwen3-8B", additional_config={"config_key":"config_value"})

配置选项#

下表列出了 vLLM Ascend 中可用的附加配置选项

名称

类型

默认值

描述

xlite_graph_config

dict

{}

xlite 图模式的配置选项

finegrained_tp_config

dict

{}

模块张量并行化的配置选项

weight_prefetch_config

dict

{}

权重预取的配置选项

refresh

bool

false

是否刷新全局 Ascend 配置内容。这通常由 rlhf 或 ut/e2e 测试用例使用。

expert_map_path

str

None

在使用 MoE 模型的专家负载均衡时,需要传入专家映射路径。

enable_shared_expert_dp

bool

False

当专家在 DP 中共享时,性能更好但内存消耗更大。目前仅支持 DeepSeek 系列模型。

lmhead_tensor_parallel_size

int

None

lmhead 的自定义张量并行大小。限制:仅在 tensor_parallel=1 时使用

oproj_tensor_parallel_size

int

None

oproj 的自定义张量并行大小。

multistream_overlap_shared_expert

bool

False

是否启用多流共享专家。此选项仅对具有共享专家的 MoE 模型生效。

dynamic_eplb

bool

False

是否启用动态 EPLB。

num_iterations_eplb_update

int

400

EPLB 开始时的前向迭代次数。

gate_eplb

bool

False

是否仅启用一次 EPLB。

num_wait_worker_iterations

int

30

EPLB العامل将完成 CPU 任务的前向迭代次数。在我们的测试中,默认值 30 可以涵盖大多数情况。

expert_map_record_path

str

None

将专家负载计算结果保存到指定目录中的新专家表中。

init_redundancy_expert

int

0

初始化时指定冗余专家。

dump_config

str

None

msprobe dump(eager 模式)的配置文件路径。

enable_async_exponential

int

0

是否启用异步指数重叠。要启用异步指数重叠,请将此配置设置为 1。

每个配置选项的详细信息如下

xlite_graph_config

名称

类型

默认值

描述

enabled

bool

False

是否启用 xlite 图模式。目前仅支持 Llama 或 Qwen 密集系列模型。

full_mode

bool

False

是否为 prefill 和 decode 阶段启用 xlite。默认情况下,xlite 仅为 decode 阶段启用。

weight_prefetch_config

名称

类型

默认值

描述

enabled

bool

False

是否启用权重预取。

prefetch_ratio

dict

{"attn": {"qkv": 1.0, "o": 1.0}, "moe": {"gate_up": 0.8}}

每个权重的预取比例。

finegrained_tp_config

名称

类型

默认值

描述

lmhead_tensor_parallel_size

int

0

lmhead 的自定义张量并行大小。

oproj_tensor_parallel_size

int

0

oproj 的自定义张量并行大小。

embedding_tensor_parallel_size

int

0

embedding 的自定义张量并行大小。

mlp_tensor_parallel_size

int

0

mlp 的自定义张量并行大小。

示例#

附加配置的一个示例

{
    "weight_prefetch_config": {
        "enabled": True,
        "prefetch_ratio": {
            "attn": {
                "qkv": 1.0,
                "o": 1.0,
            },
            "moe": {
                "gate_up": 0.8
            }
        },
    },
    "finegrained_tp_config": {
        "lmhead_tensor_parallel_size": 8,
        "oproj_tensor_parallel_size": 8,
        "embedding_tensor_parallel_size": 8,
        "mlp_tensor_parallel_size": 8,
    },
    "multistream_overlap_shared_expert": True,
    "refresh": False,
}