附加配置

附加配置#

附加配置是 vLLM 提供的一种机制，允许插件自行控制内部行为。VLLM Ascend 使用此机制来使项目更具灵活性。

如何使用#

用户可以在在线模式或离线模式下使用附加配置。以 Qwen3 为例

在线模式:

vllm serve Qwen/Qwen3-8B --additional-config='{"config_key":"config_value"}'

离线模式:

from vllm import LLM

LLM(model="Qwen/Qwen3-8B", additional_config={"config_key":"config_value"})

配置选项#

下表列出了 vLLM Ascend 中可用的附加配置选项

名称	类型	默认值	描述
`xlite_graph_config`	dict	`{}`	xlite 图模式的配置选项
`finegrained_tp_config`	dict	`{}`	模块张量并行化的配置选项
`weight_prefetch_config`	dict	`{}`	权重预取的配置选项
`refresh`	bool	`false`	是否刷新全局 Ascend 配置内容。这通常由 rlhf 或 ut/e2e 测试用例使用。
`expert_map_path`	str	`None`	在使用 MoE 模型的专家负载均衡时，需要传入专家映射路径。
`enable_shared_expert_dp`	bool	`False`	当专家在 DP 中共享时，性能更好但内存消耗更大。目前仅支持 DeepSeek 系列模型。
`lmhead_tensor_parallel_size`	int	`None`	lmhead 的自定义张量并行大小。限制：仅在 tensor_parallel=1 时使用
`oproj_tensor_parallel_size`	int	`None`	oproj 的自定义张量并行大小。
`multistream_overlap_shared_expert`	bool	`False`	是否启用多流共享专家。此选项仅对具有共享专家的 MoE 模型生效。
`dynamic_eplb`	bool	`False`	是否启用动态 EPLB。
`num_iterations_eplb_update`	int	`400`	EPLB 开始时的前向迭代次数。
`gate_eplb`	bool	`False`	是否仅启用一次 EPLB。
`num_wait_worker_iterations`	int	`30`	EPLB العامل将完成 CPU 任务的前向迭代次数。在我们的测试中，默认值 30 可以涵盖大多数情况。
`expert_map_record_path`	str	`None`	将专家负载计算结果保存到指定目录中的新专家表中。
`init_redundancy_expert`	int	`0`	初始化时指定冗余专家。
`dump_config`	str	`None`	msprobe dump（eager 模式）的配置文件路径。
`enable_async_exponential`	int	`0`	是否启用异步指数重叠。要启用异步指数重叠，请将此配置设置为 1。

每个配置选项的详细信息如下

xlite_graph_config

名称	类型	默认值	描述
`enabled`	bool	`False`	是否启用 xlite 图模式。目前仅支持 Llama 或 Qwen 密集系列模型。
`full_mode`	bool	`False`	是否为 prefill 和 decode 阶段启用 xlite。默认情况下，xlite 仅为 decode 阶段启用。

weight_prefetch_config

名称	类型	默认值	描述
`enabled`	bool	`False`	是否启用权重预取。
`prefetch_ratio`	dict	`{"attn": {"qkv": 1.0, "o": 1.0}, "moe": {"gate_up": 0.8}}`	每个权重的预取比例。

finegrained_tp_config

名称	类型	默认值	描述
`lmhead_tensor_parallel_size`	int	`0`	lmhead 的自定义张量并行大小。
`oproj_tensor_parallel_size`	int	`0`	oproj 的自定义张量并行大小。
`embedding_tensor_parallel_size`	int	`0`	embedding 的自定义张量并行大小。
`mlp_tensor_parallel_size`	int	`0`	mlp 的自定义张量并行大小。

示例#

附加配置的一个示例

{
    "weight_prefetch_config": {
        "enabled": True,
        "prefetch_ratio": {
            "attn": {
                "qkv": 1.0,
                "o": 1.0,
            },
            "moe": {
                "gate_up": 0.8
            }
        },
    },
    "finegrained_tp_config": {
        "lmhead_tensor_parallel_size": 8,
        "oproj_tensor_parallel_size": 8,
        "embedding_tensor_parallel_size": 8,
        "mlp_tensor_parallel_size": 8,
    },
    "multistream_overlap_shared_expert": True,
    "refresh": False,
}

附加配置

目录

附加配置#

如何使用#

配置选项#

示例#