附加配置#
附加配置是 vLLM 提供的一种机制,允许插件自行控制内部行为。VLLM Ascend 使用此机制来使项目更具灵活性。
如何使用#
用户可以在在线模式或离线模式下使用附加配置。以 Qwen3 为例
在线模式:
vllm serve Qwen/Qwen3-8B --additional-config='{"config_key":"config_value"}'
离线模式:
from vllm import LLM
LLM(model="Qwen/Qwen3-8B", additional_config={"config_key":"config_value"})
配置选项#
下表列出了 vLLM Ascend 中可用的附加配置选项
名称 |
类型 |
默认值 |
描述 |
|---|---|---|---|
|
dict |
|
xlite 图模式的配置选项 |
|
dict |
|
模块张量并行化的配置选项 |
|
dict |
|
权重预取的配置选项 |
|
bool |
|
是否刷新全局 Ascend 配置内容。这通常由 rlhf 或 ut/e2e 测试用例使用。 |
|
str |
|
在使用 MoE 模型的专家负载均衡时,需要传入专家映射路径。 |
|
bool |
|
当专家在 DP 中共享时,性能更好但内存消耗更大。目前仅支持 DeepSeek 系列模型。 |
|
int |
|
lmhead 的自定义张量并行大小。限制:仅在 tensor_parallel=1 时使用 |
|
int |
|
oproj 的自定义张量并行大小。 |
|
bool |
|
是否启用多流共享专家。此选项仅对具有共享专家的 MoE 模型生效。 |
|
bool |
|
是否启用动态 EPLB。 |
|
int |
|
EPLB 开始时的前向迭代次数。 |
|
bool |
|
是否仅启用一次 EPLB。 |
|
int |
|
EPLB العامل将完成 CPU 任务的前向迭代次数。在我们的测试中,默认值 30 可以涵盖大多数情况。 |
|
str |
|
将专家负载计算结果保存到指定目录中的新专家表中。 |
|
int |
|
初始化时指定冗余专家。 |
|
str |
|
msprobe dump(eager 模式)的配置文件路径。 |
|
int |
|
是否启用异步指数重叠。要启用异步指数重叠,请将此配置设置为 1。 |
每个配置选项的详细信息如下
xlite_graph_config
名称 |
类型 |
默认值 |
描述 |
|---|---|---|---|
|
bool |
|
是否启用 xlite 图模式。目前仅支持 Llama 或 Qwen 密集系列模型。 |
|
bool |
|
是否为 prefill 和 decode 阶段启用 xlite。默认情况下,xlite 仅为 decode 阶段启用。 |
weight_prefetch_config
名称 |
类型 |
默认值 |
描述 |
|---|---|---|---|
|
bool |
|
是否启用权重预取。 |
|
dict |
|
每个权重的预取比例。 |
finegrained_tp_config
名称 |
类型 |
默认值 |
描述 |
|---|---|---|---|
|
int |
|
lmhead 的自定义张量并行大小。 |
|
int |
|
oproj 的自定义张量并行大小。 |
|
int |
|
embedding 的自定义张量并行大小。 |
|
int |
|
mlp 的自定义张量并行大小。 |
示例#
附加配置的一个示例
{
"weight_prefetch_config": {
"enabled": True,
"prefetch_ratio": {
"attn": {
"qkv": 1.0,
"o": 1.0,
},
"moe": {
"gate_up": 0.8
}
},
},
"finegrained_tp_config": {
"lmhead_tensor_parallel_size": 8,
"oproj_tensor_parallel_size": 8,
"embedding_tensor_parallel_size": 8,
"mlp_tensor_parallel_size": 8,
},
"multistream_overlap_shared_expert": True,
"refresh": False,
}