引擎参数#

引擎参数控制 vLLM 引擎的行为。

  • 对于离线推理,它们是 LLM 类的参数之一。

  • 对于在线服务,它们是 vllm serve 命令的参数之一。

下面,您可以找到每个引擎参数的解释

usage: vllm serve [-h] [--model MODEL]
                  [--task {auto,generate,embedding,embed,classify,score,reward,transcription}]
                  [--tokenizer TOKENIZER] [--hf-config-path HF_CONFIG_PATH]
                  [--skip-tokenizer-init] [--revision REVISION]
                  [--code-revision CODE_REVISION]
                  [--tokenizer-revision TOKENIZER_REVISION]
                  [--tokenizer-mode {auto,slow,mistral,custom}]
                  [--trust-remote-code]
                  [--allowed-local-media-path ALLOWED_LOCAL_MEDIA_PATH]
                  [--download-dir DOWNLOAD_DIR]
                  [--load-format {auto,pt,safetensors,npcache,dummy,tensorizer,sharded_state,gguf,bitsandbytes,mistral,runai_streamer,fastsafetensors}]
                  [--config-format {auto,hf,mistral}]
                  [--dtype {auto,half,float16,bfloat16,float,float32}]
                  [--kv-cache-dtype {auto,fp8,fp8_e5m2,fp8_e4m3}]
                  [--max-model-len MAX_MODEL_LEN]
                  [--guided-decoding-backend GUIDED_DECODING_BACKEND]
                  [--logits-processor-pattern LOGITS_PROCESSOR_PATTERN]
                  [--model-impl {auto,vllm,transformers}]
                  [--distributed-executor-backend {ray,mp,uni,external_launcher}]
                  [--pipeline-parallel-size PIPELINE_PARALLEL_SIZE]
                  [--tensor-parallel-size TENSOR_PARALLEL_SIZE]
                  [--data-parallel-size DATA_PARALLEL_SIZE]
                  [--enable-expert-parallel]
                  [--max-parallel-loading-workers MAX_PARALLEL_LOADING_WORKERS]
                  [--ray-workers-use-nsight] [--block-size {8,16,32,64,128}]
                  [--enable-prefix-caching | --no-enable-prefix-caching]
                  [--prefix-caching-hash-algo {builtin,sha256}]
                  [--disable-sliding-window] [--use-v2-block-manager]
                  [--num-lookahead-slots NUM_LOOKAHEAD_SLOTS] [--seed SEED]
                  [--swap-space SWAP_SPACE] [--cpu-offload-gb CPU_OFFLOAD_GB]
                  [--gpu-memory-utilization GPU_MEMORY_UTILIZATION]
                  [--num-gpu-blocks-override NUM_GPU_BLOCKS_OVERRIDE]
                  [--max-num-batched-tokens MAX_NUM_BATCHED_TOKENS]
                  [--max-num-partial-prefills MAX_NUM_PARTIAL_PREFILLS]
                  [--max-long-partial-prefills MAX_LONG_PARTIAL_PREFILLS]
                  [--long-prefill-token-threshold LONG_PREFILL_TOKEN_THRESHOLD]
                  [--max-num-seqs MAX_NUM_SEQS] [--max-logprobs MAX_LOGPROBS]
                  [--disable-log-stats]
                  [--quantization {aqlm,awq,deepspeedfp,tpu_int8,fp8,ptpc_fp8,fbgemm_fp8,modelopt,nvfp4,marlin,gguf,gptq_marlin_24,gptq_marlin,awq_marlin,gptq,compressed-tensors,bitsandbytes,qqq,hqq,experts_int8,neuron_quant,ipex,quark,moe_wna16,torchao,None}]
                  [--rope-scaling ROPE_SCALING] [--rope-theta ROPE_THETA]
                  [--hf-token [HF_TOKEN]] [--hf-overrides HF_OVERRIDES]
                  [--enforce-eager]
                  [--max-seq-len-to-capture MAX_SEQ_LEN_TO_CAPTURE]
                  [--disable-custom-all-reduce]
                  [--tokenizer-pool-size TOKENIZER_POOL_SIZE]
                  [--tokenizer-pool-type TOKENIZER_POOL_TYPE]
                  [--tokenizer-pool-extra-config TOKENIZER_POOL_EXTRA_CONFIG]
                  [--limit-mm-per-prompt LIMIT_MM_PER_PROMPT]
                  [--mm-processor-kwargs MM_PROCESSOR_KWARGS]
                  [--disable-mm-preprocessor-cache] [--enable-lora]
                  [--enable-lora-bias] [--max-loras MAX_LORAS]
                  [--max-lora-rank MAX_LORA_RANK]
                  [--lora-extra-vocab-size LORA_EXTRA_VOCAB_SIZE]
                  [--lora-dtype {auto,float16,bfloat16}]
                  [--long-lora-scaling-factors LONG_LORA_SCALING_FACTORS]
                  [--max-cpu-loras MAX_CPU_LORAS] [--fully-sharded-loras]
                  [--enable-prompt-adapter]
                  [--max-prompt-adapters MAX_PROMPT_ADAPTERS]
                  [--max-prompt-adapter-token MAX_PROMPT_ADAPTER_TOKEN]
                  [--device {auto,cuda,neuron,cpu,tpu,xpu,hpu}]
                  [--num-scheduler-steps NUM_SCHEDULER_STEPS]
                  [--use-tqdm-on-load | --no-use-tqdm-on-load]
                  [--multi-step-stream-outputs [MULTI_STEP_STREAM_OUTPUTS]]
                  [--scheduler-delay-factor SCHEDULER_DELAY_FACTOR]
                  [--enable-chunked-prefill [ENABLE_CHUNKED_PREFILL]]
                  [--speculative-config SPECULATIVE_CONFIG]
                  [--model-loader-extra-config MODEL_LOADER_EXTRA_CONFIG]
                  [--ignore-patterns IGNORE_PATTERNS]
                  [--preemption-mode PREEMPTION_MODE]
                  [--served-model-name SERVED_MODEL_NAME [SERVED_MODEL_NAME ...]]
                  [--qlora-adapter-name-or-path QLORA_ADAPTER_NAME_OR_PATH]
                  [--show-hidden-metrics-for-version SHOW_HIDDEN_METRICS_FOR_VERSION]
                  [--otlp-traces-endpoint OTLP_TRACES_ENDPOINT]
                  [--collect-detailed-traces COLLECT_DETAILED_TRACES]
                  [--disable-async-output-proc]
                  [--scheduling-policy {fcfs,priority}]
                  [--scheduler-cls SCHEDULER_CLS]
                  [--override-neuron-config OVERRIDE_NEURON_CONFIG]
                  [--override-pooler-config OVERRIDE_POOLER_CONFIG]
                  [--compilation-config COMPILATION_CONFIG]
                  [--kv-transfer-config KV_TRANSFER_CONFIG]
                  [--worker-cls WORKER_CLS]
                  [--worker-extension-cls WORKER_EXTENSION_CLS]
                  [--generation-config GENERATION_CONFIG]
                  [--override-generation-config OVERRIDE_GENERATION_CONFIG]
                  [--enable-sleep-mode] [--calculate-kv-scales]
                  [--additional-config ADDITIONAL_CONFIG] [--enable-reasoning]
                  [--reasoning-parser {deepseek_r1,granite}]
                  [--disable-cascade-attn]
                  [--disable-chunked-mm-input [DISABLE_CHUNKED_MM_INPUT]]

命名参数#

--model

要使用的 huggingface 模型的名称或路径。

默认值:“facebook/opt-125m”

--task

可选值:auto, generate, embedding, embed, classify, score, reward, transcription

模型要使用的任务。即使同一模型可以用于多个任务,每个 vLLM 实例仅支持一个任务。当模型仅支持一个任务时,可以使用 "auto" 来选择它;否则,您必须明确指定要使用的任务。

默认值:“auto”

--tokenizer

要使用的 huggingface tokenizer 的名称或路径。如果未指定,将使用模型名称或路径。

--hf-config-path

要使用的 huggingface config 的名称或路径。如果未指定,将使用模型名称或路径。

--skip-tokenizer-init

跳过 tokenizer 和 detokenizer 的初始化。期望输入中提供有效的 prompt_token_ids,prompt 为 None。生成的输出将包含 token ids。

--revision

要使用的特定模型版本。它可以是分支名称、标签名称或提交 ID。如果未指定,将使用默认版本。

--code-revision

用于 Hugging Face Hub 上模型代码的特定修订版本。它可以是分支名称、标签名称或提交 ID。如果未指定,将使用默认版本。

--tokenizer-revision

要使用的 huggingface tokenizer 的修订版本。它可以是分支名称、标签名称或提交 ID。如果未指定,将使用默认版本。

--tokenizer-mode

可选值:auto, slow, mistral, custom

Tokenizer 模式。

  • “auto” 将在可用时使用快速 tokenizer。

  • “slow” 将始终使用慢速 tokenizer。

  • “mistral” 将始终使用 mistral_common tokenizer。

  • “custom” 将使用 –tokenizer 选择预注册的 tokenizer。

默认值:“auto”

--trust-remote-code

信任来自 huggingface 的远程代码。

--allowed-local-media-path

允许 API 请求从服务器文件系统指定的目录读取本地图像或视频。这是一个安全风险。应仅在受信任的环境中启用。

--download-dir

下载和加载权重的目录。

--load-format

可选值:auto, pt, safetensors, npcache, dummy, tensorizer, sharded_state, gguf, bitsandbytes, mistral, runai_streamer, fastsafetensors

要加载的模型权重的格式。

  • “auto” 将尝试加载 safetensors 格式的权重,如果 safetensors 格式不可用,则回退到 pytorch bin 格式。

  • “pt” 将加载 pytorch bin 格式的权重。

  • “safetensors” 将加载 safetensors 格式的权重。

  • “npcache” 将加载 pytorch 格式的权重,并存储 numpy 缓存以加速加载。

  • “dummy” 将使用随机值初始化权重,主要用于性能分析。

  • “tensorizer” 将使用 CoreWeave 的 tensorizer 加载权重。有关更多信息,请参阅示例部分中的 Tensorize vLLM 模型脚本。

  • “runai_streamer” 将使用 Run:aiModel Streamer 加载 Safetensors 权重。

  • “bitsandbytes” 将使用 bitsandbytes 量化加载权重。

  • “sharded_state” 将从预分片检查点文件加载权重,支持高效加载张量并行模型

  • “gguf” 将从 GGUF 格式文件加载权重(详细信息请参阅 ggml-org/ggml)。

  • “mistral” 将从 Mistral 模型使用的合并 safetensors 文件加载权重。

默认值:“auto”

--config-format

可选值:auto, hf, mistral

要加载的模型配置的格式。

  • “auto” 将尝试加载 hf 格式的配置,如果不可用,则尝试加载 mistral 格式

默认值:“ConfigFormat.AUTO”

--dtype

可选值:auto, half, float16, bfloat16, float, float32

模型权重和激活的数据类型。

  • “auto” 将为 FP32 和 FP16 模型使用 FP16 精度,为 BF16 模型使用 BF16 精度。

  • “half” 用于 FP16。推荐用于 AWQ 量化。

  • “float16” 与 “half” 相同。

  • “bfloat16” 用于精度和范围之间的平衡。

  • “float” 是 FP32 精度的简写。

  • “float32” 用于 FP32 精度。

默认值:“auto”

--kv-cache-dtype

可选值:auto, fp8, fp8_e5m2, fp8_e4m3

kv 缓存存储的数据类型。如果为 “auto”,将使用模型数据类型。CUDA 11.8+ 支持 fp8 (=fp8_e4m3) 和 fp8_e5m2。ROCm (AMD GPU) 支持 fp8 (=fp8_e4m3)

默认值:“auto”

--max-model-len

模型上下文长度。如果未指定,将从模型配置自动派生。支持人类可读格式的 k/m/g/K/M/G。示例:- 1k → 1000 - 1K → 1024

--guided-decoding-backend

默认情况下,哪个引擎将用于引导解码(JSON 模式/正则表达式等)。当前支持 mlc-ai/xgrammarguidance-ai/llguidance.Valid 后端值是 “xgrammar”、“guidance” 和 “auto”。使用 “auto”,我们将根据请求内容和后端库当前支持的内容做出有倾向性的选择,因此行为可能会在每个版本中更改。

默认值:“xgrammar”

--logits-processor-pattern

可选的正则表达式模式,用于指定可以通过 logits_processors 额外完成参数传递的有效 logits 处理器限定名称。默认为 None,表示不允许使用任何处理器。

--model-impl

可选值:auto, vllm, transformers

要使用的模型的实现。

  • “auto” 将尝试使用 vLLM 实现(如果存在),如果 vLLM 实现不可用,则回退到 Transformers 实现。

  • “vllm” 将使用 vLLM 模型实现。

  • “transformers” 将使用 Transformers 模型实现。

默认值:“auto”

--distributed-executor-backend

可选值:ray, mp, uni, external_launcher

用于分布式模型工作程序的后端,可以是 “ray” 或 “mp”(多进程处理)。如果 pipeline_parallel_size 和 tensor_parallel_size 的乘积小于或等于可用 GPU 的数量,则将使用 “mp” 以保持在单个主机上进行处理。否则,如果已安装 Ray,则默认为 “ray”,否则将失败。请注意,tpu 仅支持 Ray 用于分布式推理。

--pipeline-parallel-size, -pp

管道并行阶段数。

默认值:1

--tensor-parallel-size, -tp

张量并行副本数。

默认值:1

--data-parallel-size, -dp

数据并行副本数。MoE 层将根据 tensor-parallel-size 和 data-parallel-size 的乘积进行分片。

默认值:1

--enable-expert-parallel

对 MoE 层使用专家并行而不是张量并行。

--max-parallel-loading-workers

在多个批次中顺序加载模型,以避免在使用张量并行和大型模型时出现 RAM OOM。

--ray-workers-use-nsight

如果指定,则使用 nsight 分析 Ray 工作程序。

--block-size

可选值:8, 16, 32, 64, 128

令牌块大小,用于令牌的连续块。这在 neuron 设备上被忽略,并设置为 --max-model-len。在 CUDA 设备上,仅支持最大为 32 的块大小。在 HPU 设备上,块大小默认为 128。

--enable-prefix-caching, --no-enable-prefix-caching

启用自动前缀缓存。使用 --no-enable-prefix-caching 显式禁用。

--prefix-caching-hash-algo

可选值:builtin, sha256

设置前缀缓存的哈希算法。选项为 “builtin”(Python 的内置哈希)或 “sha256”(抗冲突但具有一定的开销)。

默认值:“builtin”

--disable-sliding-window

禁用滑动窗口,限制为滑动窗口大小。

--use-v2-block-manager

[已弃用] 块管理器 v1 已被删除,SelfAttnBlockSpaceManager(即块管理器 v2)现在是默认设置。将此标志设置为 True 或 False 对 vLLM 行为没有影响。

--num-lookahead-slots

推测解码所需的实验性调度配置。这将在未来被推测配置取代;它目前存在是为了启用正确性测试。

默认值:0

--seed

操作的随机种子。

--swap-space

每个 GPU 的 CPU 交换空间大小 (GiB)。

默认值:4

--cpu-offload-gb

每个 GPU 要卸载到 CPU 的空间 (GiB)。默认值为 0,表示不卸载。直观地,此参数可以被视为增加 GPU 内存大小的虚拟方式。例如,如果您有一个 24 GB GPU 并将其设置为 10,则虚拟地您可以将其视为 34 GB GPU。然后,您可以加载一个 13B 模型(使用 BF16 权重),这至少需要 26GB GPU 内存。请注意,这需要快速的 CPU-GPU 互连,因为模型的一部分在每个模型前向传递中从 CPU 内存动态加载到 GPU 内存。

默认值:0

--gpu-memory-utilization

用于模型执行器的 GPU 内存比例,范围为 0 到 1。例如,值 0.5 表示 50% 的 GPU 内存利用率。如果未指定,将使用默认值 0.9。这是一个按实例限制,仅适用于当前的 vLLM 实例。如果您在同一 GPU 上运行另一个 vLLM 实例,则无关紧要。例如,如果您在同一 GPU 上运行两个 vLLM 实例,则可以将每个实例的 GPU 内存利用率设置为 0.5。

默认值:0.9

--num-gpu-blocks-override

如果指定,则忽略 GPU 性能分析结果,并使用此数量的 GPU 块。用于测试抢占。

--max-num-batched-tokens

每次迭代的最大批处理令牌数。

--max-num-partial-prefills

对于分块预填充,并发部分预填充的最大数量。

默认值:1

--max-long-partial-prefills

对于分块预填充,提示长度超过 –long-prefill-token-threshold 的提示的最大并发预填充数量。在某些情况下,将此值设置得小于 –max-num-partial-prefills 将允许较短的提示在较长提示之前排队,从而改善延迟。

默认值:1

--long-prefill-token-threshold

对于分块预填充,如果提示长度超过此令牌数,则认为请求是长请求。

默认值:0

--max-num-seqs

每次迭代的最大序列数。

--max-logprobs

要返回的最大对数概率数,logprobs 在 SamplingParams 中指定。

默认值:20

--disable-log-stats

禁用日志统计信息。

--quantization, -q

可选值:aqlm, awq, deepspeedfp, tpu_int8, fp8, ptpc_fp8, fbgemm_fp8, modelopt, nvfp4, marlin, gguf, gptq_marlin_24, gptq_marlin, awq_marlin, gptq, compressed-tensors, bitsandbytes, qqq, hqq, experts_int8, neuron_quant, ipex, quark, moe_wna16, torchao, None

用于量化权重的方法。如果为 None,我们首先检查模型配置文件中的 quantization_config 属性。如果为 None,我们假设模型权重未量化,并使用 dtype 确定权重的数据类型。

--rope-scaling

JSON 格式的 RoPE 缩放配置。例如,{"rope_type":"dynamic","factor":2.0}

--rope-theta

RoPE theta。与 rope_scaling 一起使用。在某些情况下,更改 RoPE theta 可以提高缩放模型的性能。

--hf-token

用作远程文件 HTTP Bearer 授权的令牌。如果为 True,将使用运行 huggingface-cli login 时生成的令牌(存储在 ~/.huggingface 中)。

--hf-overrides

HuggingFace 配置的额外参数。这应该是一个 JSON 字符串,将被解析为字典。

--enforce-eager

始终使用 eager 模式 PyTorch。如果为 False,将混合使用 eager 模式和 CUDA 图,以实现最大的性能和灵活性。

--max-seq-len-to-capture

CUDA 图覆盖的最大序列长度。当序列的上下文长度大于此值时,我们将回退到 eager 模式。此外,对于编码器-解码器模型,如果编码器输入的序列长度大于此值,我们将回退到 eager 模式。

默认值:8192

--disable-custom-all-reduce

请参阅 ParallelConfig。

--tokenizer-pool-size

用于异步令牌化的 tokenizer 池大小。如果为 0,将使用同步令牌化。

默认值:0

--tokenizer-pool-type

用于异步令牌化的 tokenizer 池类型。如果 tokenizer_pool_size 为 0,则忽略。

默认值:“ray”

--tokenizer-pool-extra-config

tokenizer 池的额外配置。这应该是一个 JSON 字符串,将被解析为字典。如果 tokenizer_pool_size 为 0,则忽略。

--limit-mm-per-prompt

对于每个多模态插件,限制每个提示允许的输入实例数。期望一个逗号分隔的项目列表,例如:image=16,video=2 允许每个提示最多 16 个图像和 2 个视频。默认为每种模态 1 个。

--mm-processor-kwargs

多模态输入映射/处理的覆盖,例如,图像处理器。例如:{"num_crops": 4}

--disable-mm-preprocessor-cache

如果为 true,则禁用多模态预处理器/映射器的缓存。(不推荐)

--enable-lora

如果为 True,则启用 LoRA 适配器的处理。

--enable-lora-bias

如果为 True,则为 LoRA 适配器启用偏置。

--max-loras

单个批次中的最大 LoRA 数量。

默认值:1

--max-lora-rank

最大 LoRA 秩。

默认值:16

--lora-extra-vocab-size

LoRA 适配器中可能存在的额外词汇表的最大大小(添加到基本模型词汇表)。

默认值:256

--lora-dtype

可选值:auto, float16, bfloat16

LoRA 的数据类型。如果为 auto,将默认为基本模型 dtype。

默认值:“auto”

--long-lora-scaling-factors

指定多个缩放因子(可以与基本模型缩放因子不同 - 请参阅例如 Long LoRA),以允许同时使用使用这些缩放因子训练的多个 LoRA 适配器。如果未指定,则仅允许使用使用基本模型缩放因子训练的适配器。

--max-cpu-loras

要存储在 CPU 内存中的最大 LoRA 数量。必须 >= max_loras。

--fully-sharded-loras

默认情况下,只有一半的 LoRA 计算与张量并行性分片。启用此功能将使用完全分片层。在高序列长度、最大秩或张量并行大小下,这可能会更快。

--enable-prompt-adapter

如果为 True,则启用 PromptAdapters 的处理。

--max-prompt-adapters

批处理中的最大 PromptAdapters 数量。

默认值:1

--max-prompt-adapter-token

最大 PromptAdapters 令牌数

默认值:0

--device

可选值:auto, cuda, neuron, cpu, tpu, xpu, hpu

vLLM 执行的设备类型。

默认值:“auto”

--num-scheduler-steps

每个调度器调用的最大前向步数。

默认值:1

--use-tqdm-on-load, --no-use-tqdm-on-load

是否在加载模型权重时启用/禁用进度条。

默认值:True

--multi-step-stream-outputs

如果为 False,则多步将在所有步骤结束时流式传输输出

默认值:True

--scheduler-delay-factor

在调度下一个提示之前应用延迟(延迟因子乘以先前的提示延迟)。

默认值:0.0

--enable-chunked-prefill

如果设置,则可以根据 max_num_batched_tokens 对预填充请求进行分块。

--speculative-config

推测解码的配置。应为 JSON 字符串。

--model-loader-extra-config

模型加载器的额外配置。这将传递给与所选 load_format 对应的模型加载器。这应该是一个 JSON 字符串,将被解析为字典。

--ignore-patterns

加载模型时要忽略的模式。默认为 original/**/* 以避免重复加载 llama 的检查点。

默认值:[]

--preemption-mode

如果为 “recompute”,则引擎通过重新计算执行抢占;如果为 “swap”,则引擎通过块交换执行抢占。

--served-model-name

API 中使用的模型名称。如果提供了多个名称,则服务器将响应任何提供的名称。响应的模型字段中的模型名称将是列表中的第一个名称。如果未指定,则模型名称将与 --model 参数相同。请注意,此名称也将用于 prometheus 指标的 model_name 标签内容中,如果提供多个名称,则指标标签将采用第一个名称。

--qlora-adapter-name-or-path

QLoRA 适配器的名称或路径。

--show-hidden-metrics-for-version

启用自指定版本以来已隐藏的已弃用 Prometheus 指标。例如,如果先前弃用的指标自 v0.7.0 版本以来已被隐藏,则您可以使用 –show-hidden-metrics-for-version=0.7 作为临时转义舱口,同时迁移到新指标。该指标很可能在即将发布的版本中完全删除。

--otlp-traces-endpoint

OpenTelemetry 跟踪将发送到的目标 URL。

--collect-detailed-traces

有效选项为 model,worker,all。仅当设置了 --otlp-traces-endpoint 时,设置此选项才有意义。如果设置,它将收集指定模块的详细跟踪信息。这涉及使用可能代价高昂和/或阻塞的操作,因此可能会对性能产生影响。

--disable-async-output-proc

禁用异步输出处理。这可能会导致性能降低。

--scheduling-policy

可选值:fcfs, priority

要使用的调度策略。“fcfs”(先进先出,即请求按到达顺序处理;默认值)或 “priority”(请求根据给定的优先级(值越低表示越早处理)和到达时间决定任何并列情况)。

默认值:“fcfs”

--scheduler-cls

要使用的调度器类。“vllm.core.scheduler.Scheduler” 是默认调度器。可以直接是类,也可以是 “mod.custom_class” 形式的类的路径。

默认值:“vllm.core.scheduler.Scheduler”

--override-neuron-config

覆盖或设置 neuron 设备配置。例如 {"cast_logits_dtype": "bloat16"}

--override-pooler-config

覆盖或设置池化模型的池化方法。例如 {"pooling_type": "mean", "normalize": false}

--compilation-config, -O

模型的 torch.compile 配置。当它是一个数字(0、1、2、3)时,它将被解释为优化级别。注意:级别 0 是没有任何优化的默认级别。级别 1 和 2 仅用于内部测试。级别 3 是推荐的生产级别。要指定完整的编译配置,请使用 JSON 字符串。按照传统编译器的约定,也支持使用不带空格的 -O。-O3 等效于 -O 3。

--kv-transfer-config

分布式 KV 缓存传输的配置。应为 JSON 字符串。

--worker-cls

用于分布式执行的工作程序类。

默认值:“auto”

--worker-extension-cls

worker cls 之上的 worker 扩展类,如果您只想向 worker 类添加新功能而不更改现有功能,这将非常有用。

默认值:“”

--generation-config

生成配置的文件夹路径。默认为 “auto”,生成配置将从模型路径加载。如果设置为 “vllm”,则不加载生成配置,将使用 vLLM 默认值。如果设置为文件夹路径,则将从指定的文件夹路径加载生成配置。如果在生成配置中指定了 max_new_tokens,则它会为所有请求设置服务器范围的输出令牌数限制。

默认值:auto

--override-generation-config

以 JSON 格式覆盖或设置生成配置。例如 {"temperature": 0.5}。如果与 –generation-config=auto 一起使用,则覆盖参数将与模型中的默认配置合并。如果 generation-config 为 None,则仅使用覆盖参数。

--enable-sleep-mode

为引擎启用睡眠模式。(仅支持 cuda 平台)

--calculate-kv-scales

当 kv-cache-dtype 为 fp8 时,启用 k_scale 和 v_scale 的动态计算。如果 calculate-kv-scales 为 false,则将从模型检查点加载比例(如果可用)。否则,比例将默认为 1.0。

--additional-config

JSON 格式的指定平台的其他配置。不同的平台可能支持不同的配置。确保配置对您正在使用的平台有效。输入格式类似于 ‘{“config_key”:”config_value”}’

--enable-reasoning

是否为模型启用 reasoning_content。如果启用,模型将能够生成推理内容。

--reasoning-parser

可选值:deepseek_r1, granite

根据您使用的模型选择推理解析器。这用于将推理内容解析为 OpenAI API 格式。 --enable-reasoning 需要此项。

--disable-cascade-attn

禁用 V1 的级联注意力。虽然级联注意力不会改变数学正确性,但禁用它可以防止潜在的数值问题。请注意,即使将其设置为 False,也仅当启发式方法表明它有益时才使用级联注意力。

--disable-chunked-mm-input

禁用 V1 的多模态输入分块注意力。如果设置为 true 并且启用了分块预填充,我们不希望部分调度多模态项目。这确保了如果请求具有混合提示(例如文本令牌 TTTT 后跟图像令牌 IIIIIIIIII),其中只能调度一些图像令牌(例如 TTTTIIIII,留下 IIIII),它将在一个步骤中调度为 TTTT,在下一步中调度为 IIIIIIIIII。

默认值:False

异步引擎参数#

异步引擎(用于在线服务)可以使用其他参数

usage: vllm serve [-h] [--disable-log-requests]

命名参数#

--disable-log-requests

禁用日志请求。