vllm bench sweep plot_pareto¶
JSON 命令行参数¶
当传递 JSON 命令行参数时,以下几组参数是等效的
--json-arg '{"key1": "value1", "key2": {"key3": "value2"}}'--json-arg.key1 value1 --json-arg.key2.key3 value2
此外,列表元素可以使用 + 单独传递
--json-arg '{"key4": ["value3", "value4", "value5"]}'--json-arg.key4+ value3 --json-arg.key4+='value4,value5'
参数¶
--user-count-var¶
- 存储并发用户数的查询键。如果缺失,则回退至 max_concurrent_requests。
- 默认值:
max_concurrency
--gpu-count-var¶
- 存储 GPU 数量的查询键。如果未提供,则回退至 num_gpus/gpu_count 或 tensor_parallel_size * pipeline_parallel_size。
--label-by¶
- 用于在帕累托最优前沿点上进行标注的字段列表(以逗号分隔)。
- 默认值:
max_concurrency,gpu_count
--dry-run¶
- 如果设置此项,则仅打印要绘制的图形信息,而不实际进行绘制。
- 默认值:
False