跳到内容

vLLM CLI 指南

vllm 命令行工具用于运行和管理 vLLM 模型。您可以通过以下方式查看帮助信息来开始:

vllm --help

可用命令

vllm {chat,complete,serve,bench,collect-env,run-batch}

目录

serve

启动与 OpenAI 兼容的 vLLM API 服务器。

示例

# Start with a model
vllm serve meta-llama/Llama-2-7b-hf

# Specify the port
vllm serve meta-llama/Llama-2-7b-hf --port 8100

# Check with --help for more options
# To list all groups
vllm serve --help=listgroup

# To view a argument group
vllm serve --help=ModelConfig

# To view a single argument
vllm serve --help=max-num-seqs

# To search by keyword
vllm serve --help=max

chat

通过运行中的 API 服务器生成聊天补全。

示例

# Directly connect to localhost API without arguments
vllm chat

# Specify API url
vllm chat --url http://{vllm-serve-host}:{vllm-serve-port}/v1

# Quick chat with a single prompt
vllm chat --quick "hi"

complete

通过运行中的 API 服务器根据给定的提示生成文本补全。

示例

# Directly connect to localhost API without arguments
vllm complete

# Specify API url
vllm complete --url http://{vllm-serve-host}:{vllm-serve-port}/v1

# Quick complete with a single prompt
vllm complete --quick "The future of AI is"

bench

运行基准测试,测试延迟、在线服务吞吐量和离线推理吞吐量。

可用命令

vllm bench {latency, serve, throughput}

latency

测试单个请求批次的延迟。

示例

vllm bench latency \
    --model meta-llama/Llama-3.2-1B-Instruct \
    --input-len 32 \
    --output-len 1 \
    --enforce-eager \
    --load-format dummy

serve

测试在线服务吞吐量。

示例

vllm bench serve \
    --model meta-llama/Llama-3.2-1B-Instruct \
    --host server-host \
    --port server-port \
    --random-input-len 32 \
    --random-output-len 4  \
    --num-prompts  5

throughput

测试离线推理吞吐量。

示例

vllm bench throughput \
    --model meta-llama/Llama-3.2-1B-Instruct \
    --input-len 32 \
    --output-len 1 \
    --enforce-eager \
    --load-format dummy

collect-env

开始收集环境信息。

vllm collect-env

run-batch

运行批量提示并写入结果到文件。

示例

# Running with a local file
vllm run-batch \
    -i offline_inference/openai_batch/openai_example_batch.jsonl \
    -o results.jsonl \
    --model meta-llama/Meta-Llama-3-8B-Instruct

# Using remote file
vllm run-batch \
    -i https://raw.githubusercontent.com/vllm-project/vllm/main/examples/offline_inference/openai_batch/openai_example_batch.jsonl \
    -o results.jsonl \
    --model meta-llama/Meta-Llama-3-8B-Instruct

更多帮助

有关任何子命令的详细选项,请使用

vllm <subcommand> --help