vLLM CLI 指南¶
vllm 命令行工具用于运行和管理 vLLM 模型。您可以从查看帮助信息开始:
可用命令
serve¶
启动 vLLM 兼容 OpenAI 的 API 服务器。
使用模型启动
指定端口
通过 Unix 域套接字提供服务
通过 --help 查看更多选项
# To list all groups
vllm serve --help=listgroup
# To view a argument group
vllm serve --help=ModelConfig
# To view a single argument
vllm serve --help=max-num-seqs
# To search by keyword
vllm serve --help=max
# To view full help with pager (less/more)
vllm serve --help=page
请参阅 vllm serve 获取所有可用参数的完整参考。
chat¶
通过运行中的 API 服务器生成聊天补全。
# Directly connect to localhost API without arguments
vllm chat
# Specify API url
vllm chat --url http://{vllm-serve-host}:{vllm-serve-port}/v1
# Quick chat with a single prompt
vllm chat --quick "hi"
请参阅 vllm chat 获取所有可用参数的完整参考。
complete¶
通过运行中的 API 服务器根据给定的提示生成文本补全。
# Directly connect to localhost API without arguments
vllm complete
# Specify API url
vllm complete --url http://{vllm-serve-host}:{vllm-serve-port}/v1
# Quick complete with a single prompt
vllm complete --quick "The future of AI is"
请参阅 vllm complete 获取所有可用参数的完整参考。
bench¶
运行延迟在线服务吞吐量和离线推理吞吐量的基准测试。
要使用基准测试命令,请使用 pip install vllm[bench] 安装额外的依赖项。
可用命令
latency¶
对单个请求批次的延迟进行基准测试。
vllm bench latency \
--model meta-llama/Llama-3.2-1B-Instruct \
--input-len 32 \
--output-len 1 \
--enforce-eager \
--load-format dummy
请参阅 vllm bench latency 获取所有可用参数的完整参考。
serve¶
对在线服务吞吐量进行基准测试。
vllm bench serve \
--model meta-llama/Llama-3.2-1B-Instruct \
--host server-host \
--port server-port \
--random-input-len 32 \
--random-output-len 4 \
--num-prompts 5
请参阅 vllm bench serve 获取所有可用参数的完整参考。
throughput¶
基准测试离线推理吞吐量。
vllm bench throughput \
--model meta-llama/Llama-3.2-1B-Instruct \
--input-len 32 \
--output-len 1 \
--enforce-eager \
--load-format dummy
请参阅 vllm bench throughput 获取所有可用参数的完整参考。
collect-env¶
开始收集环境信息。
run-batch¶
运行批处理提示并将结果写入文件。
使用本地文件运行
vllm run-batch \
-i offline_inference/openai_batch/openai_example_batch.jsonl \
-o results.jsonl \
--model meta-llama/Meta-Llama-3-8B-Instruct
使用远程文件
vllm run-batch \
-i https://raw.githubusercontent.com/vllm-project/vllm/main/examples/offline_inference/openai_batch/openai_example_batch.jsonl \
-o results.jsonl \
--model meta-llama/Meta-Llama-3-8B-Instruct
请参阅 vllm run-batch 获取所有可用参数的完整参考。
更多帮助¶
有关任何子命令的详细选项,请使用: