使用 Run:ai Model Streamer 加载模型

目录

使用 Run:ai Model Streamer 加载模型#

Run:ai Model Streamer 是一个用于并发读取张量,同时将其流式传输到 GPU 内存的库。更多信息请参考 Run:ai Model Streamer 文档

vLLM 支持使用 Run:ai Model Streamer 加载 Safetensors 格式的权重。您首先需要安装 vLLM RunAI 可选依赖项

pip3 install vllm[runai]

要将其作为 OpenAI 兼容服务器运行,请添加 --load-format runai_streamer 标志

vllm serve /home/meta-llama/Llama-3.2-3B-Instruct --load-format runai_streamer

要从 AWS S3 对象存储运行模型,请运行

vllm serve s3://core-llm/Llama-3-8b --load-format runai_streamer

要从 S3 兼容对象存储运行模型,请运行

RUNAI_STREAMER_S3_USE_VIRTUAL_ADDRESSING=0 AWS_EC2_METADATA_DISABLED=true AWS_ENDPOINT_URL=https://storage.googleapis.com vllm serve s3://core-llm/Llama-3-8b --load-format runai_streamer

可调参数#

您可以使用 --model-loader-extra-config 调整参数

您可以调整 concurrency,它控制并发级别和从文件读取张量到 CPU 缓冲区的操作系统线程数。对于从 S3 读取,这将是主机打开到 S3 服务器的客户端实例数。

vllm serve /home/meta-llama/Llama-3.2-3B-Instruct --load-format runai_streamer --model-loader-extra-config '{"concurrency":16}'

您可以控制 CPU 内存缓冲区的大小,张量从文件读取到该缓冲区,并限制此大小。您可以点击这里进一步了解 CPU 缓冲区内存限制。

vllm serve /home/meta-llama/Llama-3.2-3B-Instruct --load-format runai_streamer --model-loader-extra-config '{"memory_limit":5368709120}'

注意

有关可调参数和可通过环境变量配置的其他参数的更多说明,请阅读环境变量文档