跳到内容

使用 InstantTensor 加载模型权重

InstantTensor 通过分布式加载、流水线预取和直接 I/O 技术,加速了 CUDA 设备上 Safetensors 权重的加载过程。InstantTensor 在可用时还支持 GDS(GPUDirect Storage)。欲了解更多详情,请访问 InstantTensor GitHub 仓库

安装

pip install instanttensor

在 vLLM 中使用 InstantTensor

添加 --load-format instanttensor 作为命令行参数。

例如

vllm serve Qwen/Qwen2.5-0.5B --load-format instanttensor

基准测试

模型 GPU Backend 加载时间 (秒) 吞吐量 (GB/s) 加速比
Qwen3-30B-A3B 1*H200 Safetensors 57.4 1.1 1倍
Qwen3-30B-A3B 1*H200 InstantTensor 1.77 35 32.4倍
DeepSeek-R1 8*H200 Safetensors 160 4.3 1倍
DeepSeek-R1 8*H200 InstantTensor 15.3 45 10.5倍

查看完整基准测试结果,请访问 https://github.com/scitix/InstantTensor/blob/main/docs/benchmark.md