使用 InstantTensor 加载模型权重¶
InstantTensor 通过分布式加载、流水线预取和直接 I/O 技术,加速了 CUDA 设备上 Safetensors 权重的加载过程。InstantTensor 在可用时还支持 GDS(GPUDirect Storage)。欲了解更多详情,请访问 InstantTensor GitHub 仓库。
安装¶
在 vLLM 中使用 InstantTensor¶
添加 --load-format instanttensor 作为命令行参数。
例如
基准测试¶
| 模型 | GPU | Backend | 加载时间 (秒) | 吞吐量 (GB/s) | 加速比 |
|---|---|---|---|---|---|
| Qwen3-30B-A3B | 1*H200 | Safetensors | 57.4 | 1.1 | 1倍 |
| Qwen3-30B-A3B | 1*H200 | InstantTensor | 1.77 | 35 | 32.4倍 |
| DeepSeek-R1 | 8*H200 | Safetensors | 160 | 4.3 | 1倍 |
| DeepSeek-R1 | 8*H200 | InstantTensor | 15.3 | 45 | 10.5倍 |
查看完整基准测试结果,请访问 https://github.com/scitix/InstantTensor/blob/main/docs/benchmark.md。