使用 CoreWeave 的 Tensorizer 加载模型

vLLM 支持使用 CoreWeave 的 Tensorizer 加载模型。已序列化到磁盘、HTTP/HTTPS 端点或 S3 端点的 vLLM 模型张量可以在运行时极快地直接反序列化到 GPU,从而显著缩短 Pod 启动时间和降低 CPU 内存使用量。还支持张量加密。

有关 CoreWeave Tensorizer 的更多信息,请参阅 CoreWeave Tensorizer 文档。有关序列化 vLLM 模型以及使用 Tensorizer 与 vLLM 的一般使用指南的更多信息,请参阅 vLLM 示例脚本

注意

请注意,要使用此功能,您需要运行 pip install vllm[tensorizer] 来安装 tensorizer