使用 CoreWeave 的 Tensorizer 加载模型

使用 CoreWeave 的 Tensorizer 加载模型#

vLLM 支持使用 CoreWeave 的 Tensorizer 加载模型。已序列化到磁盘、HTTP/HTTPS 端点或 S3 端点的 vLLM 模型张量可以在运行时极快地直接反序列化到 GPU,从而显著缩短 Pod 启动时间和 CPU 内存使用量。也支持张量加密。

有关 CoreWeave 的 Tensorizer 的更多信息,请参阅 CoreWeave 的 Tensorizer 文档。有关序列化 vLLM 模型以及将 Tensorizer 与 vLLM 一起使用的通用指南的更多信息,请参阅 vLLM 示例脚本

注意

请注意,要使用此功能,您需要运行 pip install vllm[tensorizer] 安装 tensorizer