跳到内容

Modal

vLLM 可以在云端 GPU 上运行,借助 Modal,这是一个为快速自动扩缩容而设计的无服务器计算平台。

有关如何在 Modal 上部署 vLLM 的详细信息,请参阅 Modal 文档中的本教程