Modal¶ vLLM 可以在云端 GPU 上运行,借助 Modal,这是一个为快速自动扩缩容而设计的无服务器计算平台。 有关如何在 Modal 上部署 vLLM 的详细信息,请参阅 Modal 文档中的本教程。