跳到内容

常见问题

问:在 vLLM-Omni 中推理一个模型需要多少个芯片?

答:目前,我们支持对模型内不同阶段的模型进行原生分解式部署。有一个限制,即一个芯片只能拥有一个自回归模型阶段。这是因为 vLLM 的统一 KV 缓存管理。其他类型的阶段可以共存于一个芯片中。此限制将在后续版本中解决。

问:在尝试运行示例时,我遇到了有关 librosa 或 soundfile 后端的错误。如何解决?

答:如果您遇到有关 librosa 后端的错误,请尝试使用以下命令安装 ffmpeg。

sudo apt update
sudo apt install ffmpeg

问:我遇到了某些错误或 CI 问题,情况紧急。我该如何解决?

答:首先,您可以查看当前的 问题 以寻找可能的解决方案。如果以上均不能满足您的需求且情况紧急,请联系这些 志愿者寻求帮助。

问:vLLM-Omni 支持 AWQ 或任何其他量化吗?

答:vLLM-Omni 将模型划分为几个阶段。对于 AR 阶段,它将重用 vLLM 中 LLMEngine 的主要逻辑。因此,vLLM 中当前支持的量化应该也支持 vLLM-Omni 中的这些阶段。但系统性的验证仍在进行中。对于 DiffusionEngine 的量化,我们正在努力。请保持关注,并欢迎贡献!

问:vLLM-Omni 支持多模态流式输入和输出吗?

答:暂不支持。我们已将其添加到 路线图 中。请保持关注!