欢迎来到 vLLM-Omni¶
为所有人提供简单、快速、廉价的全模态模型服务
关于¶
vLLM 最初是为了支持文本自动回归生成任务的大型语言模型而设计的。vLLM-Omni 是一个框架,它扩展了对全模态模型推理和服务的支持
- 全模态:文本、图像、视频和音频数据处理
- 非自回归架构:将 vLLM 的 AR 支持扩展到 Diffusion Transformers (DiT) 和其他并行生成模型
- 异构输出:从传统的文本生成到多模态输出
vLLM-Omni 速度很快,拥有
- 通过利用 vLLM 的高效 KV 缓存管理,实现最先进的 AR 支持
- 流水线阶段执行重叠,实现高吞吐量性能
- 基于 OmniConnector 的完全解耦和跨阶段动态资源分配
vLLM-Omni 灵活易用,拥有
- 异构流水线抽象,用于管理复杂的模型工作流
- 与流行的 Hugging Face 模型无缝集成
- 张量、流水线、数据和专家并行支持分布式推理
- 流式输出
- OpenAI 兼容 API 服务器
vLLM-Omni 无缝支持 HuggingFace 上大多数流行的开源模型,包括
- 全模态模型(例如 Qwen2.5-Omni、Qwen3-Omni)
- 多模态生成模型(例如 Qwen-Image)
更多信息,请查看以下内容

