欢迎来到 vLLM-Omni¶

为所有人提供简单、快速、廉价的全模态模型服务

Star Watch Fork

关于¶

vLLM 最初是为了支持文本自动回归生成任务的大型语言模型而设计的。vLLM-Omni 是一个框架，它扩展了对全模态模型推理和服务的支持

全模态：文本、图像、视频和音频数据处理
非自回归架构：将 vLLM 的 AR 支持扩展到 Diffusion Transformers (DiT) 和其他并行生成模型
异构输出：从传统的文本生成到多模态输出

vLLM-Omni 速度很快，拥有

通过利用 vLLM 的高效 KV 缓存管理，实现最先进的 AR 支持
流水线阶段执行重叠，实现高吞吐量性能
基于 OmniConnector 的完全解耦和跨阶段动态资源分配

vLLM-Omni 灵活易用，拥有

异构流水线抽象，用于管理复杂的模型工作流
与流行的 Hugging Face 模型无缝集成
张量、流水线、数据和专家并行支持分布式推理
流式输出
OpenAI 兼容 API 服务器

vLLM-Omni 无缝支持 HuggingFace 上大多数流行的开源模型，包括

全模态模型（例如 Qwen2.5-Omni、Qwen3-Omni）
多模态生成模型（例如 Qwen-Image）

更多信息，请查看以下内容