跳到内容

欢迎来到 vLLM-Omni

vllm-omni

为所有人提供简单、快速、廉价的全模态模型服务

Star Watch Fork

关于

vLLM 最初是为了支持文本自动回归生成任务的大型语言模型而设计的。vLLM-Omni 是一个框架,它扩展了对全模态模型推理和服务的支持

  • 全模态:文本、图像、视频和音频数据处理
  • 非自回归架构:将 vLLM 的 AR 支持扩展到 Diffusion Transformers (DiT) 和其他并行生成模型
  • 异构输出:从传统的文本生成到多模态输出

vllm-omni-arch

vLLM-Omni 速度很快,拥有

  • 通过利用 vLLM 的高效 KV 缓存管理,实现最先进的 AR 支持
  • 流水线阶段执行重叠,实现高吞吐量性能
  • 基于 OmniConnector 的完全解耦和跨阶段动态资源分配

vLLM-Omni 灵活易用,拥有

  • 异构流水线抽象,用于管理复杂的模型工作流
  • 与流行的 Hugging Face 模型无缝集成
  • 张量、流水线、数据和专家并行支持分布式推理
  • 流式输出
  • OpenAI 兼容 API 服务器

vLLM-Omni 无缝支持 HuggingFace 上大多数流行的开源模型,包括

  • 全模态模型(例如 Qwen2.5-Omni、Qwen3-Omni)
  • 多模态生成模型(例如 Qwen-Image)

更多信息,请查看以下内容