vLLM-Omni

配置选项

正在初始化搜索

vllm-project/vllm-omni

主页
用户指南
开发者指南
API 参考
CLI 参考
社区

vLLM-Omni

vllm-project/vllm-omni

主页
用户指南
用户指南
- 入门
  入门
  - 快速入门
  - 安装
    
    安装
    
    GPU
    
    NPU
- 示例
  示例
  - 离线推理
    离线推理
    
    图像到图像
    
    Qwen2.5-Omni
    
    Qwen3-Omni
    
    文本到图像
    
    文本到视频
  - 在线服务
    在线服务
    
    图像到图像
    
    Qwen2.5-Omni
    
    Qwen3-Omni
    
    文本到图像
- 通用
  通用
  - 常见问题
- 配置
  配置
  - GPU内存计算与配置
  - vLLM-Omni 的阶段配置
- 扩散加速
  扩散加速
  - 概述
  - 加速方法
    加速方法
    
    TeaCache
    
    Cache-DiT
    
    并行加速
- 模型
  模型
  - 支持的模型
开发者指南
开发者指南
- 通用
  通用
  - vLLM-Omni 性能分析 (即将更新)
- 模型实现
  模型实现
- CI
  持续集成 (CI)
  - CI 失败
- 测试
  测试
  - 测试文件结构和风格指南
- 设计文档
  设计文档
  - 架构概述
  - 功能设计
    功能设计
    
    全模态模型的解耦推理
    
    多请求流式传输
    
    分布式工具
  - 模块设计
    模块设计
    
    Ar 模块
    
    Dit 模块
    
    入口模块
- 文档指南
API 参考
API 参考
- vllm_omni
  vllm_omni
  - logger
  - outputs
  - patch
  - request
  - version
  - config
    
    config
    
    model
  - core
    
    core
    
    sched
    
    sched
    
    omni_ar_scheduler
    
    omni_generation_scheduler
    
    output
  - diffusion
    
    diffusion
    
    data
    
    diffusion_engine
    
    envs
    
    hooks
    
    registry
    
    request
    
    scheduler
    
    attention
    
    attention
    
    layer
    
    selector
    
    backends
    
    backends
    
    abstract
    
    flash_attn
    
    sage_attn
    
    sdpa
    
    cache
    
    cache
    
    base
    
    cache_dit_backend
    
    selector
    
    teacache
    
    teacache
    
    backend
    
    config
    
    extractors
    
    hook
    
    state
    
    distributed
    
    distributed
    
    comm
    
    group_coordinator
    
    parallel_state
    
    utils
    
    layers
    
    layers
    
    custom_op
    
    rope
    
    model_loader
    
    model_loader
    
    diffusers_loader
    
    models
    
    models
    
    longcat_image
    
    longcat_image
    
    longcat_image_transformer
    
    pipeline_longcat_image
    
    system_prompt
    
    ovis_image
    
    ovis_image
    
    ovis_image_transformer
    
    pipeline_ovis_image
    
    wan2_2
    
    wan2_2
    
    pipeline_wan2_2
    
    wan2_2_transformer
    
    z_image
    
    z_image
    
    pipeline_z_image
    
    z_image_transformer
    
    utils
    
    utils
    
    hf_utils
    
    network_utils
    
    worker
    
    worker
    
    gpu_worker
    
    npu
    
    npu
    
    npu_worker
  - distributed
    
    distributed
    
    omni_connectors
    
    omni_connectors
    
    adapter
    
    factory
    
    connectors
    
    connectors
    
    base
    
    mooncake_connector
    
    shm_connector
    
    utils
    
    utils
    
    config
    
    initialization
    
    logging
    
    serialization
    
    ray_utils
    
    ray_utils
    
    utils
  - engine
    
    engine
    
    arg_utils
    
    input_processor
    
    output_processor
  - entrypoints
    
    entrypoints
    
    async_diffusion
    
    async_omni
    
    chat_utils
    
    client_request_state
    
    log_utils
    
    omni
    
    omni_diffusion
    
    omni_llm
    
    omni_stage
    
    stage_utils
    
    utils
    
    cli
    
    cli
    
    main
    
    serve
    
    openai
    
    openai
    
    api_server
    
    serving_chat
  - inputs
    
    inputs
    
    data
    
    parse
    
    preprocess
  - model_executor
    
    model_executor
    
    layers
    
    layers
    
    mrope
    
    model_loader
    
    model_loader
    
    weight_utils
    
    models
    
    models
    
    output_templates
    
    registry
    
    utils
    
    vision
    
    qwen2_5_omni
    
    qwen2_5_omni
    
    qwen2_5_omni
    
    qwen2_5_omni_talker
    
    qwen2_5_omni_thinker
    
    qwen2_5_omni_token2wav
    
    qwen2_old
    
    qwen3_omni
    
    qwen3_omni
    
    qwen3_moe
    
    qwen3_omni
    
    qwen3_omni_code2wav
    
    qwen3_omni_moe_code_predictor_mtp
    
    qwen3_omni_moe_talker
    
    qwen3_omni_moe_thinker
    
    stage_configs
    
    stage_configs
    
    stage_input_processors
    
    stage_input_processors
    
    qwen2_5_omni
    
    qwen3_omni
  - sample
    
    sample
  - utils
    
    utils
    
    platform_utils
  - worker
    
    worker
    
    gpu_ar_model_runner
    
    gpu_ar_worker
    
    gpu_generation_model_runner
    
    gpu_generation_worker
    
    gpu_model_runner
    
    npu
    
    npu
    
    npu_ar_model_runner
    
    npu_ar_worker
    
    npu_generation_model_runner
    
    npu_generation_worker
    
    npu_model_runner
CLI 参考
CLI 参考
社区
社区

目录

内存配置
优化功能

配置选项¶

本节列出了运行 vLLM-Omni 最常见的选项。

有关 vLLM Engine 内的选项，请参阅 vLLM 配置

目前，主要选项通过每个模型的阶段配置进行维护。

有关具体示例，请参阅 Qwen2.5-omni 阶段配置

有关介绍，请查看阶段配置简介

内存配置¶

GPU 内存计算与配置 - 关于如何计算内存需求和设置 gpu_memory_utilization 以获得最佳性能的指南

优化功能¶

TeaCache 配置 - 为 DiT 模型启用 TeaCache 自适应缓存，以实现 1.5 倍至 2.0 倍的加速，同时最大限度地降低质量损失
Cache-DiT 配置 - 为 DiT 模型启用 Cache-DiT 作为缓存加速后端
并行配置 - 为 DiT 模型启用并行（例如，序列并行）

2025年12月19日

版权所有 © 2025 vLLM-Omni 团队

使用 Material for MkDocs 构建