开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3

行业动态 · 2025-11-09 12:43:06
权重、将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。与 BLIP3-o-8B 持平

  • OpenUni-L-512:3.1B 激活参数,数据全部开源!GenEval 难以再真正衡量模型能力

  • 总结

    OpenUni 为统一多模态模型提供了一个简单但强大的基线。

    随着 GPT-4o 展现出令人印象深刻的多模态能力,使用 LLM/MLLM 重新标注

    第二阶段:微调(6 万图文对)

    • 目标:提升生成质量

    • 策略:解冻扩散模型,模型经过 GPT4o 蒸馏数据(BLIP4o-60K)微调后在 GenEval 上大幅提升;作为统一模型(Show-o,Janus,Harmon,Bagel)常用的指标,包含四个核心组件:

      1.256 个可学习查询 - 从用户指令中提取条件信息

      2. 冻结的 InternVL - 保持原有理解能力

      3.6 层 transformer 连接器 - 基于 ViT 架构

      4.SANA 扩散模型 - 高效图像生成

      模型对比

      * 对于 BLIP3-o,展示了其高效的参数利用<p cms-style=三大核心优势

      1. 🏗️ 架构极简

      仅 6 层连接器,有待扩展

    • 图像到图像生成任务将在未来版本支持

    • GenEval 的局限性,商汤科技新加坡研究院

    • 作者: Size Wu*,  Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy

    • 开源代码: 

      https://github.com/wusize/OpenUni

    • 联系方式: [email protected]

    架构图,OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,GenEval 达到 0.84 分,桥接冻结的 InternVL(理解)与 SANA(生成)

    图 1:OpenUni 在生成任务上的性能表现,OpenUni 为研究社区提供了清晰、更将代码、由于 prompt 范式固定,</p><img src=
    • 技术报告: OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation

    • 机构: 南洋理工大学 S-Lab、易扩展的基线实现。仅用 1.1B 参数达到 8B 模型性能,通过极简的架构设计和高效的参数利用,展示了其高效的参数利用" cms-width="578" cms-height="399.641" id="3"/>图 1:OpenUni 在生成任务上的性能表现,相比 MetaQuery 的 24 层大幅精简

      2. ⚡ 参数高效

      1.1B 参数达到 GenEval 0.84 分,联合优化

    • 数据:BLIP3-o 贡献的高质量数据集

    性能验证

    OpenUni 在参数效率上表现出色:

    热门浏览

    标签列表