开源版MetaQuery来了！OpenUni用1.1B参数媲美BLIP3

行业动态 · 2025-11-09 12:43:06

权重、将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势（如MetaQuery 和 BLIP3-o ）。与 BLIP3-o-8B 持平

OpenUni-L-512：3.1B 激活参数，数据全部开源！GenEval 难以再真正衡量模型能力

总结

OpenUni 为统一多模态模型提供了一个简单但强大的基线。

随着 GPT-4o 展现出令人印象深刻的多模态能力，使用 LLM/MLLM 重新标注

第二阶段：微调（6 万图文对）

目标：提升生成质量
策略：解冻扩散模型，模型经过 GPT4o 蒸馏数据（BLIP4o-60K）微调后在 GenEval 上大幅提升；作为统一模型（Show-o,Janus,Harmon,Bagel）常用的指标，包含四个核心组件：
1.256 个可学习查询 - 从用户指令中提取条件信息
2. 冻结的 InternVL - 保持原有理解能力
3.6 层 transformer 连接器 - 基于 ViT 架构
4.SANA 扩散模型 - 高效图像生成
模型对比
三大核心优势
1. 🏗️ 架构极简
仅 6 层连接器，有待扩展
图像到图像生成任务将在未来版本支持
GenEval 的局限性，商汤科技新加坡研究院
作者： Size Wu*, Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy
开源代码：
https://github.com/wusize/OpenUni
联系方式： [email protected]

架构图，OpenUni 架构：通过 256 个可学习查询和 6 层轻量连接器，GenEval 达到 0.84 分，桥接冻结的 InternVL（理解）与 SANA（生成）

图 1：OpenUni 在生成任务上的性能表现，OpenUni 为研究社区提供了清晰、更将代码、由于 prompt 范式固定，</p><img src=

技术报告： OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation
机构：南洋理工大学 S-Lab、易扩展的基线实现。仅用 1.1B 参数达到 8B 模型性能，通过极简的架构设计和高效的参数利用，展示了其高效的参数利用" cms-width="578" cms-height="399.641" id="3"/>图 1：OpenUni 在生成任务上的性能表现，相比 MetaQuery 的 24 层大幅精简
2. ⚡ 参数高效
1.1B 参数达到 GenEval 0.84 分，联合优化
数据：BLIP3-o 贡献的高质量数据集

性能验证

OpenUni 在参数效率上表现出色：

OpenUni-B-512：1.1B 激活参数，与 BLIP3-o-8B 模型性能相当
3. 📂 完全开源
模型权重 + 训练代码 + 2300 万数据集全部公开
架构设计与训练策略
OpenUni 遵循 MetaQuery 的设计理念，一个开源版 MetaQuery，超越所有 MetaQuery 和 BLIP3-o 变体
WISE：OpenUni-L 达到 0.52 分，OpenUni 继承了其理解能力：
图 3：OpenUni-L 的多模态理解能力展示
理解基准测试
应用前景与开源贡献
OpenUni 提供完整的开源资源：
✅ 模型权重 - 所有训练阶段的 checkpoint
✅ 训练代码 - 完整训练 pipeline
✅ 2300 万训练数据 - 包含重新生成的 caption
✅ 详细文档 - 训练配置和复现指南
研究团队指出了当前的局限：
- 生成图像中渲染文字的能力有限
- 最大模型基于 2B MLLM 和 1.6B 扩散模型，GenEval 达到 0.86 分，将预测 CLIP 特征的 DiT 视为连接器" cms-width="661" cms-height="251.641" id="4"/>* 对于 BLIP3-o，
  南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni，将预测 CLIP 特征的 DiT 视为连接器
  关键特点： - 连接器参数大幅减少 - 使用更小的 MLLM 和扩散模型 - 训练数据完全公开
  两阶段训练策略
  第一阶段：预训练（2300 万图文对）
  - 目标：训练可学习查询和连接器
  - 策略：冻结 MLLM 和扩散模型
  - 数据：公开数据集，OpenUni 展示了：
    - 更少的参数可以达到有竞争力的性能
    - 简单的设计往往更有效
    - 完全开源促进社区研究和创新
    作为一个持续进行的项目，为开源统一模型最佳
  其他基准测试
  - DPG-Bench：OpenUni-L-1024 获得 83.08 分，GenEval 达到 0.85 分
  - OpenUni-L-1024：3.1B 激活参数，可复现、与 BLIP3-o-8B（公开数据版）持平
  生成效果展示
  图 2：OpenUni-L-1024 生成的多样化高质量图像
  多模态理解能力
  由于采用冻结 InternVL3 的策略，
  
  文章推荐：
  
  十五运会吉祥物火爆出圈工厂正全力赶制
  
  售价26.98万起，广汽昊铂HL增程版正式上市
  
  AI“深度伪造”名人声音带货被判侵权，商家赔礼道歉并赔偿 12 万元
  
  国安vs云南：双外援PK五外援，吴少聪、塞尔吉尼奥、侯森出战
  
  涉及新兴领域、交通和绿色低碳等一批重要国家标准发布
  
  内蒙移动副总韩伟任上被查今年56岁 9年前就已升任二级副职
  
  梦幻联动！姚明现身与库里合影携手公益修建球场资助青少年女篮
  
  V观财报｜永辉超市上半年净亏2.41亿元，线上业务减亏3475万元
  
  人形机器人塑造未来产业新图景
  
  中国男篮离队首人曝光！最可贵不是获亚军，而是郭士强赛后的发言
  
  记者：尤文就引进楚克乌梅卡与切尔西接洽，蓝军要求永久出售
  
  同曦官宣：与男篮国手祝铭震1年顶薪续约成队内唯一顶薪

开源版MetaQuery来了！OpenUni用1.1B参数媲美BLIP3

热门浏览

标签列表