智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门

机器之心
机器之心
2025年7月3日 13:25
#AI资讯 #机器之心
2024 年 9 月,智源研究院发布了统一图像生成模型 OmniGen。该模型在单一架构内即可支持多种图像生成任务,包括文本生成图像(Text-to-Image Generation)、图像编辑(Image Editing)和主题驱动图像生成(Subject-driven Image Generation)。用户仅需使用多模态的自然语言指令,便可灵活实现上述功能,无需依赖额外的上下文提示、插件或预处理模块。凭借其功能的高度通用性与架构的高度简洁性,OmniGen 一经发布便获得社区的广泛好评。随后,随着 Gemini 2.0 Flash 和 GPT-4o 等闭源多模态模型的相继发布,构建统一图像生成模型成为当前最受关注的研究与应用方向之一。

在这一背景下,OmniGen 迎来重大技术升级,正式发布 OmniGen2。新一代模型在保持简洁架构的基础上,显著增强了上下文理解能力、指令遵循能力和图像生成质量。同时,OmniGen2 全面继承了其基座多模态大模型在上下文理解与生成方面的能力,同时支持图像和文字生成,进一步打通了多模态技术生态。同时,模型权重、训练代码及训练数据将全面开源,为社区开发者提供优化与扩展的基础。这些特性都将推动统一图像生成模型从构想向现实的转变。

1. 分离式架构 + 双编码器策略

OmniGen2 采取了分离式架构解耦文本和图像,同时采用了 ViT 和 VAE 的双编码器策略。不同于其他工作,ViT 和 VAE 独立作用于 MLLM 和 Diffusion Transformer 中,提高图像一致性的同时保证原有的文字生成能力。

图片

2. 数据生成流程重构

OmniGen2 也在探索解决阻碍领域发展的基础数据和评估方面的难题。相关的开源数据集大多存在固有的质量缺陷,尤其是在图像编辑任务中,图像质量和质量准确度都不高。而对于图片上下文参考生成任务,社区中缺乏相应的大规模多样化的训练数据。这些缺陷极大地导致了开源模型和商业模型之间显著的性能差距。为了解决这个问题,OmniGen2 开发了一个从视频数据和图像数据中生成图像编辑和上下文参考数据的构造流程。

图片

3. 图像生成反思机制

受到大型语言模型自我反思能力的启发,OmniGen2 还探索了将反思能力整合到多模态生成模型中的策略。基于 OmniGen2 的基础模型构建了面对图像生成的反思数据。反思数据由文本和图像的交错序列组成,首先是一个用户指令,接着是多模态模型生成的图像,然后是针对之前生成输出的逐步反思。

每条反思都涉及两个关键方面:

1)对与原始指令相关的缺陷或未满足要求的分析,

2)为解决前一幅图像的局限性而提出的解决方案。

图片

经过训练的模型具备初步的反思能力,未来目标是进一步使用强化学习进行训练。

图片

OmniGen2 发布一周 GitHub 星标突破 2000,X 上相关话题浏览量数十万

图片

现在科研体验版已开放,可抢先尝试图像编辑、上下文参照的图像生成等特色能力。

科研体验版链接:https://genai.baai.ac.cn

OmniGen2 的玩法简单,只需要输入提示词,就能解锁丰富的图像编辑与生成能力。

1. 基于自然语言指令的图像编辑

OmniGen2 支持基于自然语言指令的图片编辑功能,可实现局部修改操作,包括物体增删、颜色调整、人物表情修改、背景替换等。

图片

2. 多模态上下文参考的图像生成

OmniGen2 可从输入图像中提取指定元素,并基于这些元素生成新图像。例如,将物品 / 人物置于新的场景中。当前 OmniGen2 更擅长保持物体相似度而不是人脸相似度。

图片

3. 文生图

OmniGen2 能够生成任意比例的图片。

图片

OmniGen2 在已有基准上取得了颇具竞争力的结果,包括文生图,图像编辑。然而,对于图片上下文参考生成(in-context generation) 任务,目前还缺乏完善的公共基准来系统地评估和比较不同模型的关键能力。

现有的上下文图像生成基准在捕获实际应用场景方面存在不足。它们不考虑具有多个输入图像的场景,并且受到上下文类型和任务类型的限制。同时,先前的基准使用 CLIP-I 和 DINO 指标来评估上下文生成的图像的质量。这些指标依赖于输入和输出之间的图像级相似性,这使得它们不适用于涉及多个主题的场景,并且缺乏可解释性。

为了解决这一限制,团队引入了 OmniContext 基准,其中包括 8 个任务类别,专门用于评估个人、物体和场景的一致性。数据的构建采用多模态大语言模型初筛和人类专家手工标注相结合的混合方法。

图片

OmniGen2 依托智源研究院自研的大模型训练推理并行框架 FlagScale,开展推理部署优化工作。通过深度重构模型推理链路,并融合 TeaCache 缓存加速策略,实现 32% 的推理效率提升,大幅缩短响应时间并强化服务效能。同时,框架支持一键式跨机多实例弹性部署,有效提升集群资源整体利用率。团队将持续推进软硬协同优化,构建高效推理部署能力体系。

OmniGen2 的模型权重、训练代码及训练数据将全面开源,为开发者提供优化与扩展的新基础,推动统一图像生成模型从构想加速迈向现实。

OmniGen2 相关链接:

  • Github: https://github.com/VectorSpaceLab/OmniGen2/

  • 论文:https://arxiv.org/abs/2506.18871

  • 模型:https://huggingface.co/BAAI/OmniGen2

  • 科研体验版链接:https://genai.baai.ac.cn

]]>

最新资讯

亚马逊云科技入局Vibe Coding,推出Kiro重塑开发流程

7月17日
16

马斯克的XAI推出【智能伙伴】功能,居然支持18禁模式?

7月15日
30

Google开源了一个AI命令行神器,程序员狂欢!这就是传说中的Gemini CLI

6月26日
54

Cursor AI编程工具模型全面解析:2025年最新完整模型列表与深度对比

6月18日
156

用Veo 3+Suno做了个AI Rapper,吊打音乐节上的流量明星

5月30日
17

热门工具

Cursor

Cursor

Cursor是一款AI驱动的代码编辑器,专为提升开发者生产力而设计。它集成了强大的AI功能,包括智能代码补全、自然语言编程、代码生成和重构等,让编程变得更加高效和直观。

Kimi

Kimi

Moonshot AI推出的智能助手,支持200万字超长文本处理,具备强大的文档理解分析能力、多格式文件解析和深度推理功能,适合学术研究和商务应用。

DeepSeek

DeepSeek

DeepSeek是一家专注于AGI的AI公司推出的大语言模型,具备O1级别的深度推理能力、强大的代码生成能力和数学推理能力,以极低成本提供高质量AI服务。

ChatGPT

ChatGPT

OpenAI公司开发,AI时代的开创者和先行者。

Leonardo.Ai - Image Generator

Leonardo.Ai - Image Generator

Ai , the ultimate AI art image generator, now available on iOS

Microsoft 365 Copilot

Microsoft 365 Copilot

Microsoft 365 Copilot 应用是一款用于工作和生活的日常高效办公应用,可帮助你在一个应用中随时随地使用 Microsoft 365 Co...,支持多种AI功能。

创客贴设计-AI海报图片设计、拼图抠图作图神器

创客贴设计-AI海报图片设计、拼图抠图作图神器

创客贴设计--“打工人”必备AI作图神器 创客贴设计为用户提供丰富的AI智能作图工具,如AI海报、AI商品图、智能抠图、AI消除、智能改图、AI绘画等,输...,支持多种AI功能。

百度文库-DeepSeek R1联网满血版

百度文库-DeepSeek R1联网满血版

百度文库,一站式智能写作与文档资源集合平台,正式接入DeepSeek R1满血版,文档查找、编辑、资料管理一应俱全,AI内容生成能力再升级,办公学习好助手,支持多种AI功能。