苹果推出全能视觉AI模型UniGen1.5，集看图、修图、绘图功能于一体

时间：2026-02-28 14:33:10 编辑：admin 阅读：9

12月19日消息，科技媒体9to5Mac于昨日（12月18日）发布博文称，苹果研究团队近期推出多模态AI模型UniGen 1.5，该模型已实现将图像理解、生成与编辑这三大核心功能整合至单一系统中。

和传统方案主要依靠不同模型分别处理各项任务的方式不一样，UniGen 1.5 最突出的进展是搭建了一个统一的框架，仅仅凭借单个模型就能够同时完成图像理解、图像生成和图像编辑这些任务。研究人员觉得，这样的统一架构可以让模型借助自身强大的图像理解能力来提升生成效果，进而得到更精准的视觉输出结果。

在图像编辑领域，模型常常难以精准捕捉用户那些微妙或是复杂的修改指令。苹果团队为攻克这一难题，开创性地引入了一个名为“编辑指令对齐”的后训练阶段。

该技术并非直接对图片进行修改，而是先让模型依据原图和指令，生成目标图像的详细文本描述。这一“先构思再生成”的中间环节，能促使模型在产出最终图像前，充分理解并内化用户的编辑需求，进而显著提高修改的精准度。

这一中间步骤有助于模型在生成最终图像之前更好地理解预期的编辑内容。

除了指令对齐，UniGen 1.5 的另一大贡献体现在强化学习领域的创新上。研究团队成功构建了一套统一的奖励系统，可同时适配图像生成与图像编辑的训练流程。

此前，编辑任务涵盖从微调至重构的极大范围，统一奖励机制难以建立，而这一突破使模型在应对各类视觉任务时，可依照统一的质量标准，大幅提升了系统的“抗干扰”能力。

UniGen-1.5 的文本转图像生成和图像编辑功能的一些示例

在多项行业标准基准测试里，UniGen 1.5 体现出了强劲的竞争力。相关数据表明，该模型在 GenEval 与 DPG-Bench 测试中，分别取得了 0.89 和 86.83 的优异成绩，明显胜过 BAGEL、BLIP3o 等近期备受关注的方法。

在图像编辑专项测试ImgEdit里，该模型取得的4.31综合得分，不止超过了OminiGen2这类开源模型，还和GPT-Image-1等专有闭源模型的表现不相上下。

尽管整体表现出色，UniGen 1.5 目前依旧存在一些局限性。研究人员在论文里坦言，因为离散去标记器在把控细粒度结构上有所欠缺，模型生成图片中的文字时往往容易出现错误。

图 A 展示了 UniGen-1.5 在文本转图像生成和图像编辑任务中的失败案例。以上图源：苹果论文

此外，在部分编辑场景下，模型偶尔会出现主体特征漂移的问题，例如猫的毛发纹理改变或鸟的羽毛颜色偏差，这些问题将是团队未来的优化重点。

更多+