备受好评的炒作?解构谷歌Gemini图像编辑的“升级”

备受好评的炒作?解构谷歌Gemini图像编辑的“升级”

谷歌 Gemini 图像编辑功能视觉解析

引言: 谷歌再次大肆宣扬,吹嘘其新的Gemini图像编辑模型为“顶级”,并让早期用户“为之疯狂”。然而,仔细审视这一所谓的“重大升级”,会发现它更像是一种渐进式的改进,旨在解决人工智能的一些根本性缺陷,而非真正的范式转变,这不禁让人发问:在日益拥挤的生成式人工智能领域中,什么才算得上真正的创新?

核心提炼

  • 这项主要的“升级”是一次有针对性的尝试,旨在解决AI在维持角色形象一致性方面长期存在的挑战,这对于主流应用至关重要,同时也承认了此前存在的缺陷。
  • 此功能为消费级AI图像编辑树立了新标杆,有望普及基础操作,但对需要艺术掌控的专业工具而言,其竞争力有限。
  • 谷歌宣称的“顶尖”说法含糊不清,并且缺乏针对广泛竞争格局的透明基准评估,可能夸大了其在现实世界中的影响力和竞争优势。

深度解读

谷歌最新发布的关于Gemini图像编辑功能的公告,重心在于一项关键改进:即在编辑时能够“保持你的外观”,或者更专业地说,在生成的修改中保留主体的相似性。这不仅仅是一个方便的功能;它解决了一个从生成式AI诞生之初就一直困扰它的根本性且令人沮丧的局限性。早期的AI模型虽然能够创建令人惊叹的新图像,但在一致性方面却臭名昭著地表现不佳。一个简单的提示词更改就可能将一张可识别的面孔变成一个细微(或明显)不同的另一个人,使得个人照片编辑成为一场碰运气而不是精确度的游戏。

通过专注于这种“相似性保留”,Google DeepMind的模型解决了一个阻碍AI图像编辑真正对个人照片发挥作用的问题。那些例子——比如添加蜂窝状发型、给吉娃娃穿上芭蕾舞裙,或者改变背景——都围绕着在不根本改变现有主体核心身份的情况下进行修改。这正是Gemini旨在区别于Midjourney或DALL-E等纯生成模型的地方,后者擅长从零开始创作,但在尝试对特定人物或宠物进行多次迭代并保持一致性编辑时则会变得笨拙。

然而,与Adobe Photoshop等专业级工具相比,Gemini仍牢牢地处于自动化便利的范畴。Photoshop提供了像素级控制、图层、蒙版以及一套深度的工具,让艺术家能够精心打造他们的创意。相比之下,Gemini提供了一种提示驱动的“黑箱”方法。尽管对于快速、随意的编辑来说很强大,但它缺乏专业摄影师或平面设计师所需的精细控制。它只是为寻求快速解决方案的普通用户提供的一个助手,而不是熟练技艺的替代品。

宣称自己是“世界上评价最高的图像编辑模型”需要持高度怀疑态度。由谁评价?依据什么标准?针对哪些特定任务?如果没有针对各种竞争对手的透明第三方基准测试(而不仅仅是谷歌内部指标),这样的声明更像是营销夸大其词,而非可验证的事实。它可能是在特定、狭义定义的、以消费者为导向且一致性至关重要的任务中“评价最高”,但这几乎不等于在整个图像编辑需求领域中的全球霸主地位。其现实影响是明确的:它让基本的个人照片处理变得更易于操作,但不太可能取代已有的工具或在创意产业中引发一场革命。

对比观点

谷歌虽然宣传其提供了“前所未有的控制力”,但有批判性观点指出,对于需要精细处理的创意工作而言,基于提示词的交互存在固有限制。用户或许会告诉Gemini“把我放进一张与我的宠物合影的照片里”,但又该如何具体指定光线、透视、艺术风格或确切的情感基调呢?AI的解读,尽管在形似度上有所提升,但其过程仍然高度不透明,并且主要受限于其训练数据,而非用户精确的艺术意图。这可能导致“足够好”而非“完美”的结果,对于那些渴望真正创作自主权的用户来说,这造成了一个令人沮丧的落差。此外,在改变场景的同时,如此轻易地“保持你的外观”引发了重大的伦理担忧。尽管谷歌强调其用于朋友和家人之间,但其底层技术使得生成高度可信但完全虚假的个人图像变得越来越简单,这些图像将个人置于他们从未经历过的情境中,这加速了虚假信息和深度伪造的传播潜力,无论该公司声称的良善意图如何。为数十亿用户大规模运行如此复杂、实时的生成模型,其成本也代表着巨大的基础设施负担,而其真实开销却鲜有人讨论。

前景探讨

在未来一到两年内,我们可以预见这种对一致性和个性化编辑的关注将成为所有主要AI图像处理工具的标准功能。竞争将从单纯的图像生成,转向具备精准度和语境理解能力的编辑。谷歌很可能会将这项能力进一步整合到其更广泛的生态系统中,例如Google相册,甚至是更复杂的企业级应用。然而,最大的障碍依然十分巨大。克服生成编辑中细微瑕疵带来的“恐怖谷效应”,提供超越简单文本提示的更直观、更精细的控制,以及解决AI生成现实日益升级的伦理挑战,将是至关重要的。业界需要在强大、易用的工具与防止滥用的强大保障措施之间找到微妙的平衡。真正的创新将不仅仅在于AI能做什么,更在于它如何负责任地、透明地完成这些工作。


原文参考: Image editing in Gemini just got a major upgrade (DeepMind Blog)

Read English Version (阅读英文版)

Comments are closed.