谷歌最新的“智能体”之梦:乘炒作之风,却撞上现实?

引言: 又一周过去了,又一项关于AI智能体将彻底改变我们数字生活的宣告问世了。谷歌的Gemini 2.5“电脑使用”(Computer Use)功能加入了竞争激烈的赛道,承诺实现自主网页交互,然而深入观察却显示,在那些精美演示的背后,熟悉的局限性依然存在。尽管这项技术无疑十分复杂,但宏伟愿景与实际应用价值之间的鸿沟依然顽固地巨大。
核心提炼
- 谷歌的产品尽管技术先进,但主要面向开发者,这表明其仍处于早期阶段,可能尚未准备好面向广大消费者进行广泛应用。
- 初步的实际操作测试暴露了人工智能代理在尝试处理复杂、多步骤的网络交互时所固有的脆弱性,并凸显了解决特定难题与泛化可靠性之间的差距。
- 与竞争对手相比,Gemini 2.5 计算机使用功能目前缺乏直接的文件系统访问,这是一个显著的功能缺陷,限制了其实现全面、跨应用工作流的范围。
深度解读
“AI代理”的出现正迅速成为新的多模态聊天机器人:这是大语言模型(LLM)叙事中反复出现的主题,它承诺无限的自主性,但始终只交付一个受限的现实。谷歌的Gemini 2.5 计算机使用(Gemini 2.5 Pro的微调迭代版本)带着一个熟悉的命题迈入这一领域:一个能够在网络上导航、点击、输入和填写表格的AI。听起来很了不起,不是吗?直到你回想起OpenAI和Anthropic在过去两年中发布的类似公告,每一个都被誉为突破,然而却没有一个完全实现了为大众提供真正自主数字助手的乌托邦愿景。
谷歌选择与Browserbase合作并通过API面向开发者,而非直接面向消费者提供产品,这意味深长。它表明,尽管这项技术在内部和合作伙伴进行的基准测试中取得了“领先成果”,但尚未完全准备好迎接黄金时段。这种以开发者为中心的推出是迭代新兴功能的明智策略,但也凸显了这项工作的实验性质。模仿人类行为的“视觉和功能交互”的承诺听起来引人入胜,但任何对网络自动化有粗浅了解的人都知道,这是一个不断变化的目标。网站并非静态,用户界面的微小变化都可能破坏最复杂的脚本,更不用说一个试图解释视觉线索的LLM了。
提供的“简短实操测试”最坦率地揭示了其当前的能力。尽管该代理令人钦佩地攻克了谷歌搜索验证码——一项了不起的成就——但在发出“任务完成”消息后,未能完成亚马逊搜索任务,这严酷地提醒了这些系统的脆弱性。它凸显了一个关键的区别:成功执行一个单一的、预定义的操作是一回事;驾驭多步骤用户旅程中微妙且往往不可预测的流程则完全是另一回事。这并非智能的失败;而是通用鲁棒性的失败,是这些“代理”系统的一个典型弱点。
此外,明确提及Gemini 2.5 计算机使用“目前不提供直接文件系统访问或原生文件创建功能”是一个重大的功能限制。尽管OpenAI和Anthropic的代理能够生成和编辑本地文档,但谷歌的产品仅限于网络和移动用户界面操作。这限制了其在复杂业务工作流中的实用性,这些工作流通常涉及与网络应用程序和本地文件进行交互——例如从网页表单中提取数据,然后通过电子表格生成报告。这使得谷歌的代理更像是一种高度复杂的浏览器自动化工具,而非一个真正的通用数字助理。如果代理频繁停滞或无法完成常见用户任务的全部范围,那么备受赞誉的“更低延迟”将变得毫无意义。
对比观点
尽管对此类智能体即时、广泛的影响持怀疑态度是情有可原的,但更积极的观点则承认其基础性进展。支持者会辩称,谷歌的开发者优先策略是具有战略意义的,它允许企业将这些能力融入到特定的高价值工作流程中。报告的成功案例——例如谷歌支付团队恢复了超过60%的失败测试执行,或者Autotab在复杂数据解析方面将性能提升了18%——并非微不足道。这些案例在受控的企业环境中展现了真实、切实的价值,在这些环境中,系统的关注点可以更窄,用户界面也更稳定。此外,多层安全机制以及针对像CAPTCHA这类风险操作的“人在回路”模式,都证实了这是一项强大技术的负责任、迭代式开发,而非鲁莽的部署。这无关乎立即的消费级通用人工智能,而是通过一次次稳定的交互,为未来的自主性构建基本原语。
前景探讨
在未来1-2年内,Gemini 2.5电脑使用及其同类产品的现实前景是企业将持续采用它们,用于高度具体、重复的自动化任务。预计它们将被整合到内部工具中,用于质量保证(QA)、数据提取,以及可能在用户界面(UI)可预测、任务范围有限的特殊客户支持场景。其真正潜力可能仍将局限在受控环境中,逐渐消除工程效率低下之处,而非以无缝个人助理的形式出现。
最大的障碍依然是多方面的。首先,用户界面(UI)交互固有的脆弱性将继续困扰这些系统。网站不断更新变化,人工智能代理必须发展出更强的视觉和语义理解能力,并结合强大的错误恢复机制,才能优雅地应对这些变化。其次,扩展运行大型语言模型(LLMs)的计算成本和复杂性,以解释屏幕截图并为每项日常任务规划行动,将是普及、始终在线的消费者使用的重大障碍。最后,真正自主代理做出财务决策或处理敏感数据的伦理和安全影响,需要持续的人工监督,这将在可预见的未来继续限制其“完全自主性”。
原文参考: Google’s AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use (VentureBeat AI)