OpenAI 的 GPT-5.2 聚焦企业,重夺 AI 桂冠 | 谷歌推出深度研究智能体及 AI 智能预算

OpenAI 的 GPT-5.2 聚焦企业,重夺 AI 桂冠 | 谷歌推出深度研究智能体及 AI 智能预算

OpenAI GPT-5.2 企业级人工智能界面协同谷歌的深度研究代理以及智能预算仪表盘。

今日看点

  • OpenAI 正式发布了 GPT-5.2,其新一代前沿大语言模型家族,包含“即时”、“思考”和“专业”三个层级,旨在夺回在专业知识工作、推理和编程领域的领导地位。
  • 早期测试者称赞GPT-5.2在复杂的、长时间运行的企业任务和深度编码方面表现卓越,尽管一些人指出其“思考”模式存在速度损失,且在日常使用时对话风格更为僵硬。
  • 谷歌同时推出了其基于Gemini 3 Pro的可嵌入式深度研究代理,并公布了关于“预算感知测试时扩展”的新研究,以使AI代理的工具使用更加高效和经济。

主要动态

2025年12月13日标志着人工智能领域的一个关键日子,因为OpenAI通过发布其新的前沿大型语言模型(LLM)家族GPT-5.2,有力回应了日益激烈的竞争。尽管此前有报道称,在谷歌Gemini 3在性能排行榜上占据榜首之后,OpenAI发出了“红色警报”指令,但OpenAI高管坚称此次发布是长期计划的,旨在巩固其在专业知识工作领域的领导地位。

GPT-5.2分为三个不同层级——Instant、Thinking和Pro——这是一项旨在平衡计算成本与用户需求的策略。Instant针对速度进行了优化,Thinking适用于复杂的结构化工作和利用更深层次推理链的代理,而Pro则是在准确性至关重要的任务中作为“最智能、最值得信赖的选择”。该模型拥有一个高达400,000个token的上下文窗口和128,000个最大输出token限制,其知识截止日期为2025年8月31日。至关重要的是,它整合了“推理token支持”,这是基于“o1”系列中观察到的思维链处理能力。

OpenAI正积极推动GPT-5.2在基准测试中的主导地位,特别是在对企业至关重要的领域。它声称在专业知识工作的新基准GDPval上达到了最先进的性能,其中GPT-5.2 Thinking在70.9%的任务中击败或与专家持平。在编码方面,SWE-bench Pro显示GPT-5.2 Thinking达到了55.6%的新高。在科学领域的GPQA Diamond(Pro版本达到93.2%)和FrontierMath上也报告了进一步的进展,GPT-5.2 Pro成为第一个在ARC-AGI-1通用推理基准测试中突破90%的模型。OpenAI的博客文章进一步强调了其在数学和科学方面的优势,包括解决开放的理论问题和生成可靠的数学证明。

尽管ChatGPT订阅价格保持稳定,但GPT-5.2 Thinking和Pro的API成本明显高于前几代,这反映了高级推理对计算资源的高需求。例如,GPT-5.2 Pro的定价为每100万输入token 21美元,每100万输出token 168美元,比其前身增加了40%,尽管OpenAI辩称其更高的token效率使其对高价值的企业工作流程而言在经济上是可行的。

来自开发者和高管的初步印象表明,该模型为高级用户和企业进行了优化。HyperWriteAI首席执行官Matt Shumer称赞GPT-5.2 Pro是“世界上最好的模型”,能够针对难题“思考一个多小时”。Box首席执行官Aaron Levie报告称,在企业推理测试中性能显著提升,复杂的提取任务从46秒缩短到12秒。Pietro Schirano等开发者强调,它在编码和模拟方面取得了“重大飞跃”,展示了该模型能从单个提示构建完整的3D图形引擎。对于长时间运行的自主任务,该模型成功地进行了两小时的损益分析而没有丢失上下文。然而,一些早期测试者指出,Thinking模式存在“速度惩罚”和更僵硬的默认语气,表明它不太适合休闲对话,在这方面,像Claude Opus 4.5这样的模型可能仍占优势。OpenAI还证实图像生成方面没有即时改进,但暗示“未来会有更多进展”。

显然是为了展示正在进行的人工智能军备竞赛,谷歌选择在同一天宣布向开发者开放其基于Gemini 3 Pro的最深层AI研究代理,供他们嵌入到自己的应用程序中。作为补充,谷歌和加州大学圣巴巴拉分校的研究人员公布了一个新框架,旨在提高AI代理的成本效益。他们的“预算追踪器”(Budget Tracker)和“预算感知测试时缩放”(Budget Aware Test-time Scaling, BATS)技术使代理能够明确管理其计算和工具使用预算,在实验中将搜索调用减少了40.4%,总成本降低了31.3%,同时实现了更高的准确性。这一创新直接解决了与复杂代理工作流程相关的运营开销和不可预测的成本问题,为更实用的企业部署铺平了道路。

OpenAI还预告了未来的发展,包括在明年第一季度推出“成人模式”(Adult Mode),这将取决于改进的年龄预测技术,以及代号为“Project Garlic”的更根本的架构转变,计划于2026年初进行。这一天凸显了一场激烈的竞争,其中原始智能以及高效、实用的部署都变得至关重要。

分析师视角

今天的两项声明标志着AI战场加速转型:从原始基准分数转向驱动真正企业价值的实用、自主执行能力。OpenAI的GPT-5.2是一次战略性出击,利用其在推理和代码方面的核心优势,重新夺回性能主导权。其高端定价,加上先进的自主执行功能,表明其明确专注于高价值业务工作流的货币化。然而,关于其“僵硬”的语气和速度惩罚的反馈,凸显了原始能力和用户体验之间持续存在的张力,这可能为竞争对手在更细致或更快的交互方面留下空间。谷歌同时采取行动,普及其Deep Research代理,更重要的是,引入了复杂的预算感知框架,这揭示了其对规模化部署AI的经济现实的精明关注。控制成本和优化工具使用的能力对企业采用至关重要,这使得谷歌的BATS框架成为一项重大发展。企业AI的未来将不仅仅由模型的智能程度定义,而是由它们在实际预算限制内,多高效可靠地执行复杂、耗时的任务所决定。


内容来源

Read English Version (阅读英文版)

Comments are closed.