OpenAI 发布 GPT-5.2,以“红色警报”回应谷歌,重夺AI性能桂冠 | Nous Research 的开源 Nomos 1 达到近乎人类精英的数学能力

今日看点
- OpenAI 正式推出了其最新的前沿大型语言模型 GPT-5.2,该模型引入了全新的“Thinking”和“Pro”层级,旨在主导专业知识工作、编程以及长期运行的代理工作流程。
- GPT-5.2 拥有高达40万个token的上下文窗口,并在推理 (GDPval)、编程 (SWE-bench Pro) 和通用智能 (ARC-AGI-1) 方面树立了新的SOTA基准。
- Nous Research 推出了开源数学推理AI Nomos 1,该AI在以难度著称的普特南数学竞赛中获得了惊人的87分,在人类参赛者中排名第二。
- Nomos 1 展示了在紧凑模型(300亿参数)上进行专门的后期训练,可以达到接近精英级人类的表现,从而使先进的数学AI在消费级硬件上变得可及。
主要动态
本周,人工智能领域发生了一场巨变,OpenAI在竞争激烈的LLM(大型语言模型)竞赛中强势反击,正式推出了其备受期待的GPT-5.2模型。据报道,此前谷歌的Gemini 3占据了性能榜首,OpenAI内部发布了“红色警报”指令,此后GPT-5.2应运而生。此次发布旨在重新确立OpenAI作为领先人工智能先驱的地位。尽管高管们淡化了“红色警报”是此次发布时机唯一驱动因素的说法,但传递的信息很明确:GPT-5.2专为严肃的专业工作而设计。
OpenAI将GPT-5.2描述为“迄今为止用于专业知识工作的最强大模型系列”,在推理、编码和智能体工作流方面取得了显著进步。它引入了三个不同的层级——即时(Instant)、思考(Thinking)和专业(Pro),每个层级都针对不同的用例进行了优化。“思考”和“专业”模式是真正的游戏规则改变者,它们利用更深层的推理链和底层架构,明确包含“推理代币支持”(Reasoning token support),这让人想起“o1”系列。该模型拥有惊人的400,000个代币上下文窗口以及128,000个最大输出限制,使其能够一次性处理数百份文档或生成整个应用程序,知识截止日期为2025年8月31日。
测试人员的初步印象证实了其强大能力,尤其是在复杂、耗时任务方面。HyperWriteAI的行业领导者Matt Shumer称GPT-5.2 Pro为“世界上最好的模型”,指出它能够在难题上“思考一个多小时”。Box首席执行官Aaron Levie报告称,他的公司在推理测试中看到了7分的提升,并且复杂提取任务的速度显著加快。开发人员赞扬它生成复杂代码的能力,其中一个例子展示了仅通过一个提示就生成了完整的3D图形引擎。然而,用户也指出“思考”模式存在“速度惩罚”,并且对于随意查询,输出有时会显得僵硬、冗长,这表明它更适用于高级用户和企业代理,而非追求对话的流畅性。
尽管GPT-5.2在推理方面代表着一个巨大的飞跃,但其性能也伴随着高昂的成本,“思考”和“专业”层级的API成本远高于前几代。OpenAI声称“更高的代币效率”和“能够以更少的回合解决任务”来为此辩护。值得注意的是,此次发布并未包含图像生成方面的任何进展,这一功能在竞争对手那里最近引起了热烈关注。
与此同时,Nous Research发布了Nomos 1,这是一项对比鲜明但同样重要的突破——一个开源的数学推理系统。这个紧凑型AI基于一个只有300亿参数(其中30亿活跃)的Qwen3模型构建,在以难度著称的威廉·洛厄尔·普特南数学竞赛中取得了惊人的87分,在近4,000名人类大学生中排名第二。这一成就强调了专业后期训练和复杂两阶段推理机制的关键重要性,而非仅仅依靠原始模型规模。Nomos 1在类似的普特南问题上落后于DeepSeekMath-V2的完美118/120分,但其可访问性使其脱颖而出,能够在消费级硬件上运行——这与谷歌和OpenAI的前沿模型所需的庞大计算集群形成了鲜明对比。再加上他们最近在去中心化区块链网络上训练的Hermes 4.3发布,Nous Research正在坚定地建立一种叙事,即更小、更智能的模型确实可以与万亿参数的巨头竞争。
这些发布共同描绘了一幅人工智能产业在多个方面加速发展的图景:一方面是由对规模和通用智能的不懈追求所驱动,另一方面则通过巧妙应用专业训练和高效架构,实现精英AI能力的大众化。
分析师视角
今日新闻亮点揭示了人工智能竞赛日益激烈、多维度的本质。OpenAI 积极推出 GPT-5.2,此举源于对谷歌的“红色警报”响应,这表明,即使计算成本高昂,追求通用、前沿水平的智能对于市场领导地位仍然至关重要。将重点放在能处理长期复杂任务的“严肃分析师型人工智能”,标志着向真正的自主企业代理的转变。另一方面,Nous Research 的 Nomos 1 有力地提醒我们,原始参数数量并非衡量成功的唯一标准。它在严苛的数学考试中展现出接近人类精英水平的表现,采用紧凑的开源架构,这对可访问性和效率来说是一个颠覆性的改变。这使得高级推理大众化,让没有超大规模预算的组织也能部署先进人工智能。结论很明确:虽然大公司正在推动规模的极限,但经过智能工程设计的专业小型模型正在迅速缩小能力差距,预示着一个大型通用模型和灵活专注的专家模型都能蓬勃发展的未来。预计未来会有更多混合方法和开源创新来推动显著的企业价值。
内容来源
- OpenAI’s GPT-5.2 is here: what enterprises need to know (VentureBeat AI)
- Nous Research just released Nomos 1, an open-source AI that ranks second on the notoriously brutal Putnam math exam (VentureBeat AI)
- GPT-5.2 first impressions: a powerful update, especially for business tasks and workflows (VentureBeat AI)
- OpenAI fires back at Google with GPT-5.2 after ‘code red’ memo (TechCrunch AI)
- Ten years (OpenAI Blog)