Anthropic 宣称在智能体长效记忆方面取得突破；《2025 AI 回顾》聚焦 OpenAI 的开放权重与中国开源浪潮

2025-12-01 AIFlare

抽象数字插画，描绘了一个AI的长期记忆网络，其发光的连接象征着Anthropic的突破以及全球开源AI格局。

今日看点

Anthropic 公司推出了一种两部分解决方案，旨在解决 AI 智能体持久记忆的难题，该方案利用初始化智能体和编码智能体来管理跨离散会话的上下文。
2025年人工智能领域出现了显著的多元化，包括OpenAI的GPT-5、Sora 2，以及象征性地发布了开放权重模型，与此同时，中国也崛起成为开源人工智能领域的领导者。
企业正日益关注具备强大遥测技术和基于本体护栏的可观测AI，以确保生产级智能体的可靠性、治理和上下文理解。
新研究，例如 Agent-R1 强化学习框架，正在推动 LLM 智能体在超越传统编码和数学的复杂、现实任务上的训练。

主要动态

AI代理的快速发展遭遇了一个重大障碍：在长时间运行任务中缺乏持久性内存。本周，Anthropic宣布了其认为的关键解决方案，为其Claude Agent SDK引入了双重方法。通过采用“初始化代理”来设置环境，并利用“编码代理”进行增量式进展并为后续会话留下工件，Anthropic旨在弥合上下文窗口的差距，使代理能够在更长时间内保留指令并保持行为一致。这一突破有望在企业环境中释放AI代理的真正潜力，因为在企业环境中，复杂的、多会话项目是常态。

对更强大代理的推动，凸显了2025年AI成熟和多元化的更宏大叙事。VentureBeat将这一年形容为“永久的开发者日”。作为长期领跑者的OpenAI，继续其积极的发布计划，推出了GPT-5及其动态的“即时”和“思考”变体、ChatGPT Atlas浏览器以及先进的Sora 2视频音频模型。或许最具象征意义的是，OpenAI打破了其近期闭源的趋势，发布了gpt-oss-120B和gpt-oss-20B这两个开放权重MoE推理模型，预示着其战略可能发生转变。

OpenAI的这种开放性正值中国开源生态系统真正走向主流的一年。研究表明，得益于DeepSeek-R1、月之暗面的Kimi K2 Thinking、智谱AI的GLM-4.5、百度文心ERNIE 4.5系列以及阿里巴巴高产的Qwen3系列等强大模型，中国在开源模型下载量方面略微领先美国。这些模型不仅数量众多，而且在推理、编码和多模态任务方面也极具竞争力，为那些优先考虑开放生态系统或本地部署的用户提供了重要的替代方案。与此同时，像Liquid AI的LFM2和谷歌的Gemma 3系列这样更小、更高效的模型证明了“微型”也能胜任，它们能满足对隐私敏感、离线和边缘计算工作负载的需求。

然而，对代理和多样化模型的兴奋被企业部署的实际挑战所冲淡。“可观测AI”的需求已变得至关重要，它能将大型语言模型（LLMs）转化为可审计、值得信赖的系统。正如一家财富100强银行所发现的，如果18%的关键案例在没有留下任何痕迹的情况下被错误路由，那么再出色的基准准确性也意义不大。可观测性，其核心在于首先定义业务成果，然后借鉴SRE（站点可靠性工程）的实践（如服务水平目标SLO和错误预算）来设计遥测（提示、策略和反馈），这对于将AI从实验转变为可靠的基础设施至关重要。

作为可观测性的补充，本体论正在成为AI代理不可或缺的“护栏”。由于企业数据仍然是孤立且依赖于上下文的（例如，“客户”在销售和财务中的含义不同），代理经常会误解业务细微之处，导致幻觉。基于本体论的单一真相来源——定义概念、层级和关系——可以将代理置于真实的业务上下文中，确保遵守策略并准确发现数据。这种结构化方法有助于代理遵循护栏并适应业务的动态性质，通过与可验证数据进行交叉引用来防止异常。

为进一步支持代理开发，中国科学技术大学的新研究引入了Agent-R1，这是一个强化学习框架，它扩展了传统的马尔可夫决策过程，以处理现实世界中代理任务的动态性、多轮性以及经常出现的不可预测性。通过扩展状态空间并纳入粒度化的“过程奖励”，Agent-R1能够更有效地训练复杂推理、多跳问答和交互式环境中的代理，为解决超出明确定义问题的代理铺平了道路。

2025年的AI图景是爆炸式增长和成熟的一年。从强大的前沿模型及其开放权重版本，到专业化的小型模型；从代理内存的基础性突破，到可观测性和本体论等关键基础设施，整个生态系统正在多元化发展，为开发者和企业提供了前所未有的选择。

分析师视角

2025年已明确证明，人工智能的未来是多元而非单一的。前沿模型、专业化小型系统以及可观测人工智能、本体论等关键企业基础设施的同时发展，预示着一个成熟阶段的到来。Anthropic声称解决了长期运行的代理记忆问题，意义重大；如果得到广泛验证，这将消除代理式AI在现实世界部署的一个主要障碍。OpenAI象征性地发布开源权重，加之中国崛起成为开源强国，这表明了激烈的竞争和健康的权力分散。焦点现在从“AI能否做X？”转向“AI能否在我的业务背景下可靠、负责且经济高效地做X？”这意味着那些无名英雄——可观测性工具、扎根本体论和先进的强化学习框架——将是2026年释放AI真正企业价值的关键差异化因素。

内容来源

Read English Version (阅读英文版)

AI Flare

抓住下一波人工智能浪潮