OpenAI 的 Codex 作为自主人工智能软件工程师推出 | 咨询业面临威胁,推理速度飙升

今日看点
- OpenAI 已宣布其人工智能软件工程师 Codex 全面上市,该产品由专门的 GPT-5-Codex 模型提供支持。它现已为企业做好生产准备,在内部实现了 70% 的生产力提升,并且是构建 OpenAI 自身人工智能产品的核心。
- Echelon,一家人工智能初创公司,携475万美元资金浮出水面,部署人工智能代理来自动化ServiceNow等复杂的企业软件实施,直接挑战由埃森哲和德勤等公司主导的传统1.5万亿美元IT咨询市场。
- Together AI 的全新 ATLAS 自适应推测系统,通过从实时工作负载中学习,将推理性能提升高达 400%,解决了困扰静态 AI 模型的“工作负载漂移”问题,并使强大的大语言模型(LLMs)运行更高效。
- 英伟达研究人员推出了一种名为强化学习预训练 (RLP) 的新技术,该技术将强化学习 (RL) 整合到大型语言模型 (LLM) 的初始训练阶段,教导模型“独立思考”,并从一开始就显著提升其推理能力。
- Raindrop 推出了“Experiments”,这是一个专为企业级 AI 代理设计的 A/B 测试套件,允许公司衡量模型、提示或工具的更改如何影响生产环境中真实用户的性能,从而解决了“评估通过,代理失败”的问题。
主要动态
人工智能领域持续快速发展,今天的发布预示着向自主智能体和企业级人工智能解决方案的深刻转变。走在前沿的是OpenAI,该公司在2025年开发者大会(DevDay 2025)上悄然将其人工智能软件工程师Codex全面推出。尽管ChatGPT应用商店和视频生成API等其他引人注目的产品发布抢占了头条,但由新型GPT-5-Codex模型强化的Codex,被定位为OpenAI愿景背后的真正引擎。这款为自主编码和复杂、长期运行任务而设计的生产就绪型智能体,已改变了OpenAI的内部运营,使其92%的技术人员每天使用,并多完成70%的拉取请求。凭借新的SDK、Slack集成和强大的管理控制,Codex现已准备好在全球最大公司中承担关键任务,有望将开发时间从数月缩短至数分钟。
这种由人工智能驱动的生产力激增正在各行业产生连锁反应。长期以来由人力密集型模式主导的1.5万亿美元IT咨询市场,正面临着像Echelon这样的初创公司的直接挑战。Echelon在获得大量种子资金后,正部署专门的人工智能智能体,以自动化像ServiceNow这样的平台的端到端企业软件实施。这些由顶尖人类专家训练的智能体,能够分析需求、提出澄清问题,并在极短时间内生成完整的配置、表单和工作流程,将项目时间从数月缩短至数周。这一举动表明,以前被认为不受自动化影响的复杂专业服务,正日益成为复杂人工智能的目标。
支撑这些进步的是人工智能基础设施和模型能力方面的关键创新。Together AI发布了ATLAS,这是一个自适应推测器系统,可为大型语言模型(LLMs)实现高达400%的推理速度提升。这项技术解决了“工作负载漂移”问题,即随着企业人工智能使用量的演变,静态推测器会失效。ATLAS采用双推测器架构,持续从实时流量中学习,根据实时模式动态优化推理。这一效率突破不仅降低了成本,还使得部署更强大、响应更迅速的人工智能智能体成为可能,通过软件驱动的优化,其性能可与专用推理硬件媲美甚至超越。
与此同时,英伟达的研究人员正在通过一种名为“强化学习预训练”(Reinforcement Learning Pre-training, RLP)的新技术,推动基础大型语言模型智能的边界。通过将强化学习整合到初始训练阶段,RLP教会模型“在预测之前自行思考”,从第一天起就培养出强大的推理能力。这与在后期微调阶段附加推理能力的传统方法形成对比。使用RLP训练的模型在复杂推理任务中表现出显著改进,预示着未来多步骤企业工作流程将拥有更强大、适应性更强的人工智能,从而提高可靠性并减少逻辑错误。
随着人工智能智能体变得越来越普遍和复杂,在生产环境中管理和优化它们的挑战也日益增加。为此,Raindrop推出了“Experiments”,这是第一个专门为企业人工智能智能体设计的A/B测试套件。这一新的分析功能允许公司严格测试和比较底层模型、提示词或工具访问的改变如何影响智能体对真实用户的表现。“Experiments”弥合了“评估通过,智能体失败”之间的鸿沟,提供数据驱动的洞察力,以确保持续改进和减少退步,将现代软件部署的严谨性带入动态的人工智能世界。综上所述,这些发展标志着一个关键时刻,人工智能正从新奇事物转变为企业核心运营结构的一部分,构建、优化并彻底改变企业的运营方式。
分析师视角
今天的消息突显了一个关键的转折点:人工智能正从实验性工具发展成为基础性企业基础设施。OpenAI的Codex不仅仅是又一个编程助手;它是一项战略举措,旨在将AI确立为最终的“工具构建者”,使OpenAI置于未来软件经济的中心。这种普遍可用性,加上Echelon大胆进军咨询领域,预示着高技能知识工作现在已牢牢处于AI自动化的瞄准范围之内。企业关注的重点必须从AI是否能执行复杂任务,转向如何大规模集成、管理和优化AI。像Together AI的自适应推理和Raindrop的A/B测试这样的解决方案不再是小众产品;它们是部署可靠、高性能AI必不可少的操作层。预计AI开发与核心业务运营之间的界限将加速模糊,传统服务模式将面临巨大压力,各方将争相获取适应性强、高效的AI基础设施。
内容来源
- The most important OpenAI announcement you probably missed at DevDay 2025 (VentureBeat AI)
- Will updating your AI agents help or hamper their performance? Raindrop’s new tool Experiments tells you (VentureBeat AI)
- Nvidia researchers boost LLMs reasoning skills by getting them to ‘think’ during pre-training (VentureBeat AI)
- Together AI’s ATLAS adaptive speculator delivers 400% inference speedup by learning from workloads in real-time (VentureBeat AI)
- Echelon’s AI agents take aim at Accenture and Deloitte consulting models (VentureBeat AI)