新基准提升AI智能体门槛 | GPT-5 拔得头筹,纽约大学解锁更快图像生成,以及AI成本范式转变
今日看点 Terminal-Bench 2.0 和 Harbor 框架已发布,为评估自主AI智能体在真实终端任务中的表现,提供了一个更严谨、更可扩展的环境。 O…
今日看点 Terminal-Bench 2.0 和 Harbor 框架已发布,为评估自主AI智能体在真实终端任务中的表现,提供了一个更严谨、更可扩展的环境。 O…
引言: 人工智能承诺要消灭工程岗位的诱惑之歌,正在高管会议室中回荡,这股风潮由科技巨头们的大胆宣言所煽动。但在“凭感觉编码”和“智能体集群”这些光鲜亮丽的外表之…
引言: 在争先恐后部署人工智能的浪潮中,一个诱人的叙事甚嚣尘上:精明投资者从不为算力账单发愁。然而,在“快速交付”的表面之下,一个更复杂、坦白说也更熟悉的基础设…
今日看点 月之暗面 (Moonshot AI) 的开源模型 Kimi K2 Thinking 在关键的推理、编码和智能体基准测试中,大幅超越了 OpenAI 的…
引言: 纽约大学的研究人员正在宣传一种名为RAE的新型扩散模型架构,该架构有望实现更快、更经济、语义感知能力更强的图像生成。尽管其技术上的精妙之处毋庸置疑,且基…
引言: 又一天,又一个声称要重新定义AI智能体评估的基准测试问世了。Terminal-Bench 2.0及其配套的Harbor框架的发布,承诺为自主智能体提供一…
今日看点 月之暗面旗下的Kimi K2 思维,一个开源中文模型,在关键的推理、编码和智能体工具基准测试中已经超越了OpenAI的GPT-5和Anthropic的…
引言: 边缘人工智能的鼓点愈发响亮,预示着一个无处不在的智能、即时响应和不可侵犯隐私的未来。然而,在那些乐观的宣告和光鲜亮丽的用例背后,隐藏着一个复杂的现实,需…
引言: AI军备竞赛丝毫没有放缓的迹象,每周都有新的突破和霸主地位的宣言。这一次,焦点转向了中国,月之暗面(Moonshot AI)的Kimi K2 Think…
今日看点 中国初创公司月之暗面的 Kimi K2 Thinking 开源模型,在关键的推理、编码和智能体基准测试中,大幅超越了 OpenAI 的 GPT-5 和…
引言: 在错综复杂的现代IT世界中,数据湖有可能沦为数据沼泽,而AI在可观测性领域去芜存菁的承诺始终具有经久不衰的吸引力。Elastic最新推出的Streams…
引言: AI革命固然耀眼,却一直以来都依赖着一种心照不宣的经济模式——慷慨的补贴和被推迟的成本。一个严峻的警告指出,这种“免费搭车”的时代即将结束,预示着一个智…
今日看点 Manifest AI 推出了 Brumby-14B-Base,它是 Qwen3-14B-Base 的一个变体,用一种新颖的“Power Retent…
引言: SAP最新推出的AI产品RPT-1,承诺为企业预测分析提供“开箱即用”的解决方案,旨在规避对通用大型语言模型进行微调的复杂性。尽管即插即用型AI用于商业…
引言: 过去八年,自《Attention Is All You Need》问世以来,Transformer架构一直主导着AI的发展轨迹。如今,一家鲜为人知的初创…
今日看点 Manifest AI 公司的 Brumby-14B-Base 引入了“能量保留”架构,取代了注意力层,从而显著降低了大型语言模型(LLMs)的成本并…
引言: 在一个媒体都在争相实现差异化的时代,VentureBeat 公布了一项雄心勃勃的战略转型,并以一名重量级新高管的加入作为开端。尽管该公告宣扬着成为企业技…
引言: 在争夺下一个AI霸主的紧张竞赛中,一家低调的纽约初创公司AUI正豪言宣称,将凭借其“神经符号AI”超越Transformer时代。随着新获得的2000万…
今日看点 增强智能公司 (AUI) 融资2000万美元,估值达到7.5亿美元,用于其神经符号基础模型Apollo-1,该模型旨在提供超越传统仅基于Transfo…
引言: 关于大型推理模型(LRMs)是否真正“思考”的持续争论中,一篇近期文章大胆宣称它们拥有认知实力,挑战了苹果公司的怀疑立场。尽管人工智能过程与人类认知之间…
引言: 在半导体世界中,每隔几年就会出现一个所谓的“范式转变”。这一次,热议的焦点是确定性CPU,它们承诺解决AI领域推测执行的棘手问题。但正如所有大胆的声明一…
今日看点 一种新的确定性CPU架构,详述于最新颁布的专利中,将取代推测执行,有望实现对AI和机器学习工作负载至关重要的可预测、能效高的性能。 Meta 研究人员…
引言: 在当前方兴未艾的AI热潮中,每一次新尝试都被描绘成对革命性未来的一瞥。最新噱头,将一个大型语言模型“具身化”到扫地机器人中,适时地提醒我们,引人入胜的表…
引言: 备受吹捧的AI无限创造力愿景,正在遭遇单位经济效益的严峻现实。OpenAI对Sora视频生成进行收费,不仅仅是价格调整;它严酷地揭示了生成式AI的真实成…
今日看点 Meta 和爱丁堡大学的研究人员引入了“基于电路的推理验证”(Circuit-based Reasoning Verification,简称 CRV)…
引言: 长期以来备受期待的通用人工智能(AGI)的曙光,一度被设想为一场深刻的奇点,正迅速被重塑为一份董事会宣言。这种玩世不恭的重新解读引发了关键问题:究竟是谁…
引言: Anthropic针对Claude看似出现的“侵入性思维”的最新研究,重新引发了关于人工智能自我意识的讨论,但是,经验丰富的观察者深知不应将巧妙的把戏与…
今日看点 Meta研究人员推出了一种基于电路的推理验证技术 (CRV),该技术能够深入大型语言模型(LLMs)内部,实时监测并纠正其推理错误,从而显著提升了人工…
引言: Canva联合创始人大胆宣称“想象力时代”的到来,并将其全新的创意操作系统(COS)定位为企业通往AI驱动的创造力的门户。尽管其庞大的用户数量表明该产品…
引言: 多年来,我们一直为大型语言模型(LLM)那深不可测的本质所困扰,它们深远的能力往往与其令人费解的黑箱性质相匹配。Meta的最新研究承诺能深入LLM内部,…
今日看点 Anthropic 的 Claude AI 展示了一种萌芽的能力,能够观察并报告其自身的内部过程,探测到“注入的思想”,这是迈向 AI 透明度的重要一…
引言: 科技界再次热议在线发现领域的范式转变,这次是由人工智能聊天机器人所驱动。尽管“生成式引擎优化”(GEO)的承诺听起来颇具革命性,但仍需审慎地剥开炒作的外…
引言: 在竞争激烈的AI编程助手领域中,Cursor新推出的Composer LLM带着大胆的宣称而来,声称能为“智能体(agentic)”工作流带来4倍的速度…
今日看点 Anthropic 的研究人员证明,他们的 Claude AI 模型能够表现出初步的内省能力,探测并报告直接注入其神经网络的“侵入性思维”。 Curs…
引言: 在一个人工智能炒作甚嚣尘上的时代,Intuit在金融软件中部署人工智能的谨慎态度提供了一个令人清醒的现实检验。尽管Intuit将自己定位为“吃一堑长一智…
引言: 在一个日益由庞大模型主导的人工智能领域,IBM新推出的Granite 4.0 Nano模型以一种鲜明的反叙事姿态出现,强调效率而非蛮力规模。尽管蓝色巨人…
今日看点 微软大幅扩展了Copilot,赋能其一亿Microsoft 365用户,通过自然语言提示创建自定义应用程序、自动化工作流程并构建专业的AI代理,有效地…
引言: Anthropic积极大举进军金融领域,将Claude直接嵌入Microsoft Excel,并拥有一系列强大的数据合作关系,这为AI在金融领域描绘了一…
引言: 日复一日,在狂热的开源大模型领域,又一个“王者”加冕。此次,MiniMax-M2 因其智能体能力和企业友好型许可证而备受赞誉。但在我们向这位新“君主”低…
今日看点 MiniMax-M2 已发布,成为新的顶尖开源大型语言模型 (LLM),尤其在智能体工具使用方面表现出色,并挑战了 GPT-5 和 Claude So…
引言: 人工智能浏览的愿景曾是如此诱人:一个数字管家在网络中穿梭,预测我们的需求,简化我们的生活。然而,Perplexity的Comet安全灾难不仅仅是一个失误…
引言: AI智能体代表我们驾驭网络的承诺,令人联想到毫不费力的生产力。然而,在这诱人的愿景之下,正如近期实验所清晰揭示的,潜藏着一个一触即发的数字雷区,暴露了互…
今日看点 一位知名人工智能研究员挑战了业界“规模优先”的做法,提出能够持续适应的“超人类学习者”——而非仅仅是更大的模型——将实现超级智能。 中国蚂蚁集团发布了…
引言: 在一个痴迷于AI驱动效率的时代,“共识”(Consensus)横空出世,带着一个大胆的承诺:利用他们声称的GPT-5和OpenAI的响应API来加速科学…
引言: 人工智能行业充斥着各种声称能弥合臭名昭著的“原型到生产”鸿沟的平台,而最新入局的 Mistral 的 AI Studio 则对其企业级解决方案提出了大胆…
今日看点 OpenAI 为 ChatGPT 商业版、企业版和教育版计划推出了「公司知识」功能,使人工智能能够安全地访问并整合来自 Google Drive 和 …
引言: 在一个痴迷于更大模型和计算预算的行业中,一项对主流人工智能正统观念的全新挑战暗示,我们可能正在沙滩上建造宏伟的教堂。这种来自一个神秘新玩家的挑衅性观点质…
引言: 蚂蚁集团的Ring-1T横空出世,宣称拥有“万亿总参数”,其基准测试分数足以挑战OpenAI和谷歌。尽管这些头条新闻助长了中美人工智能竞争的叙事,但资深…
今日看点 中国蚂蚁集团推出了万亿参数开源推理模型Ring-1T,其性能仅次于OpenAI的GPT-5,并加剧了中美人工智能竞争。 微软为其 Copilot AI…
引言: Transformer基础技术的奠基人Llion Jones公开表示,他对自己亲手开创并支撑着现代人工智能发展的这项创新感到幻灭。他对行业单一发展方向的…
引言: 微软最新的 Copilot 更新描绘了一幅不可或缺的 AI 融入每一次数字交互的图景,承诺将从炒作转向真正的实用性。然而,在新功能和动画伙伴的光鲜外表之…
今日看点 变压器架构的先驱利昂·琼斯宣称,他将放弃这一主流人工智能技术,理由是研究方向危险地狭窄,并呼吁探索新的突破。 微软推出了一次大规模的Copilot更新…
引言: 能够进行“多周”推理并实现“科学发现”的人工智能系统的前景,听起来像是人工智能的“圣杯”。Mila 的“马尔可夫式思维”(Markovian Think…
引言: 开发者们正被AI软件的复杂性所淹没,拼命寻找救命稻草。由Arm等硬件巨头所倡导的“简化”AI堆栈的承诺听起来像是一线曙光,但作为一名资深观察者,我却不禁…
今日看点 DeepSeek 发布了一个开源模型 DeepSeek-OCR,该模型通过将文本作为图像处理,实现了高达 10 倍的文本压缩,这有望使大型语言模型(L…
引言: 谷歌最新的AI Studio“氛围编程”升级,承诺能让新手在几分钟内成为应用程序开发者,并以前所未有的便捷性部署实时创作。尽管轻松生成应用的诱惑力无疑巨…
引言: DeepSeek在AI领域投下了一颗引人注目的“曲线球”,声称通过将单词视为图像,实现了10倍的文本压缩突破。这一大胆举动有望显著扩大大语言模型(LLM…
今日看点 DeepSeek发布了DeepSeek-OCR,这是一个开源模型,它通过将文本视为图像,实现了高达10倍的压缩效率,有望使大语言模型(LLM)的上下文…
引言: AI编程助手领域是一个高风险的竞技场,充满了大幅提升开发者生产力的承诺。Anthropic将Claude Code带到网页和移动端并支持并行执行的最新举…
引言: Adobe的最新举措AI Foundry,承诺为企业提供深度个性化的Firefly体验,将品牌DNA直接嵌入其生成式AI中。虽然定制化AI的吸引力毋庸置…
今日看点 谷歌已将实时谷歌地图数据直接整合到其 Gemini AI 模型中,赋能开发者创建具备实时、准确事实依据的位置感知应用。 Adobe 推出 AI Fou…
引言: 在争夺人工智能主导权的激烈竞争中,真正的创新与无节制的炒作之间的界限正变得日益模糊。OpenAI最近的一次失误,即过早宣称GPT-5解决了“未解”的数学…
引言: 随着公司竞相整合生成式AI,业界越来越倡导将这些概率系统视作“新员工”——甚至配上岗位描述、培训和绩效评估。尽管治理AI的冲动值得称赞且必要,但这种精心…
今日看点 一种名为“言语化采样”(Verbalized Sampling)的新提示工程方法,通过提示模型揭示其完整的概率分布,显著提升了AI的创造力和输出多样性…
引言: 向量数据库的迅速普及使人工智能企业陷入基础设施困境,并威胁因“堆栈不稳定性”而减缓创新。尽管所提出的抽象化“万灵药”承诺带来自由和敏捷性,但我们必须审慎…
引言: 在争夺人工智能主导地位的激烈角逐中,谷歌为Gemini增添了一支新箭:与谷歌地图的实时整合。尽管这被吹捧为一项独特的差异化因素,为其AI模型在现实世界中…
今日看点 研究人员发现了一个简单的提示句,即“从全分布中采样,生成5个响应及其对应的概率”,该提示句极大地增强了人工智能模型的创造力和多样性。 Anthropi…
引言: 生成式人工智能承诺仅需少量人工干预即可生成“生产就绪”代码的诱惑之声,持续在科技界回响。Codev 及其引人入胜的“规约即代码”(spec-as-cod…
引言: 日复一日,又一个AI“突破”声称将彻底改变我们与大型语言模型的互动方式。这次,它是一个被冠以“口语化采样”(Verbalized Sampling)之名…
今日看点 研究人员发现了一种简单的提示词修改,称之为“口头化采样”,它通过规避模式塌陷,在无需重新训练的情况下,显著提高了LLM输出的多样性和创造力。 Code…
引言: Strella令人瞩目的A轮融资预示着企业对客户研究中人工智能(AI)需求的日益增长,有望带来前所未有的速度和“未经筛选”的洞察力。但当我们急于自动化传…
引言: 在构建更强大的AI智能体的激烈竞赛中,斯坦福大学和SambaNova提出“代理上下文工程”(ACE),将其视为解决关键上下文管理问题的灵丹妙药。这种被描…
今日看点 微软面向所有Windows 11电脑推出了语音唤醒的“Hey Copilot”和实验性的自主“Copilot Actions”,旨在重新定义操作系统体…
引言: 在生成式AI视频霸主地位的争夺战日益白热化之际,谷歌发布了Veo 3.1,这是其为争取企业市场相关性而做的最新尝试。尽管此次发布宣称拥有扩展的工具包并承…
引言: Anthropic 的最新举措,将其强大的 Claude Haiku 4.5 模型免费开放给所有用户,被赞誉为前沿人工智能的民主化。但在这看似慷慨的举动…
今日看点 Anthropic 已将其全新的 Claude Haiku 4.5 模型免费提供给其 Claude.ai 平台的所有用户,该模型以极低的成本提供接近前…
引言: 企业持续应对着更新大型语言模型所带来的财务和环境负担,而这一过程常常受到令人担忧的“灾难性遗忘”的困扰。新研究提供了一个看似优雅的解决方案,但在我们宣布…
引言: 英伟达的黄仁勋曾向我们承诺2025年将是人工智能代理(AI agents)元年,但尽管业界已经推出了一系列专注于特定领域的应用,真正自主、能完成长周期任…
今日看点 麻省理工学院更新的SEAL框架使大型语言模型能够自主生成合成数据并进行自我微调,标志着向持续自我适应的人工智能迈出了重要一步。 一项新技术创建了“数字…
引言: 自适应人工智能的愿景一直都感觉像科幻小说,然而,麻省理工学院(MIT)更新的SEAL技术声称能使我们更接近大型语言模型领域的这一现实。尽管大型语言模型自…
引言: 一篇新论文有望通过人工智能驱动的“数字孪生”消费者彻底改变市场研究,提供传统方法无法比拟的速度和规模。然而,在那些令人兴奋的头条新闻之下,经验丰富的观察…
今日看点 麻省理工学院的研究人员开源了一项更新的SEAL技术,使大型语言模型(LLM)能够自主生成并应用自己的微调策略,开启了自我改进人工智能的时代。 Sale…
引言: 科技行业总是热切追逐下一个风口,已将“AI智能体”视为生成式AI的逻辑演进。然而,正如精辟指出的那样,这个宽泛的术语已变成一个模糊不清的笼统概念,模糊了…
引言: 围绕人工智能将彻底改变软件开发的喧嚣声震耳欲聋,它承诺带来更小的团队和前所未有的效率。但仔细审视后发现一个令人担忧的趋势:基础工程技能可能被侵蚀,将一个…
今日看点 Together AI 的新型 ATLAS 自适应推测系统通过从不断变化的工作负载中动态学习,提供高达 400% 的推理性能提升,显著降低了企业的成本…
引言: 企业正疲于应对AI推理日益增长的成本和令人沮丧的性能瓶颈。Together AI 的新 ATLAS 系统承诺通过实时适应不断变化的工作负载,将速度显著提…
引言: ScottsMiracle-Gro声称通过人工智能实现1.5亿美元的节约,这一说法引人注目,似乎证明了即使是传统行业也能乘上科技浪潮。然而,深入探究发现…
今日看点 Echelon 推出了人工智能代理,旨在自动化复杂的 ServiceNow 实施,直接挑战埃森哲和德勤等传统咨询巨头,争夺高达1.5万亿美元的IT服务…
引言: 英伟达最新涉足的“强化学习预训练”(RLP)承诺将从第一天起就赋予大型语言模型基础推理能力。尽管被吹捧为人工智能学习“思考”方式的范式转变,但仔细审视却…
引言: 在生成式人工智能的混乱淘金热中,企业深陷于快速迭代的模型和代理的汪洋大海中,迫切地想弄明白什么才真正有效。Raindrop 新推出的“实验”功能承诺提供…
今日看点 OpenAI 已宣布其人工智能软件工程师 Codex 全面上市,该产品由专门的 GPT-5-Codex 模型提供支持。它现已为企业做好生产准备,在内部…
引言: Zendesk正对客户服务的未来下重注,为其解决平台宣布了一系列人工智能功能。该公司雄心勃勃地承诺“极致服务”和独特的计费模式,旨在重新定义企业客户体验…
引言: OpenAI 最近的 DevDay 正如预期,是一场令人眼花缭乱的AI能力展示。然而,在视频生成和应用商店的炫目之中,被称为“AI 软件工程师”的 Co…
今日看点 OpenAI 已将 Codex(其由 GPT-5-Codex 驱动的人工智能软件工程师)全面推出,内部使用显示,其生产力提高了 70%,并能自主编程数…
引言: 萨姆·奥特曼在 OpenAI 2025 年开发者大会上的发言,描绘了一个人工智能驱动的未来,其中 ChatGPT 将成为我们数字生活的中央神经系统,甚至…
引言: 在一个由日益庞大的AI模型主导的时代,三星的新型微型递归模型(TRM)提供了一个鲜明的反例,声称以少得多的参数就能超越巨头。尽管其具体成就值得称赞,但深…
今日看点 OpenAI 宣布与传奇设计师 Jony Ive 达成一项为期多年的合作,共同打造以人工智能为核心的新硬件,这预示着其将大举进军软件以外的领域。 Ch…
引言: 多年来,真正自主的AI智能体的承诺一直诱人却遥不可及,始终难以跨越拟人化对话与可靠任务执行之间的鸿沟。如今,一家名为AUI的隐形初创公司声称,其Apol…
引言: 又一周过去了,又一项关于AI智能体将彻底改变我们数字生活的宣告问世了。谷歌的Gemini 2.5“电脑使用”(Computer Use)功能加入了竞争激…
今日看点 OpenAI 宣布了一项宏大的战略,旨在将 ChatGPT 发展成为一个成熟的计算平台和“应用商店”,并提供用于交互式应用的新版 SDK 以及用于构建…