注意力机制霸权受挑战:新型“能量保持”模型承诺以远低于Transformer的成本实现同等性能 | AI面临算力紧缺;Gemini深度研究整合个人数据

注意力机制霸权受挑战:新型“能量保持”模型承诺以远低于Transformer的成本实现同等性能 | AI面临算力紧缺;Gemini深度研究整合个人数据

概念图,描绘了一个流线型、节能的AI架构,象征着“算力留存”模型所实现的经济高效、Transformer级别的性能,并为AI算力紧缺问题提供了解决方案。

今日看点

  • Manifest AI 推出了 Brumby-14B-Base,它是 Qwen3-14B-Base 的一个变体,用一种新颖的“Power Retention”架构取代了注意力机制,并以极低的成本实现了与最先进的 Transformer 模型相当的性能。
  • Power Retention 机制提供了每 token 恒定时间的计算,解决了注意力机制在长上下文中二次缩放的瓶颈,并实现了现有 transformer 模型的高效再训练。
  • AI产业正因算力紧缺持续加剧、延迟不断增加以及成本不可持续,而面临“高峰定价”的临界点,这凸显了提升推理效率的迫切需求。
  • 谷歌 Gemini 的“深度研究”功能现在通过访问用户的电子邮件、Google 云端硬盘和聊天数据,提供了增强的功能,以生成更全面和个性化的研究报告。
  • Elastic 公司推出了“Streams”——一项AI驱动的可观测性功能,它能够将原始、海量的日志转化为结构化洞察,从而自动化事件诊断,并为SRE人员提供修复步骤建议。

主要动态

人工智能领域可能正在发生一场基础性转变,长期以来占据主导地位的Transformer架构正面临迄今为止最可信的挑战。在“Attention Is All You Need”论文彻底改变人工智能八年后,一家名为Manifest AI的小型初创公司推出了一款新模型Brumby-14B-Base,该模型完全放弃了注意力机制,转而采用一种名为“Power Retention”(幂次保留)的新颖机制。

Brumby-14B-Base于2025年10月28日发布,是开源Qwen3-14B-Base的再训练变体。其核心创新在于Power Retention层,该层用循环状态更新取代了注意力机制的全局成对比较。这种架构像循环神经网络(RNN)一样处理信息,不断将过去的数据压缩成一个固定大小的潜在状态,这意味着其计算成本与上下文长度无关,始终保持不变——与Transformer的二次方扩展开销形成了深刻的背离。Manifest AI声称,这使得Brumby能够与Qwen3-14B和GLM-4.5-Air等成熟的Transformer模型表现相当,特别是在数学和长上下文推理任务中表现出色,而这些任务通常是注意力架构的短板。

也许最引人注目的是其经济性:Manifest AI仅用32块英伟达H100 GPU,耗时60小时,就以4000美元的成本训练了140亿参数的Brumby模型。尽管这种令人印象深刻的成本降低依赖于对现有Transformer权重的再训练,但Manifest AI创始人Jacob Buckman强调了其重要性,称之为“加速新建模范式采纳的关键催化剂”,能够使大规模实验民主化。他预测,即使是更大规模的模型,再训练成本也会相似,暗示着一个未来:无注意力系统可以以低几个数量级的投资达到Transformer的性能。这种效率也延伸到硬件利用率,据报道,Power Retention内核比FlashAttention2和Mamba实现了更高的利用率,并在极长上下文中提供了数百倍的加速。

这种高效架构的出现对正努力应对迫在眉睫的“产能危机”的人工智能行业来说,恰逢其时。WEKA首席人工智能官Val Bercovici警告说,人工智能正迅速接近一场类似于优步动态定价的“经济清算”,尤其是在推理方面。他认为,当前的人工智能费率是受补贴且不可持续的,真正的市场费率将在2027年显现。为了获得更高的准确性而不断增加token的需求,特别是在需要数百到数千个提示和响应的代理群中,会产生复合的延迟,这变得难以承受。Bercovici强调,效率而不仅仅是原始规模,对于人工智能的盈利能力至关重要。

在这些架构和经济讨论的同时,人工智能的能力继续扩展到实际应用中。例如,谷歌Gemini的“深度研究”功能已得到增强,可以从用户的个人数据中提取信息,包括电子邮件、Google Drive文档和聊天记录。这项被誉为Gemini最受期待的功能之一的代理能力,允许聊天机器人通过分析用户的数字足迹来创建详细的研究报告,从而展现了日益个性化和集成化的人工智能体验。

同样,在企业IT领域,人工智能正被用来解决普遍存在的数据过载问题。搜索AI公司Elastic为其可观测性平台推出了“Streams”功能。这项由AI驱动的功能旨在将传统上被动和手动的日志分析过程转变为主动和自动化的过程。Streams能够自动解析嘈杂的日志,提取相关字段,发现关键错误和异常,并旨在提供补救措施。这一创新有望将SRE(站点可靠性工程师)从手动筛选数千兆字节日志的繁重工作中解放出来,通过用AI驱动的专业知识和自动化来增强从业人员的能力,从而解决技能短缺问题。

这些发展——从基础架构突破到增强的产品功能和企业解决方案——共同描绘了一幅人工智能图景,它在驾驭前所未有的增长和迫在眉睫的经济挑战的同时,努力追求更高的效率、更深层次的集成和更智能的自动化。

分析师视角

Manifest AI 的 Brumby-14B-Base 在Transformer的盔甲上撕开了一道显著的裂缝,表明“Attention Is All You Need”这一箴言可能终于过时了。以极低的成本,尤其通过高效的再训练,能够实现与最先进Transformer模型性能的匹敌,这对于AI的可及性和创新而言是一个颠覆者。这种优先考虑恒定时间上下文处理的架构转变,直接解决了即将到来的“算力紧缺”和“动态涨价”警告所强调的可扩展性和成本问题。

市场应关注其他参与者将如何快速采纳或适应类似的循环、无注意力架构。围绕Brumby训练成本的争议,尽管其细微之处有其合理性,但它强调了一个关键的转变:价值正日益体现在现有知识的高效适应上,而非完全从零开始的训练。这预示着一个未来,即多样化、专业化的架构(针对特定权衡,如长上下文效率进行优化)将挑战当前同质化的格局,推动AI开发和部署走向更民主化、更经济可行的方向。架构效率与运营成本之间的相互作用将定义AI成熟的下一阶段。


内容来源

Read English Version (阅读英文版)

Comments are closed.