四千美元的“革命”:Brumby的力量保持是真正的突破,抑或只是一次巧妙的再训练技巧?

引言: 过去八年,自《Attention Is All You Need》问世以来,Transformer架构一直主导着AI的发展轨迹。如今,一家鲜为人知的初创公司Manifest AI声称,通过其Brumby-14B-Base模型中的“能量保持”(Power Retention)机制,避开了注意力机制的“阿喀琉斯之踵”,并宣称实现了前所未有的效率。但在我们宣布Transformer时代结束之前,至关重要的是,我们需要深入剖析这一表面上的突破,并审视其真正的意义。
核心提炼
- 能力保持为注意力机制的二次复杂度问题提供了一个引人注目的理论解决方案,有望使任意长度的上下文实现常数时间计算成本。
- 以 4000 美元重新训练现有 Transformer 模型的能力,预示着它有望成为新架构范式的潜在助推器,从而大幅降低了应用的准入门槛。
- Brumby的性能目前与同类Transformer模型持平,并非持续优越,而且其低训练成本有赖于利用预训练权重,从而掩盖了从头开发这样一个系统的真实成本。
深度解读
注意力机制的二次方缩放特性,即计算和内存需求随上下文长度呈指数级增长,长期以来一直是一个隐藏在Transformer主导地位之下,令人不安的事实。这也是为什么我们的LLM在不产生过高成本或不需要巧妙的、通常有损的变通方法的情况下,难以跨越整本书或庞大的代码库进行推理。Manifest AI的Power Retention技术通过放弃全局成对比较,转而采用循环的、固定大小的潜在状态更新,直接应对了这一瓶颈。这一转变,让人联想到更早的循环神经网络(RNN),但据称具有Transformer级别的表达能力,理论上承诺了每token的计算成本是恒定的,且与上下文长度无关——这对于真正实现长上下文AI而言,是一个范式转变的宣称。
然而,Brumby-14B-Base这款140亿参数模型4000美元的训练成本虽然抢眼,却需要我们批判性地审视。这一数字固然令人印象深刻,但并非从头开始构建Power Retention模型的内在便宜的证明。正如Manifest AI的创始人所澄清的那样,它完全建立在利用Qwen3-14B-Base Transformer模型大量且极其昂贵的预训练基础之上。Brumby并非浴火重生的凤凰;它是一个移植患者,继承了一个主要由注意力机制塑造的“大脑”,然后被重新教授了新的神经通路。这种“架构互换”揭示了一条有趣的创新路径——即将现有知识适应新机制——但它掩盖了将这种新颖架构从零开始提升到同等水平所需的真正研发和训练投入。
在性能方面,Brumby-14B-Base被称赞“与主流Transformer模型不相上下”。尽管它在数学和长上下文推理方面表现出特别的优势,而这正是注意力机制的短板所在,但它在MMLU-Pro等“知识密集型”评估中表现滞后。这并非全面的压倒性胜利,而是一种有针对性的提升。这表明Power Retention可能确实为某些类型的任务提供了结构性优势,但它尚未证明自己能够在我们对现代LLM所期望的各种能力方面,作为Transformer的整体优越或甚至广泛等效的替代品。
对比观点
尽管一个训练成本仅4000美元的无注意力大语言模型的说法无疑引人注目,但更审慎的观点揭示了几个关键的警示。首要的一点是“再训练而非重建”的区别。将4000美元呈现为在全新范式下开发一个140亿参数模型的成本,这是误导性的,因为这仅仅是微调一个模型最后几层的成本,而该模型初始训练的成本可能高达数百万甚至数千万美元。这类似于声称你只花了重新喷漆的钱就造出了一辆高性能赛车,却忽略了底盘和发动机背后巨大的工程和制造投入。真正的问题是:Manifest AI,或者任何其他人,能否从零开始构建一个真正全新的、无注意力的同等规模模型,并以远低于Transformer模型整个生命周期成本的价格,实现可比或更优的性能?在现阶段,答案是斩钉截铁的否定。此外,“不相上下”的性能,尽管对于一种新颖架构而言值得称赞,但对于行业来说,并不是一个足以放弃其根深蒂固的Transformer生态系统的令人信服的理由。如果没有能力上全面的、显著的飞跃,或者可证明的全周期训练成本数量级降低,广泛采用仍将遥不可及。
前景探讨
Brumby-14B-Base 为无注意力架构的可行性提供了一个令人信服的概念验证,尤其是在解决迫在眉睫的长上下文问题方面。在未来1-2年内,我们可以预见到对循环模型和基于保留机制的模型的研究会加速,可能会侧重于将其性能推向超越简单持平的水平,并从头开始探索其真正的扩展极限。最大的障碍将是在广泛的任务范围内,而不仅仅是在特定的细分领域,证明其相对于Transformer模型具有清晰、明确的优势。Manifest AI,或未来的创新者,必须证明他们能够不依赖于Transformer的迁移学习而高效地训练这些模型,从而验证架构本身的转变。此外,围绕Power Retention的新生生态系统将需要快速成熟,提供工具、优化技术和社区支持,以与Transformer模型所投入的巨大资源相竞争。在此之前,Brumby在AI架构领域仍然是一个令人兴奋但仍在很大程度上未被证明的挑战者。
原文参考: Attention ISN’T all you need?! New Qwen3 variant Brumby-14B-Base leverages Power Retention technique (VentureBeat AI)