EBTs:实现稳健推理和泛化的新AI范式
EBTs:实现稳健推理和泛化的新AI范式

在AI Flare,我们不断探索人工智能的前沿。今天,我们将深入探讨伊利诺伊大学厄巴纳-香槟分校和弗吉尼亚大学研究人员的一项革命性发展:一种新的模型架构,有望开创一个更强大、更智能、具有无与伦比推理能力的人工智能系统新时代。
这种开创性的架构,被称为基于能量的Transformer(EBT),展示了利用“推理时缩放”(inference-time scaling)来解决复杂问题的天然能力。对于企业而言,这可能意味着高成本效益的AI应用,它们能够无缝地泛化到新颖情境,而无需进行广泛的、专门的微调。
寻求系统2 AI:超越直觉
在心理学中,人类思维通常分为两种模式:系统1,快速、直观、自动化;系统2,缓慢、深思熟虑、分析性。当前的大型语言模型(LLMs)擅长系统1风格的任务,例如生成创意文本或快速摘要。然而,AI行业的重点正日益转向实现系统2思维,以应对更复杂的推理挑战,例如复杂的解决问题或深度分析任务。
为了提高在难题上的性能,当前的推理模型通常采用各种推理时缩放技术。流行的方法包括强化学习(RL),例如在DeepSeek-R1等模型中,AI因生成推理步骤直到达到正确答案而获得奖励。另一种常见方法是“n中选优”(best-of-n),它涉及生成多个潜在答案并使用验证机制选择最合适的答案。
然而,这些方法存在显著的缺点。它们通常局限于一小部分易于验证的问题,例如数学或编码,甚至可能降低在创意写作等其他任务上的性能。此外,最近的证据表明,基于RL的方法可能并未真正教会模型新的推理技能;相反,它们可能只是让模型更有可能使用它们已经拥有的成功推理模式。这种局限性阻碍了它们解决需要真正探索其初始训练数据之外的问题的能力。
引入基于能量的模型(EBMs):将思考视为优化
EBT架构提出了一种根本不同的方法,其根源在于一类被称为基于能量的模型(EBMs)。其核心思想优雅而简单:模型不是直接生成答案,而是学习一个充当复杂验证器的“能量函数”。该函数接收输入(如提示)和候选预测,然后为其分配一个“能量”值。低能量分数表示高兼容性和良好匹配,而高分数则表示匹配不佳。
将此应用于AI推理,研究人员提出将“思考视为相对于学习到的验证器的优化过程,该验证器评估输入和候选预测之间的兼容性(未归一化概率)。”该过程从一个随机预测开始,然后通过最小化其能量分数逐步完善。模型探索可能的解决方案空间,直到收敛到一个高度兼容、低能量的答案。这种创新方法建立在一个深刻的原则之上:验证解决方案通常比从头开始生成解决方案更容易、更高效。
这种“以验证器为中心”的设计解决了AI推理中的三个关键挑战:
- 动态计算分配:模型可以在更难的问题上“思考”更长时间,在更简单的问题上更高效。
- 处理不确定性:EBMs自然地管理现实世界问题中固有的不确定性,在这些问题中可能不存在单一、明确的答案。
- 自我验证:它们充当自己的验证器,无需外部模型或人工监督进行验证。
与其他将生成器和验证器分离的系统不同,EBMs将两者结合成一个单一的统一模型。这种集成的一个关键优势是卓越的泛化能力。因为在新颖的、分布外(OOD)数据上验证解决方案通常比生成正确答案更容易,所以EBMs更能应对不熟悉的情景。
EBTs:实现真正AI推理的Transformer
历史上,EBMs在可扩展性方面一直面临挑战。为了克服这一点,研究人员引入了EBTs——专为这种基于能量的范式设计的专用Transformer模型。EBTs被训练为首先验证上下文和预测之间的兼容性,然后迭代地完善预测,直到找到能量最低(最兼容)的输出。这个过程有效地模拟了每次预测的深度思考过程。研究人员开发了两种EBT变体:一种受GPT架构启发的仅解码器模型,以及一种类似于BERT的双向模型。
EBTs固有的架构使其具有令人难以置信的灵活性,并与各种推理时缩放技术兼容。正如伊利诺伊大学厄巴纳-香槟分校的博士生、主要作者Alexi Gladstone所解释的:“EBTs可以生成更长的CoTs,进行自我验证,执行n中选优[或者]你可以从许多EBTs中采样。最棒的是,所有这些能力都是在预训练期间学习到的。”
EBTs实战:解读突破性成果
研究人员进行了广泛的比较,将EBTs与已建立的架构进行对比,例如用于文本生成(离散模态)的流行Transformer++和用于视频预测和图像去噪(连续模态)的Diffusion Transformer (DiT)。他们根据两个主要标准评估了模型:“学习可扩展性”(训练效率)和“思考可扩展性”(随着更多推理时计算而提高的性能)。
在预训练期间,EBTs展示了卓越的效率,在数据、批次大小、参数和计算方面,其扩展速率比Transformer++高出35%。这意味着EBTs可以更快、更经济地进行训练。
在推理时,EBTs在推理任务上也显著优于现有模型。通过“思考更长时间”(使用更多优化步骤)和执行“自我验证”(生成多个候选并选择能量最低的一个),EBTs将语言建模性能比Transformer++提高了29%。对于图像去噪,EBTs与DiTs相比取得了卓越的结果,同时前向传播次数惊人地减少了99%。
至关重要的是,研究发现EBTs比其他架构具有更好的泛化能力。即使在预训练性能相当或略低的情况下,EBTs在下游任务上始终优于现有模型。系统2思维带来的性能提升在远离训练数据分布(out-of-distribution)的数据上最为显著。这强烈表明,EBTs在面对新颖和具有挑战性的任务时特别稳健,突出了“思考是实现超越训练分布的稳健泛化的关键机制”。
EBTs为何对AI的未来至关重要
EBTs的优势深远,主要基于两个关键原因:
- 前所未有的可扩展性:在当今基础模型的巨大规模下,EBTs可能显著优于当前LLMs中使用的经典Transformer架构。作者指出,“在现代基础模型的规模下,如果用1000倍的数据训练1000倍大的模型,我们预计EBTs的预训练性能将显著优于Transformer++方案。”
- 卓越的数据效率:EBTs展示出更好的数据效率。在高质量训练数据成为AI扩展主要瓶颈的时代,这是一个关键优势。论文总结道:“由于数据已成为进一步扩展的主要限制因素之一,这使得EBTs特别有吸引力。”
尽管EBT架构具有不同的推理机制,但它与现有Transformer框架高度兼容,使其成为当前LLMs的潜在替代品。Gladstone证实:“EBTs与当前的硬件/推理框架非常兼容”,包括推测解码和vLLM等常见推理框架。
对于开发者和企业而言,EBTs强大的推理和泛化能力使其成为构建下一代AI应用的强大而可靠的基础。Gladstone总结道:“更长时间的思考可以广泛地帮助几乎所有企业应用,但我认为最令人兴奋的将是那些需要更重要决策、安全性或数据有限的应用。”
EBTs代表着AI迈向真正智能的重大飞跃,为构建更强大、更高效、更稳健的模型提供了途径,这些模型能够应对现实世界的复杂挑战。在AI Flare,我们相信这种范式转变可以重新定义人工智能的可能性。
Read the English version (阅读英文版)
免责声明:本文内容来自互联网公开信息,请仔细甄别,如有侵权请联系我们删除。