超越下一个词元预测?Meta的新型架构引发了关于大型语言模型未来的辩论
Meta AI在2024年末推出的两项突破性研究计划正在挑战支撑大多数当前大型语言模型 (LLM) 的基本下一个token预测范式。字节级Transformer (BLT) 架构的引入消除了对分词器的需求,并在多模态对齐和融合方面展现出巨大的潜力,同时还发布了大型概念模型 (LCM)。LCM更进一步,摒弃了token,旨在通过在语义概念空间中实现直接推理和生成,来弥合符号式AI和连接式AI之间的差距。这些进展引发了AI界的讨论,许多人认为这可能代表着LLM设计的新时代。Meta的研究探索了模型的潜在空间,试图彻底改变其内部表示,并促进更符合人类认知的推理过程。这项探索源于对当前开放和封闭源LLM缺乏用于处理和生成信息的显式分层结构的观察,这种结构独立于具体的语言或模态。传统LLM中流行的下一个token预测方法之所以获得关注,很大程度上是因为其工程实现相对容易,并且在实践中已被证明是有效的。这种方法解决了计算机处理文本离散数值表示的必要性,而token是实现这种向量转换以进行数学运算的最简单直接的方法。Ilya Sutskever在与Jensen Huang的对话中曾指出,预测下一个词可以让模型掌握潜在的现实世界过程和情感,从而形成世界模型。然而,批评者认为,使用离散的符号系统来捕捉人类思想的连续性和复杂性本质上是存在缺陷的,因为人类