换汤不换药：为什么大语言模型架构并非看起来那么革命性

2025-07-21 AIFlare

引言: 距离初代GPT问世七年之后，一个挥之不去的问题依然存在：在令人眼花缭乱的基准测试和令人印象深刻的演示背后，核心深处，大型语言模型是否真的在创新？随着新的“旗舰”架构不断涌现，人们不禁要问，我们是在见证真正的范式转变，还是仅仅在旧有基础上进行精巧的打磨？本专栏将剖析营销术语，旨在评估近期架构“进展”的真正本质。

核心提炼

基础Transformer架构依然根深蒂固，所谓的“创新”主要集中在效率而非概念上的突破。
当前架构层面的改进，例如多头潜在注意力 (MLA) 和专家混合 (MoE)，是旨在管理规模和成本的复杂工程手段，而非对智能的再发明。
LLM开发中固有的不透明性——多样化的数据集、训练机制和超参数——使得确定架构变化的真实影响变得极其困难，从而加剧了人们对其声称的优越性的怀疑。

深度解读

多年来，科技界一直在赞扬大型语言模型的快速发展，然而，审慎的目光揭示了一个不那么戏剧性的真相：其基础模块——Transformer——基本保持不变。尽管我们看到了从绝对位置编码到旋转位置编码的转变、多头注意力（Multi-Head Attention）让位给分组查询注意力（Grouped-Query Attention, GQA），以及GELU被SwiGLU取代，但这些充其量只是渐进式改进。这就像把汽车的化油器换成燃油喷射系统一样——诚然，这是一项重要的效率提升，但其核心仍然是同一个内燃机。

DeepSeek V3宣传的多头潜在注意力（Multi-Head Latent Attention, MLA）就是一个很好的例子。MLA被定位为一项节省内存的壮举，它通过压缩键（key）和值（value）张量，主要在推理过程中惠及KV缓存。尽管最初的DeepSeek-V2论文表明MLA甚至可能略微优于标准的多头注意力（这是一个值得注意的说法），但它本质上是对一个已知内存瓶颈的优化，而不是对注意力机制工作方式的重新思考。这是巧妙的工程设计，一个聪明的变通方案，但并非模型学习或推理方式上的概念性飞跃。GQA——另一个注重效率的替代方案——作为其主要对比对象这一事实，恰恰强调了这一点：竞争的焦点是效率，而非全新的功能。

同样，MoE（专家混合模型）在DeepSeek V3等架构中的复兴，与其说是一项新颖的发现，不如说是一种对已存在数十年的技术的重新应用。MoE层会显著增加模型的总参数量，提供更大的容量，但巧妙之处在于，在推理时每个token只激活一小部分“专家”，从而保持效率。这使得巨大的“稀疏”模型成为可能，但这是一种权衡：训练时拥有庞大的容量，而在推理时计算成本受到控制。这是一种扩展的技巧，尽管有效，旨在在不完全耗尽计算资源的情况下，突破模型规模的极限。其“开创性”之处不在于架构原语本身，而在于其当前的规模以及管理其复杂性所需的工程投入。我们似乎只是变得更擅长将更多内容塞入同一个基本容器中。

对比观点

尽管我持怀疑态度，认为这些架构调整是渐进式的而非革命性的，但支持者会迅速反驳说，在这样的规模下，“渐进式”的进步本身就是革命性的。当处理包含数千亿参数的模型时，即使是微小的效率提升，也能转化为计算、能源和实际部署成本上巨大的节约。他们会坚称，MLA 减少 KV 缓存内存使用量的能力，或是 MoE 在不按比例增加推理成本的情况下大幅增加模型参数的能力，正是释放人工智能新能力和更广泛可及性的关键。对于实际的企业或云服务提供商而言，架构选择带来的 10-20% 的效率提升，可能意味着一个产品能否可行，或是彻底陷入经济上的僵局。他们甚至可能会争辩说，当前在 Transformer 范式内进行扩展的重心，是必要且合乎逻辑的一步，它在尝试全新且风险大得多的基础设计之前，将已验证架构的极限推向极致。

前景探讨

展望未来一两年，我预计情况将大同小异，尽管复杂性会日益增加。预计持续的迭代改进将完全聚焦于效率：参数更密集的封装、MoE（混合专家）系统中更智能的专家路由、新颖的内存层级结构，以及或许更多针对特定任务的专业化注意力机制。真正的架构“革命”面临的最大障碍仍然是开发和验证全新基础原语的巨大成本和计算复杂性。要超越Transformer，将需要一场堪比其最初诞生时的范式转变，坦率地说，目前的激励机制仍然严重倾向于优化已在大规模应用中成熟的方案。此外，业界仍在努力解决性能提升的黑箱归因问题——究竟是数据、规模还是架构的细微差别？在我们能明确回答这个问题之前，我们将继续为我们可靠的老引擎擦亮镀铬件。

原文参考: LLM architecture comparison (Hacker News (AI Search))

Read English Version (阅读英文版)

AI Flare

抓住下一波人工智能浪潮