超越基准:LLM推理核心中挥之不去的模糊性

超越基准:LLM推理核心中挥之不去的模糊性

一个连接模糊不清、不确定的神经网络图,象征着大型语言模型(LLM)推理中持续存在的模糊性。

引言: 在追求可靠人工智能的过程中,非确定性的幽灵持续困扰着大型语言模型,即便是在所谓的“确定性”条件下。当业界还在努力应对输出结果不一致带来的实际影响时,深入探究却揭示出一种根本性的数值不稳定性,它挑战了我们对一个“正确”的LLM回应究竟是什么的根本理解。这不仅仅是一个bug,它是底层计算结构的一个特性,对我们最先进的人工智能系统的可信度和可验证性提出了严峻挑战。

核心提炼

  • 即使在温度为0时,LLM非确定性的核心源于浮点数非结合性,这导致输出结果的按位差异取决于计算的执行顺序。这不仅仅是一个采样问题,而是一个根本的数值不稳定性。
  • 一种普遍持有的观点——即“并发性 + 浮点数”是主要原因——在很大程度上被否定为不充分,然而,导致LLM推理非确定性的确切“真正元凶”被明确指出将在稍后揭示,这给行业从业者所提供的解释留下了显著的空白。
  • 尽管推理服务器声称其GPU内核和前向传播是确定性的,但实际用户体验却是持续的、不可预测的输出变异。这种差异凸显了在为生产级LLM应用定义和实现真正可复现性方面的一个关键挑战。

深度解读

大型语言模型(LLM)可复现性的追求,常被视为科学严谨性的基石,正变得日益难以实现。普通用户可能将ChatGPT响应的变化归因于“采样”固有的随机性,但正如所提供的分析所强调的,现实情况要深入得多。即使将温度(temperature)设置为零——这是确定性贪婪采样的理论黄金标准——LLM的API接口和开源推理库仍然无法提供比特级完全一致的输出。这并非一个微不足道的小故障;这是一个明显的、削弱人们对这些强大却不透明系统信任的不一致性。

文章正确地将浮点数不结合性(floating-point non-associativity)认定为“原罪”,这是一种数值现实,由于有限精度和舍入误差,`(a + b) + c` 并不总是等于 `a + (b + c)`。这并非某种晦涩难懂的边缘情况;它在高性能计算中司空见惯,尤其是在处理大小差异巨大的数字时,而这在LLM前向传播的复杂网络中持续发生。其影响是深远的:操作顺序的任何微小改变,无论多么细微,都可能级联产生不同的结果。

尤其具有启发性——坦率地说,也令持怀疑态度的观察者感到担忧——的是对普遍存在的“并发性+浮点数”假设的明确驳斥。尽管该理论认为并行GPU执行中的竞争条件,结合浮点数特性,导致了非确定性,但文章认为这并非“全貌”,并且并发性与LLM推理的非确定性“完全无关”。然而,这一大胆的驳斥让我们感到悬而未决,因为在提供的文本中,“真正的罪魁祸首”仍然笼罩在神秘之中。对于一个渴望答案的行业来说,提出了一个复杂问题,推翻了普遍看法,却没有给出核心解决方案,这无异于揭示了严重疾病的症状却不提供诊断。

最引人注目的矛盾在于,文章声称虽然一些GPU内核可以是非确定性的,但“语言模型前向传播中使用的所有内核都是确定性的”。同时,文章承认“从使用推理服务器的任何人的角度来看,结果是非确定性的”。这产生了一个可复现性悖论:单个组件可能是稳定的,但从最终用户的角度来看,整个复合系统仍然是不可预测的模糊不清的。这不仅仅是一场学术辩论;它对一致性输出至关重要的关键应用具有切实影响,从法律分析到科学发现,质疑着AI生成内容的“正确性”本身。

对比观点

虽然追求位级别确定性是一个崇高的工程目标,但对于许多,甚至可以说大多数大型语言模型(LLM)应用而言,人们必须质疑其在实践中的必要性。对于相当一部分用例来说,语义相似性往往比精确的位级别可复现性更为重要。如果模型一次生成“The quick brown fox jumps over the lazy dog”,另一次生成“A nimble fox leaps over a lethargic canine”,只要两者传达相同的意图和质量,这种差异真的有问题吗?对绝对确定性的不懈追求可能是一种过度优化,为了达到用户既不要求也无益处的精度水平,反而会带来显著的性能和成本损失。文章暗示的“真正症结”很可能涉及到GPU架构或推理库设计中的根本性权衡——这些权衡正是为了优先考虑速度和效率,而非绝对的数值纯度。追求完美的确定性可能导致定制化、更慢、更昂贵的解决方案,从而阻碍人工智能的广泛应用,因为在许多市场中,“足够好”往往才是真正的驱动力。

前景探讨

即使完整解决方案尚未揭晓,在LLM推理中“消除非确定性”的探索也预示着一个复杂的未来。在未来1-2年内,我们可以预见到一个分叉的格局:那些将可复现性视为重中之重的专业化、高可靠性LLM部署,很可能将采用高度受限、可能较慢、甚至定制硬件的解决方案。与此同时,主流的LLM使用将继续容忍一定程度的“模糊性”,相较于位级保真度,更侧重于优化吞吐量和成本效益。最大的障碍将在于,如何在不严重损害性能的前提下,标准化跨越多样化硬件和软件栈的确定性执行环境。这可能需要芯片制造商、框架开发者和推理库维护者之间更紧密的合作,以建立新的计算原语或更严格的执行策略。如果没有这种协同努力,真正可复现AI的承诺就有可能成为一种小众的奢侈品,而非普遍标准。


原文参考: Defeating Nondeterminism in LLM Inference (Hacker News (AI Search))

Read English Version (阅读英文版)

Comments are closed.