无限AI的幻象：谷歌涨价揭示了经济的硬性底线。

2025-07-04 AIFlare

引言: 多年来，人工智能行业一直宣扬着一个诱人的叙事：智能将越来越便宜，并可无限扩展。谷歌近期对Gemini 2.5 Flash的悄然涨价，不仅仅是一次小波动；它是一个严酷而令人不安的提醒，即使是最先进的数字商品，也运行在非常真实、非常物质的经济约束之内。看来，免费午餐终究是要买单的了。

核心提炼

对AI计算成本将持续下降（即“AI摩尔定律”）的根本性信念已受到根本性挑战，揭示出通用LLM服务存在一个“软下限”。
此举凸显了LLM注意力机制在处理更长序列时成本呈二次方增长，与行业此前采用的线性定价模型之间固有的矛盾，这迫使业界进行痛苦的重新调整。
这种重新调整预示着一个更广泛的行业趋势，即人工智能提供商的盈利能力将日益与用户预期产生冲突，这很可能导致更精细的定价、专业模型，或者促使高用量用户转向本地部署解决方案。

深度解读

谷歌调整Gemini 2.5 Flash定价并非简单的市场调整；这是一个关键的数据点，揭示了普遍存在的“AI计算将遵循传统芯片历史轨迹”这一假设中的根本性缺陷。我们曾共同设想一个智能商品化、成本无限趋近于零的未来。这一事件给那种幻想踩下了刹车，揭示了“软下限”并非遥远的理论极限，而是由计算物理和超大规模基础设施经济学共同塑造的当下现实。

正如原文正确指出的，核心问题在于大型语言模型（LLM）注意力机制的二次方扩展特性。与传统CPU不同，传统CPU在处理更多数据时，处理时间通常呈线性增长；而大型语言模型，尤其是在处理长输入或输出序列时，其计算负担的增长是不成比例的。服务提供商最初为了普及访问和抢占市场份额，提供了混合线性定价，本质上是用利润更高的短序列工作负载来补贴计算成本高昂的长序列工作负载。这种做法最初有效，但最终行不通了。

谷歌的困境可能源于一个意想不到的现象：由于Flash的成本效益，大量高需求、高输入、低输出的用例（例如，对海量文档的摘要）变得流行起来。这些恰恰是利用了二次方成本的“阿喀琉斯之踵”，同时却支付相对较低的线性费率的工作负载。结果是：利润率的不可持续侵蚀。这不仅仅是谷歌的问题；这是一个行业性的挑战。每一个主要的LLM服务提供商都面临着相同的底层架构限制。他们通过混合定价来掩盖这些成本的能力，最终将面临产能规划、硬件采购和投资回报的残酷现实。

对于开发者和企业而言，这并非抽象的经济理论；这是对其成本模型的直接冲击。许多应用程序的构建都基于智能服务会永久打折的假设。现在，他们必须突然高度关注令牌比率、提示长度以及其AI交互的非常具体的计算特征。仅仅“调用API”已不再足够。我们正在进入一个时代，在这个时代，复杂的提示工程、智能模型选择（针对特定任务的更小、更专业的模型），甚至混合本地/云部署都将成为经济上的必然，而不仅仅是可选的优化。这一转变将迫使AI开发采取更成熟、当然也更昂贵的方法。

对比观点

尽管“AI摩尔定律终结”的说法颇具吸引力，但更务实的观点可能认为，这仅仅是市场细分策略，或是供应商对定价过高的产品进行修正。谷歌同时推出了一款性能较低、价格更便宜的“Flash Lite”模型。这可以被解读为谷歌在策略性地细分其市场：对功能强大、通用性强的Flash（事实证明，它被用于处理极其严苛的任务）收取高价，同时为不那么密集、更短的工作负载提供低成本选项。从这个角度看，这并非一道“壁垒”，而是对价值主张的重新校准。此外，芯片架构（如英伟达的Blackwell）和推理优化技术（例如推测解码、知识蒸馏）的快速发展仍在持续。未来硬件的迭代以及更智能的软件，很可能会再次将成本曲线推低，使得这个“软底线”仅仅是一个暂时的平台期，而非一道永久的障碍。潜在的二次方成本确实存在，但抵消它的原始算力每年都在增长。

前景探讨

短期1-2年展望表明，人工智能生态系统将迎来一个重要的经济再评估时期。预计大语言模型（LLM）提供商将推出更细致、可能是分层甚至动态的定价模型，使成本与实际计算负担紧密挂钩（例如，输入与输出的不同费率，或更长序列的递增费率）。这将迫使应用开发者摒弃“更多token更好”的心态，转而采用成本意识策略，如提示词压缩、检索增强生成（RAG）以减少上下文窗口大小，以及为特定任务战略性地使用更小、经过微调的模型。最大的障碍仍然是注意力机制在越来越大的上下文窗口下的二次方扩展，以及提供所需计算能力所需的巨额资本支出。尽管硬件创新将持续进行，但其收益可能会被更复杂模型不断增长的需求以及大规模高效推理的持续挑战日益抵消。这可能会促使一些企业考虑投资开发自己的更小、专业化模型，或探索混合本地部署解决方案，以应对可预测、高吞吐量的工作负载，从而降低API成本波动性。

原文参考: The End of Moore’s Law for AI? Gemini Flash Offers a Warning (Hacker News (AI Search))

Read English Version (阅读英文版)

AI Flare

抓住下一波人工智能浪潮