Anthropic的“击败人类”AI：一场精心构建的叙事，而非清算

2025-11-25 AIFlare

引言: Anthropic 的最新力作 Claude Opus 4.5 伴随着软件工程领域熟悉的降价喧嚣和“超越人类”的性能宣称而来。但作为科技行业周期性炒作的资深观察者，我禁不住穿透头条，想问：我们到底在比较什么？又有哪些关键的细微之处正被有意无意地忽略了？

核心提炼

Anthropic引人注目的“超越人类”的表现，是基于一项内部、有时限的工程测试，并且依赖于“并行测试时计算”，这极大地扭曲了与人类单次尝试表现的比较。
价格的剧烈下降反映出大型语言模型（LLM）提供商之间一场残酷且不可持续的代币成本竞争，引发了人们对基础人工智能长期盈利能力和当前商业模式可行性的疑问。
宣称的“判断力提升”和“直觉”，主要还是轶事性和定性的，缺乏针对现实世界中混乱复杂、情境依赖的企业挑战的严谨、独立验证。

深度解读

围绕 Claude Opus 4.5——更便宜、更快、更智能——的叙事无疑引人注目，旨在吸引日益拥挤市场中的关注。Anthropic 宣布对其最先进的模型降价三分之二，并声称在内部工程任务中超越人类、在特定基准测试中击败竞争对手，描绘了一幅快速、民主化进步的图景。然而，深入探究会揭示一个更加细致入微，也许没那么具有革命性的现实。

让我们从“超越人类”的说法开始。尽管耸人听闻，但剖析其方法论至关重要。所讨论的评估是针对潜在性能工程候选人的一项内部居家考试，旨在两小时规定时间内评估其技能。据报道，Opus 4.5 在使用“并行测试时计算”（一种模型多次尝试并选择最佳结果的技术）时，得分高于任何人类候选人。这类似于让学生重考几十次，然后将其最高分与人类一次性、有压力的尝试进行比较。这是一种不恰当的比较，它巧妙地避开了真正定义人类工程卓越的协作、沟通和适应能力。承认该模型在“Claude Code 中使用时”且没有时间限制的情况下“与有史以来最优秀的人类候选人表现相当”，进一步凸显了这种比较的人为性。

竞争格局也值得审视。Anthropic 的降价与其说是一种善举，不如说是在谷歌、亚马逊和微软巨额投资推动下的人工智能军备竞赛中的战略要务。OpenAI 的 GPT-5.1 和谷歌的 Gemini 3 也在以同样快的速度提升能力，将 token 定价变成了一场商品化竞争。尽管短期内对开发者有利，但这种基础模型提供商的“触底竞争”引发了对长期经济可持续性的严重质疑。我们是否正在目睹一场经典的“圈地运动”，其中市场份额优先于盈利能力，最终导致只有资金最雄厚的玩家才能进行整合？

最后，Anthropic 开发者关系主管 Alex Albert 热情洋溢地传达的关于判断和“直觉”的“质的飞跃”，仍然只是定性的。员工们关于模型“好像理解了”或能够更有效地整合信息的证词，本质上是主观的。虽然轶事证据可能是真正进步的先兆，但如果没有针对这些难以捉摸的特质在多样化、复杂真实世界场景中的独立、可验证的指标，此类主张与其说是科学突破，不如说是营销。那些改进自身工具和方法（而非其核心权重）的“自我改进代理”是提示工程和迭代优化的一项了不起的壮举，但将其与人类意义上的真正自学习或直觉混为一谈，则是一种语义上的延伸，值得批判性审视。

对比观点

尽管Claude Opus 4.5的技术指标和效率提升无疑值得关注，但若仅仅关注基准测试，便有只见“硅”树木不见“森林”的风险。例如，所谓“超越人类”的说法，就忽视了孤立的、上下文受限的工程任务与人类职业工作的多面性现实之间的根本性差异。无论人工智能模型多么先进，目前都缺乏真正的创造力、超越其训练数据的抽象推理能力、伦理判断力，以及对人类意图和组织政治的细致理解——而这些对于一名高级软件工程师来说是不可或缺的。此外，尽管那些声称的“自我改进智能体”在迭代改进解决问题方法方面表现出色，但它们并非生物学意义上的真正“学习”；它们只是在预设参数内进行优化，使其成为复杂的自动化工具，而非有感知能力的协作者。企业面临的真正挑战，不仅仅是让AI解决某个特定问题，而是如何将其可靠、合乎道德且安全地整合到复杂的遗留系统以及多样化的人类团队中——这是一项远超当前基准测试能力的任务。

前景探讨

在未来1-2年内，AI价格战将日益激烈，这将推动基础模型的访问成本下降，并使高级功能更加普及。这种商品化将促使大型语言模型（LLM）提供商通过高度专业化的模型、强大的企业级安全与合规功能以及无缝集成工具链来差异化竞争。“超越人类”的头条新闻仍将不断出现，但行业将日益从原始基准分数转向实际部署的成功案例，侧重于投资回报率（ROI）和切实的业务转型。最大的障碍将包括如何从孤立的概念验证转向可扩展、受治理的部署，有效管理AI的新兴风险，以及应对人力资源再培训和技能再造的巨大挑战。全自主AI代理的梦想仍将只是梦想，随着系统复杂性的增加，人工监督、可解释性和道德保障将变得愈发关键。

原文参考: Anthropic’s Claude Opus 4.5 is here: Cheaper AI, infinite chats, and coding skills that beat humans (VentureBeat AI)

Read English Version (阅读英文版)

AI Flare

抓住下一波人工智能浪潮