阿佩图斯:瑞士崇高的人工智能实验,还是超大规模世界中一个寻常的利基玩家?

引言: 瑞士,长期以来作为中立和精准的典范,已凭借其开源的Apertus模型加入了生成式人工智能的战局,旨在为“可信赖”人工智能设定“新基线”。尽管这项倡议倡导透明度和道德数据来源,人们不禁要问,良好的意图和遵守法规是否真能开辟一条与那些凭借专有数据和无拘无束的野心不断拓展边界的硅谷巨头竞争的道路。这不仅仅关乎代码;它关乎商业可行性和实际世界的影响。
核心提炼
- 此次发布标志着对人工智能主权和伦理框架日益增长的地缘政治推动,挑战了以美国为中心的模式的主导地位,但引发了关于性能权衡的疑问。
- 其严格遵守欧盟版权和数据退出要求,尽管值得称赞,但可能会为数据获取设立一个先例,这可能导致能力受限,或迫使对当前行业实践进行重新评估。
- 尽管Apertus具有开放性和多语言能力,但在面对成熟且资源雄厚的商业和学术替代方案时,其广泛普及和持续发展将面临重重挑战。
深度解读
瑞士起源的开源大型语言模型Apertus的到来,不仅仅是拥挤的AI市场中的又一个新成员。这是一个明确的声明:并非所有AI创新都必须遵循硅谷“快速行动,打破常规”的模式,这种模式常常规避数据来源和知识产权等棘手问题。通过明确遵守欧盟版权法并尊重AI爬虫的选择退出请求——这直接针对了一些行业领导者的“隐秘抓取”行为——Apertus将自己定位为道德、透明的替代品。这种对“值得信赖”AI的承诺,及其详细的开发流程和在HuggingFace上公开可用的数据,确实可以为那些寻求开发与民主价值观而非纯粹商业利益相符的AI的国家提供重要的蓝图。
然而,问题不在于Apertus在道德上是否更优,而在于它在技术和商业上是否具有竞争力。声称“与Meta 2024年的Llama 3模型媲美”是一个大胆的说法。Llama 3,特别是其70B和即将推出的400B参数版本,代表了开源(或者更准确地说,是“开放权重”)模型的巅峰,并得到Meta庞大的计算资源和海量数据访问的支持。在有意将训练数据限制在“公共来源”并尊重选择退出的情况下实现“可比”的性能,提出了一个巨大的挑战。跨1,800种语言,真正选择加入或明确无版权的“公共数据”的质量和广度,可能被证明是一个重要的瓶颈。虽然80亿和700亿参数是可观的规模,但在实现最先进性能方面,数据的纯粹数量和质量往往与参数数量同样关键,甚至更为关键。开发者的意图是崇高的,旨在打造一个“全球相关”的模型,但在AI世界中,相关性日益由实际应用价值以及处理复杂细微任务的能力来定义——这通常需要接触比纯公共领域或明确允许的来源所能提供的更广泛、更混乱的数据集。为道德采购而做出的权衡,是否会对其能力设定一个上限,最终使其成为一个小众参与者,而不是OpenAI、Anthropic,甚至Meta积极开放的Llama家族等公司的真正挑战者?市场很少会奖励道德纯粹性而非原始性能。
对比观点
尽管Apertus的道德定位是一个引人入胜的叙事,但一个更为愤世嫉俗的观点可能会认为,这与其说是为了设定“新基线”,不如说更多是为了开辟一个特定的、可防守的利基市场。在这场最大、最快、资源密集度最高的模型往往主导基准测试并吸引开发者关注的竞赛中,Apertus自我施加的数据限制可能被视为一个显著的劣势。批评者可能会争辩说,“遵守AI爬虫拒绝抓取请求”原则上听起来很棒,但在实践中,这意味着故意放弃大量有价值的训练数据。这可能导致一个模型,尽管在道德上是无可挑剔的,但在性能或多功能性上却不如那些毫无顾虑地攫取了整个互联网数据的同行。此外,“与Llama 3媲美”是一个动态目标;AI发展速度意味着今天的基准是明天的遗产。如果没有科技巨头庞大的研发预算和数据管道,持续的“可比性”将是一场持续的、耗费资源的斗争。“值得信赖”的标签,尽管对一些监管机构和公共部门实体具有吸引力,但可能根本无法引起企业用户的共鸣,因为他们的主要关注点通常是原始能力和投资回报,而不是每一字节训练数据的确切来源。
前景探讨
未来一到两年内,Apertus将面临一个关键时期。其成功与其说取决于其最初的道德定位,不如说更多地取决于其在自我设定的限制下,展示切实、可重复且真正具备竞争力的性能的能力。最大的障碍将是吸引足够多的开发者和企业在其框架上进行构建,尤其是在Meta、谷歌等公司的替代方案提供日益强大且易于使用的模型时。其“全球相关性”的抱负,尽管鉴于其多语言训练值得称赞,但将不仅需要语言支持,还需要文化上的细微之处和特定领域知识,而这些仅靠严格的“公共”数据难以捕捉。现实地说,Apertus更有可能作为特定用例的基础模型而蓬勃发展,在这些用例中,数据溯源和监管合规性至关重要——例如政府服务、高度受监管的行业,或优先考虑主权的欧洲应用。它可能会为伦理AI设定一个标准,但在一个由激进的数据获取和强大的计算能力定义的领域中成为主导者,仍然是一个巨大的挑战。
原文参考: Switzerland releases its own AI model trained on public data (The Verge AI)