赫尔墨斯 4:释放创新抑或失控责任,在人工智能狂野西部?

引言: Nous Research 的最新力作 Hermes 4,大胆宣称其性能超越行业巨头,同时摒弃了“恼人”的内容限制。尽管技术上令人印象深刻,此举不仅仅是对科技巨头霸主地位的挑战;它更严峻地提醒着人们,开放获取与负责任的AI部署之间日益加剧的紧张关系,关于无拘无束的创新真正代价,它提出的问题多于给出的答案。
核心提炼
- Nous Research 的自研自报基准,尤其是“RefusalBench”,需要独立验证,才能真正宣称其优于成熟模型。
- 公司“用户自主控制权凌驾于企业内容政策之上”的理念,对任何大规模的企业级应用都构成重大的道德和监管风险。
- 尽管其训练创新,但对于一个小型实体而言,部署和维护一个竞争规模的LLM,尤其是在面对大型科技公司庞大资源时,其长期可持续性和成本效益仍然是一个重大挑战。
深度解读
Nous Research 凭借 Hermes 4 确实引起了轰动,该模型系列被吹捧为在数学和推理任务中媲美或超越 ChatGPT 等专有系统。其技术成就,包括用于透明分步思考的“混合推理”以及复杂的 DataForge 和 Atropos 训练系统,都值得关注。DataForge 基于图的合成数据生成和 Atropos 通过“拒绝采样”进行的强化学习,代表了数据整理和模型改进的有趣方法。通过生成 350 万个推理样本,Nous 旨在解决大型语言模型(LLMs)强大能力的核心:它们的演绎和推理能力。
然而,资深专栏作家的目光立即寻求独立验证。“超越 ChatGPT”的说法很大程度上是基于 Nous Research 自己的基准测试,其中包括量身定制的“RefusalBench”,该基准明确旨在衡量安全护栏的缺失。尽管方法论的透明度值得称赞,但自我进行的测试,就像学生给自己批改考卷一样,本身就带有一定程度的偏见。在一系列多样化、独立策划的基准测试中,尤其是在事实准确性、安全性以及抵御对抗性攻击(不仅仅是拒绝率)方面的真实世界表现,将提供更具说服力的叙述。
此外,“混合推理”模式虽然提供了窥探人工智能“思维过程”的机会,但也引发了实际问题。增加的透明度是否必然等同于增加的可验证性,还是仅仅意味着更长的冗余和更高的推理成本?对于复杂的、任务关键型企业应用而言,冗长的分步解释可能不如简洁、准确和快速的响应受欢迎,尤其是在考虑到行业已在努力解决的“不断上升的令牌成本和推理延迟”时。尽管 192 块英伟达 B200 GPU 对一家初创公司来说是一笔可观的投资,但要维持与 OpenAI 或谷歌(它们拥有数量级更多的计算资源和人力资本)竞争所需的持续大规模研发和推理,这是一场马拉松,而非短跑。“小型初创公司”的叙述常常忽略了进行此类工作所需的巨大运营开销。
对比观点
Hermes 4 最显著的争议点在于 Nous Research 强烈反对“烦人”的内容限制和安全防护措施。这种观点虽然被包装成“用户控制”和“促进创新”,却危险地轻视了其深远的伦理和社会影响。对于企业首席技术官或公共政策专家而言,“不受审查束缚”直接等同于“不受控制的风险”。这些模型生成虚假信息、传播仇恨言论、协助欺诈活动甚至创建有害代码的潜力,并非仅仅是理论上的;这是一个已有充分记录的风险。“如果它是开源的但拒绝所有请求,那就毫无意义”这一论点制造了一个虚假的二分法。在压制性审查和彻底的无政府状态之间存在着广阔的中间地带。负责任的人工智能开发需要防护措施,即使它们不完美,以防止滥用并维护社会价值观。“透明度和用户控制优于企业把关”的观点,掩盖了此类不受限制模型的使用者和部署者将承担的巨大法律、声誉和道德责任。
前景探讨
在未来1-2年内,Hermes 4很可能会在那些优先考虑最大灵活性并蔑视企业束缚的开发者和研究人员中,获得一群热情但小众的追随者。它在混合推理和训练方法学方面的技术创新,特别是DataForge和Atropos,很可能会影响未来的开源模型,甚至可能被更谨慎的开发者采纳,并在其基础上整合自己的安全层。然而,在Nous Research的理念没有发生重大转变,或者没有实施强大、经过独立验证的安全机制的情况下,Hermes 4在任务关键型应用中获得广泛的企业级采用似乎充满挑战。当前日益关注AI安全和问责制的监管环境,很可能会反对这种“无限制”的方法。最大的障碍将是不仅要证明其技术实力,还要证明其长期财务可持续性、在特定社区之外建立信任的能力,以及,至关重要的是,对“无审查”通用AI模型固有的伦理责任给出可信的答案。
原文参考: Nous Research drops Hermes 4 AI models that outperform ChatGPT without content restrictions (VentureBeat AI)