伦理阶梯:通过多步归纳复杂道德困境来探究大型语言模型的价值优先级
伦理决策是人类判断的关键方面,而大型语言模型 (LLM) 在决策支持系统中的应用日益广泛,因此需要对其道德推理能力进行严格评估。然而,现有的评估主要依赖于单步评估,无法捕捉模型如何适应不断变化的伦理挑战。为了解决这一差距,我们引入了多步道德困境 (MMDs) 数据集,这是第一个专门构建的数据集,用于评估大型语言模型在 3302 个五阶段困境中不断变化的道德判断。该框架能够对大型语言模型如何在不断升级的困境中调整其道德推理进行细致的动态分析。我们对九种广泛使用的LLM的评估表明,随着困境的进展,它们的价值偏好会发生显著变化,这表明模型会根据场景的复杂性重新校准道德判断。此外,成对的价值比较表明,虽然LLM通常优先考虑关爱价值,但在某些情况下,这种价值可能会被公平所取代,这突出了LLM伦理推理的动态性和情境依赖性。我们的研究结果呼吁转向动态的、情境感知的评估范式,为更符合人类意愿和价值敏感的大型语言模型发展铺平道路。