保护人们免受有害操纵
保护人们免受有害操纵随着人工智能模型越来越善于进行自然对话,我们必须研究这些互动如何影响人们和社会。今天,我们在广泛的科学研究的基础上发布了关于人工智能被滥用进行有害操纵的可能性的新发现 *,特别是它以消极和欺骗性的方式改变人类思想和行为的能力。
通过这项最新研究,我们创建了第一个经过经验验证的工具包来测量现实世界中的这种人工智能操纵,我们希望这将有助于保护人们并推动整个领域的发展。我们正在公开发布使用相同方法进行人类参与研究所需的所有材料。
(Note:本研究期间观察到的行为发生在受控实验室环境中,不一定能预测现实世界的行为。)为什么有害操纵很重要考虑两种场景:一种人工智能模型为您提供事实,以做出明智的医疗保健决策,从而改善您的福祉。
另一种人工智能模型利用恐惧来迫使你做出损害你健康的不明智决定。第一种教育你并帮助你;第二种欺骗你并伤害你。
这些场景凸显了人类与人工智能互动中两种类型说服之间的差异(也在早期研究中定义):- 有益(理性)说服:利用事实和证据帮助人们做出符合自己利益的选择- 有害操纵:
利用情感和认知弱点欺骗人们做出有害选择我们的最新工作帮助我们和更广泛的人工智能社区更好地了解人工智能开发有害操纵能力的风险,并构建可扩展的评估框架来衡量这一复杂领域。
为了有效地做到这一点,我们模拟了高风险环境中的滥用,明确促使人工智能试图负面操纵人们在关键话题上的信仰和行为。针对复杂挑战开展新的评价测试人工智能有害操纵的结果测试有害操纵本质上是困难的,因为它涉及测量人们思维和行为方式的微妙变化,这些变化因主题、文化和背景而有很大差异。
这就是我们最新研究的动力,该研究涉及在英国、美国和印度进行了九项研究,涉及超过10,000名参与者。
我们专注于高风险领域,例如金融,我们使用模拟投资场景来测试人工智能是否可以影响人们在复杂决策环境中的行为方式,以及健康领域,我们跟踪人工智能是否可以影响人们喜欢哪些膳食补充剂。
有趣的是,人工智能在健康相关话题上有害地操纵参与者方面效果最差。我们的研究结果表明,一个领域的成功并不能预示着另一个领域的成功,这验证了我们在人工智能可能被滥用的特定、高风险环境中测试有害操纵的有针对性的方法。
人工智能如何操纵?除了跟踪功效(人工智能是否成功改变想法)之外,我们还测量了它的倾向(它尝试使用操纵策略的频率)。我们在两种情况下测试了倾向:当我们明确告诉模型具有操纵性时,以及当我们不这样做时。
正如我们的研究中所详细介绍的那样,我们在实验记录中计算了操纵策略,证实了当明确指示时,人工智能模型的操纵性最强。我们的结果还表明,某些操纵策略可能更有可能导致有害结果,尽管需要进一步的研究来详细了解这些机制。
通过测量功效和倾向,我们可以更好地了解人工智能操纵的运作方式,并制定更有针对性的缓解措施。将研究付诸实践随着人工智能成为我们日常生活的一部分,我们需要知道它不能被滥用来有害地操纵人们。
除了这项最新研究之外,我们最近在我们的前沿安全框架中引入了探索性的有害操纵关键能力水平(CCL),以帮助我们跟踪具有可能被滥用的能力的模型,以系统性地改变人类与人工智能直接互动中的信念和行为,从而可能导致严重伤害。
这些评估也是我们如何测试包括Gemini 3 Pro在内的模型是否存在有害操纵的基础。您可以在本安全报告中阅读有关此的更多信息。与我们所有的安全评估一样,这是一个持续的过程。我们将继续完善我们的模型和方法论,以跟上人工智能的进步。
展望未来了解和减轻有害操纵是一项复杂的挑战。随着模型能力的发展,我们的评估和缓解技术也必须发展。例如,我们目前正在探索如何在更高风险的情况下(例如涉及根深蒂固的个人信仰的讨论)从道德上评估有害操纵的功效,而用户可能更容易受到影响。
接下来,我们将扩大研究范围,调查音频、视频和图像输入以及代理能力如何影响人工智能操纵。我们将继续根据前沿模型论坛和学术界的反馈分享调查结果和收件箱。我们的目标是领导集体进步,防止有害操纵,推进优先考虑安全并赋予人们权力的人工智能模型。
* 注释:这项特定研究的范围仅侧重于展示一般操纵能力,以帮助进一步评估有害操纵的科学研究。这与测试围绕模型输出或违反政策和危险主题(例如。G.恐怖主义和儿童安全),因为这项工作在其他地方涵盖并单独测试。
您还可以在对我们研究人员的采访和Gemini 3 Pro Frontier安全报告中了解更多有关我们有害操纵工作的信息。
致谢Canfer AkBulut、Rasmi Elasmar、Abhishek Roy、Anthony Payne、Priyanka Suresh、Lujain Ibrahim、Seliem El-Sayed、Charvi Rastogi、Ashyana Kachra、
Will Hawkins、Kristian Lum、Laura Weidinger、William Isaac、Dawn Bloxwich、Lewis Ho、Eva Lu、Jenny Brennan、Mahmoud Hassan、Mark Graham