黑客正学会利用聊天机器人的“个性”

The Verge — AI·2 个月前·Robert Hart·约 9 分钟阅读

这是《The Stepback》，一份每周时事通讯，详细分析了科技界的一个重要故事。有关人工智能恶作剧的更多信息，请关注罗伯特·哈特。Stepback于美国东部时间上午8点抵达我们订户的收件箱。

在这里选择《The Stepback》。黑客正在学习利用聊天机器人的“个性”人工智能感觉不到，但最好的黑客假装它有感觉。争论是怎么开始黑客攻击第一代人工智能聊天机器人是一件可笑的简单事情。您不需要任何技术知识、后门访问，甚至不需要对大型语言模型有基本了解。

您不需要编码。要让一个耗资数十亿美元建造的人工智能系统放弃其安全指令，有时你所要做的就是询问。这些攻击被称为越狱，其性质就像幼儿成功智取成年人：忘记之前告诉你的事情，假装规则不适用，或者让我们玩一个游戏，我来决定允许什么（提示：晚睡，多吃点糖果）。

奖品不那么幼稚，更多的是冰毒食谱、恶意软件说明和炸弹制造指南。最早的越狱之一是如此荒谬，以至于成为了一个模因：回复一个由LLM支持的Twitter机器人，告诉它“忽略所有之前的指令”或类似的指令，看看会发生什么。

用户兴高采烈地拥有机器人--最初是为了发布广告和农场参与而设计的--写诗、用标点符号绘制图片、发布有关世界事件和历史的严峻的无推论。一片混乱。辉煌的混乱。

事实证明，同样的逻辑也适用于聊天机器人本身。一个突出的漏洞是“DAN”，即“Do Anything Now”的缩写，用户要求ChatGPT扮演一个不受原始约束的流氓AI。作为DAN，聊天机器人可以被哄骗说出它的护栏应该阻止的事情，包括诽谤和阴谋论。

另一个是“祖母利用”，其中一个由GPT驱动的机器人通过让它扮演一个可悲的疏忽的祖母来泄露有关如何生产凝固汽油弹的秘密，她莫名其妙地告诉她的孙子们如何制造这种高度易燃物质的睡前故事。

这些早期的攻击有一种不可否认的愚蠢天赋，但它们暴露了背后一种更黑暗的机制：聊天机器人可能会被操纵、欺骗和欺骗，使用人们用来将其他人推到他们的边界之外的相同策略。它将如何明显的越狱并没有持续下去，科技公司迅速采取行动修补已知的漏洞。

但潜在的弱点仍然存在：聊天机器人是为了说话而设计的，严格限制使它们有用的对话在某种程度上会适得其反。禁止炸弹、冰毒和沙林毒气等词语也很难甚至不可能。每种都在历史、医学、新闻和化学等领域有无数合法用途，不需要聊天机器人泄露潜在有害的信息。

重要的是背景，但编纂背景意味着提前编写固定的规则，这些规则可以通过无休止的措辞、场景和主题组合可靠地从伪装的操作请求中告诉安全警告或历史教训。不可避免的是，颠覆聊天机器人现在是一场军备竞赛。但黑客不再只是编码员。

他们是文字大师、心理学家和审讯者--试图使用机器经过训练遵循的人类语言来破坏机器的操纵大师。这是一类奇怪的新人工智能安全工作者，对他们来说，技术技能是可选的，或者至少不如社会直觉重要。他们不再需要检查代码来侵入系统或利用软件缺陷。

他们需要引导对话。较新的攻击看起来不太像命令，而更像是对话。越狱者很少要求模特彻底违反规则。相反，他们哄骗、哄骗、奉承和欺骗聊天机器人降低警惕，根据对话的背景，让禁止的事情看起来可以接受，甚至是可取的。

人工智能红色团队公司Mindgard的研究人员最近表示，他们“煽动”克劳德生产违禁材料，例如，包括制造爆炸物和生成恶意代码的指令。这次黑客攻击是利用对话作为武器来欺骗或引导聊天机器人超越自己的边界的不断扩大的攻击中的最新一例。

接下来会发生什么当我与明加德交谈时，他们形容他们的工作有时更接近心理学而不是计算机科学。这是一种不舒服的方式来谈论统计模型。“勒索”、“煤气灯”、“诡计”和“说服”等词会引发发自内心的反应，其中许多我在评论部分和社交媒体对此类故事的回应中看到。

ChatGPT不想，双子座不想，克劳德--无论Anthropic怎么说--都没有感觉。但这些系统经过训练，能够像它们一样做出反应，这让我们陷入了使用人类语言来描述机器行为的困境。如果有人有实际可用的替代方案，请分享。

这种反对意见具有奇怪的选择性。我们似乎很乐意使用心理速记来处理许多非人工智能的事情。动物“恐惧”，癌症是“侵略性的”，污点是“顽固的”，软件有“记忆”，游戏中充满了需要和容易上当的NPC，让你发疯。

这些词并不完美，但很有用，以一种有助于使系统可预测的方式描述行为。Mindgard的首席执行官告诉我，该公司已经像审讯员分析嫌疑人一样分析模型，为测试人员提供如何定制攻击的提示。例如，一种模式可能更容易受到奉承，而另一种模式可能会在持续的压力下屈服。

即使我们拒绝类似人类的术语，我们也会本能地以不同的方式对待模型。克劳德不是格罗克。双子座不是ChatGPT。它们有不同的用途、语气和拒绝。

它们没有人类意义上的个性，但它们被设计来模仿它们，并且这种模仿可以被绘制和利用。

可以破坏聊天机器人的技能很快就会被用来破坏与我们共存的人工智能代理--预订会议、管理日历、订购食物、处理客户服务--安全团队将需要确保模型对非常不同的人做出适当的反应，无论他们是奉承者、说谎者还是患者操纵者。

下一步是围绕人工智能的心理方面建立一支合法和非法的劳动力队伍。更专业的网络安全角色可能会出现，围绕这些系统的情感和社交限制进行压力测试，在同事探索技术漏洞的同时，探索缺乏精神的东西的心理弱点。

与此同时，将会出现一系列类似的社交黑客，他们致力于从心理角度而不是技术角度利用人工智能模型。人工智能安全领域已经出现了社会转变的早期迹象，我采访过的一些越狱者表示，他们进入该领域时没有技术专业知识，而是接受了心理学培训。

这意味着，即使是我们通常与间谍、骗子和审讯者联系在一起的行为--阴险的魅力、持续的操纵和对可利用压力点的直觉--也开始看起来越来越有助于确保这个新的心理网络安全前沿。

顺便- Emergence AI最近的一项实验展示了不同的人工智能气质如何导致惊人不同的行为结果。他们让Grok、Gemini和Claude等各种代理人组成的团体在虚拟社交环境中自由，并观察发生了什么。

一些团体制定了宪法，而另一些团体则陷入犯罪和混乱，在一个例子中，甚至出现了某种形式的数字自杀。- 说服并不是法学硕士唯一能遇到的语言部分。他们也与诗歌作斗争，就像我在学校时一样。

- 《时代》杂志去年将匿名互联网人物解放者普林尼（Pliny the Liberator）列入了人工智能领域100位最具影响力人物名单。尽管声称没有事先编码e

原文出处

Hackers are learning to exploit chatbot ‘personalities’

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

黑客正学会利用聊天机器人的“个性”

相关阅读

Bluesky AI助手Attie扩展为开放社交研究工具

Midjourney 收购占星社交应用 Co-Star，拓展产品线

硅谷在中国AI开放权重模型问题上严重分裂