精选· 重要性 5/5

Anthropic安全警告反噬：美国政府叫停其最强AI模型

TechCrunch — AI·大约 19 小时前·Connie Loizos·约 4 分钟阅读

中文导读

美国政府以国家安全为由，命令Anthropic关闭其最强大的AI模型Claude Mythos 5和Fable 5。Anthropic认为政府反应过度，但此事凸显了AI安全宣传可能引发的监管风险，并可能影响其IPO计划。

美国政府上周五以国家安全为由，命令Anthropic立即关闭其两款最强大的AI模型——Claude Fable 5和Claude Mythos 5。Anthropic在X平台上宣布已遵守指令，但明确表示认为政府判断有误。

该指令于美国东部时间周五下午5:21下达，要求Anthropic为全球所有用户禁用这两款模型，而不仅仅是政府出口管制令名义上针对的外国公民。Anthropic的其他模型不受影响。此事为何重要？

Mythos是Anthropic最强大的AI模型，公司于4月初预览了该模型，此后一直严格限制其使用，因为Anthropic称其在发现软件安全漏洞方面具有非凡能力。

据Anthropic称，Mythos在其测试的每个主要操作系统和网络浏览器中都发现了缺陷，因此公司并未广泛发布，而是推出了名为Project Glasswing的受控项目，与约50个经过审查的组织（包括亚马逊、苹果、谷歌、微软和CrowdStrike）共享，

用于防御性网络安全工作。三天前发布的Fable 5是Anthropic对商业压力的回应：公司辩称，这是Mythos的一个版本，配备了护栏以阻止网络安全和生物学等高风险领域的响应，使其足够安全以供公开发布。

根据跟踪AI技术性能的公司Vals AI的基准测试，Fable 5立即成为公众可用的最强大AI模型。政府的指令被框定为出口管制行动，限制外国公民访问这些模型。但Anthropic在一篇长篇博客文章中表示，其理解是根本问题在于Fable 5据称被越狱。

公司称，截至目前，政府仅提供了“潜在的狭隘、非普遍越狱”的口头证据——据Anthropic描述，这相当于提示模型读取特定代码库并识别软件缺陷。此外，公司补充说，这种“能力水平”已在其他公开可用的模型中广泛存在，包括OpenAI的GPT-5。

Anthropic还指出，网络安全专业人员通常将其用于防御目的。Anthropic更广泛的论点是，其最强有力的保障措施通过独立分类器系统运作，这些系统与模型本身分开运行，这意味着即使有人说服Fable在拒绝后继续对话，针对最危险输出的底层保护仍然有效。

公司还在帖子中指出，对近期使用情况的审查未发现任何证据表明这些保障措施被成功绕过以产生真实的有害内容。

显然，这些都不足以阻止政府采取行动，Anthropic并未掩饰其沮丧。公司写道：“我们不同意，发现一个狭隘的潜在越狱应成为召回部署给数亿人的商业模型的理由。如果这一标准适用于整个行业，我们认为它将基本上停止所有前沿模型提供商的所有新模型部署。

”外界普遍预计Anthropic今年将进行IPO，并将其公众形象很大程度上建立在作为竞争对手的安全意识替代品上。

观察家们并未忽视这一讽刺：Anthropic在限制Mythos时表现出的极度谨慎——将其宣传为危险到无法公开发布的模型——现在显然招致了可能最大程度扰乱其业务的政府审查。至少OpenAI的Sam Altman一定乐在其中。

4月，他告诉播客Ashlee Vance，Anthropic对Mythos的处理相当于“基于恐惧的营销”。Altman说：“说‘我们造了一颗炸弹，正准备扔到你头上，我们将以1亿美元卖给你一个防空洞’，这显然是令人难以置信的营销。

”

Altman的公司也被广泛预计将尽快进行IPO，他并未预测政府会关闭，但他指出了目前困扰Anthropic的一点：当你花数月时间告诉世界你的AI独一无二地危险时，世界——包括美国政府——往往会听进去。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读