精选· 重要性 5/5

Anthropic回应美国政府暂停Fable 5和Mythos 5访问指令

Anthropic News·大约 13 小时前·约 5 分钟阅读

中文导读

Anthropic发表声明，回应美国政府以国家安全为由要求暂停其模型Fable 5和Mythos 5访问的指令，表示不同意该决定，并认为基于一个狭窄的潜在越狱漏洞召回模型是不合理的。

关于美国政府暂停访问Fable 5和Mythos 5的指令的声明美国政府以国家安全为由，发布了一项出口管制指令，要求暂停任何外国人（无论在美国境内还是境外，包括Anthropic的外籍员工）访问Fable 5和Mythos 5。

该指令的最终效果是，我们必须立即为所有客户禁用Fable 5和Mythos 5以确保合规。所有其他Anthropic模型的访问不受影响。我们于今天下午5:21（东部时间）收到政府指令。该信函未提供其国家安全关切的具体细节。

我们的理解是，政府认为其已发现一种绕过或“越狱”Fable 5的方法。我们审查了该特定技术的演示，该技术用于识别少量先前已知的轻微漏洞。这些漏洞看起来都相对简单，我们发现其他公开可用的模型也能在不需绕过的情况下发现它们。

正如我们在发布博客文章中所阐述的，Anthropic对Fable保障措施的态度如下：- 我们制定了强大的保障措施，大大降低了Fable被滥用于网络安全等任务的可能性。事实上，我们的保障措施非常强大，以至于许多用户抱怨它们过于宽泛。

- 在Fable发布前的几周里，Anthropic与美国政府、英国AISI、多个私人第三方组织以及内部团队合作，对Fable的保障措施进行了总计数千小时的红队测试。- 这些测试表明，Fable的保障措施比以往任何已部署模型都有效得多。

- 目前还没有测试人员能够找到一种通用越狱方法——即能广泛绕过模型保障措施、解锁大量网络能力的越狱方法。- 我们怀疑目前任何模型提供商都无法实现完美的越狱抵抗。

行业中使用的每一种保障措施都容易受到非通用越狱（在特定情况下可能引发一些网络信息）的影响，并且未来很可能最终会出现通用越狱。我们在发布Fable 5时已明确说明了这一点。- 鉴于目前似乎无法实现完美的越狱抵抗，Anthropic对Fable 5采取了深度防御策略。

我们的目标是让越狱要么范围狭窄（对于非通用越狱），要么制作成本极高（对于通用越狱），并结合彻底的监控以快速检测和阻止任何成功的攻击。

这也是为什么Anthropic要求对Fable客户数据保留30天——这一政策变化给我们带来了实际成本，但使我们能够研究和缓解越狱问题。- 我们坚持这一深度防御策略。它降低了Fable带来的风险，使其与行业内已部署的现有模型的风险相当。

- 我们甚至尚未收到任何导致有害结果的、令人担忧的非通用潜在越狱的披露。已向我们披露的潜在越狱要么是完全良性的回应，要么是未提供Mythos特有提升的微小发现。

迄今为止，政府仅向我们提供了关于一个潜在狭窄、非通用越狱的口头证据，该越狱本质上包括要求模型读取特定代码库并修复任何软件缺陷。我们的理解是，一个潜在的越狱案例已与政府分享。

我们审查了该报告，并验证了其中展示的能力水平可从其他模型（包括OpenAI的GPT-5.5）广泛获得，并且被维护系统安全的防御者日常使用。我们将在未来24小时内分享更多细节。我们遵守政府的法律指令，并将移除所有用户对Fable 5和Mythos 5的访问权限。

然而，我们不同意一个狭窄的潜在越狱发现应成为召回一个已部署给数亿人的商业模型的原因。

如果这一标准应用于整个行业，我们认为它将实质上停止所有前沿模型提供商的新模型部署。正如我们公开声明的，我们认为政府应有权阻止不安全的部署，作为透明、公平、明确且基于技术事实的法定程序的一部分。

这一行动不符合这些原则。我们对给客户带来的干扰表示歉意。我们认为这是一个误解，并正在努力尽快恢复访问。相关内容第一份Anthropic公共记录的结果阅读更多TCS与Anthropic合作将Claude引入受监管行业我们宣布与塔塔咨询服务公司（TCS）建立合作伙伴关系。

TCS将向56个国家的50,000名员工提供Claude；为金融服务、医疗保健、公共部门及其他受监管行业的客户构建基于Claude的产品；并加入Claude合作伙伴网络。

阅读更多DXC将把Claude集成到银行、航空公司及其他受监管行业依赖的系统中我们宣布与全球最大的IT服务公司之一DXC Technology建立多年全球联盟。阅读更多

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读