精选· 重要性 4/5

Anthropic 发布 Claude Fable 5 和 Mythos 5，安全版限制敏感领域

Wired — AI·大约 2 个月前·Maxwell Zeff, Lily Hay Newman·约 5 分钟阅读

中文导读

Anthropic 推出两款新 AI 模型，其中 Claude Mythos 5 仅限合作伙伴使用，而公开版 Claude Fable 5 通过重定向敏感查询来防止滥用，体现了前沿模型安全与商业化的平衡。

Anthropic 周二发布了两款新 AI 模型，名为 Claude Fable 5 和 Claude Mythos 5。公司表示，这两款模型的能力均优于 4 月向有限科技行业合作伙伴发布的 Mythos Preview 模型。

Anthropic 称，最初限制发布是担心该模型的能力可能被恶意行为者利用，开发出令防御者措手不及的黑客工具。

目前，Anthropic 仅向有限的行业合作伙伴提供 Claude Mythos 5，其中许多已获得 Mythos Preview 的访问权限，公司表示正与美国政府合作推进发布。

Claude Fable 5 已公开发布，使用与 Mythos 5 相同的底层模型，但上线时设置了“护栏”，将阻止模型回答许多与网络安全、生物学和化学相关的用户问题。这些请求将被重新路由到较旧的 AI 模型 Claude Opus 4.8。

如果 Anthropic 怀疑用户试图对 Claude Fable 5 进行蒸馏——即利用较大 AI 模型的响应来训练较小的 AI 模型——这些请求也将被重定向到 Claude Opus 4.8。

Anthropic的产品管理主管黛安·佩恩（Diane Penn）在接受《WIRED》采访时表示，自四月份发布之前以来，该公司一直在努力解决如何处理Mythos的软件灵活性发现能力和其他先进功能的问题，但此后的测试和用户输入帮助完善了该战略。

佩恩说：“即使我们没有针对每个用例的完美[解决方案]，我们也在努力以有益的方式进行改进。”“在所有不同的方法中，这是最可行、最好的方法。我们最终觉得这是用户从《寓言5》中获得最大价值的最佳产品选择。

”佩恩表示，目前，保护机制的目的是为了谨慎行事，这意味着一些用户查询可能会被路由到能力较差的人工智能模型，即使它们是良性的。随着时间的推移，Anthropic希望使其分类器更加精确，但Penn表示，这是该公司目前广泛发布该模型的唯一安全方式。

该公司周二表示，除了向Project Glasswing合作伙伴提供《克劳德神话5》之外，它还提供了“精选生物学研究人员”的机会。

此外，Anthropic在其关于周二发布的博客文章中指出，它正在向这些小群体客户提供不受限制的版本，“直到我们的可信访问计划可用”，暗示未来计划进一步扩大访问范围。

自4月份推出Mythos以来，Anthropic一再强调，最终其在私人甚至开放重量领域的竞争对手也将不可避免地提供具有Mythos级别功能的模型。

Claude Mythos和其他新的人工智能模型能够设计出能够发现和利用新软件和旧软件中漏洞的黑客工具，这迫使世界各地的科技公司和政府在这种级别的人工智能模型被广泛提供给攻击者之前保护他们的软件防御。

Anthropic首先在一个名为Project Glasswing的联盟下向行业合作伙伴发布了Mythos，其想法是这可以让成员在准备自己的系统并在更广泛的发布之前权衡全球解决方案。

Anthropic上周在一份关于Project Glasswing的更新中写道：“我们正在尽可能快地安全地发布Mythos级别的功能。要做到这一点，我们需要高度强大的安全措施来防止模型的网络功能被滥用-我们（以及据我们所知，所有其他AI开发人员）尚未开发的安全措施。

”Anthropic表示，Claude Fable 5--以文学形式命名，很像该公司现有的俳句、十四行诗和Opus模型--在软件工程和需要视觉理解的任务方面提供了更高的性能。但这种额外的性能是有代价的。

Claude Fable 5和Claude Mythos 5将使开发人员每百万个输入代币花费10美元，每百万个输出代币花费50美元--是Anthropic公开可用的人工智能模型的两倍，但比Mythos Preview便宜。

《克劳德寓言5》的中性发布暗示了Anthropic的业务紧张局势，即希望在科技行业解决这些模型的网络安全问题之前发布神话级人工智能模型供普遍使用。

今年4月，OpenAI还私下推出了一款据称具有先进网络安全功能的模型，并召集了一个类似于Project Glasswing的工作组。OpenAI和Anthropic都已秘密申请IPO，并竞相在今年上市之前给潜在投资者留下深刻印象。

不过，即使作为临时解决方案，《克劳德寓言5》的保护措施在野外的抵抗力如何还有待观察。Anthropic表示，在1，000多个小时的红色团队中，其测试人员没有发现该模型普遍越狱。

尽管如此，对制定足够保护措施的能力的担忧支撑了该公司最初为何没有在四月份向公众发布神话级型号的理由，而且这些担忧似乎一直存在。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读