AI 见闻
精选

Anthropic为网络合作伙伴提供神话升级,并为其他人提供“安全”版本

Wired — AI··Maxwell Zeff, Lily Hay Newman·约 5 分钟阅读

Anthropic周二发布了两款新的人工智能模型,名为Claude Fable 5和Claude Mythos 5,该公司表示,这两款模型比4月份向有限的科技行业合作伙伴发布的Mythos预览模型具有更强的功能。

Anthropic表示,最初的有限发布是出于担心该模型的功能可能会被不良行为者利用来开发黑客工具,让防御者措手不及。

Anthropic目前只向有限的行业合作伙伴发行《Claude Mythos 5》,其中许多合作伙伴都获得了《Mythos Preview》的访问权限,该公司表示正在与美国政府合作推出。

该公司周二表示,正在公开发布的《克劳德寓言5》使用与《神话5》相同的底层模型,但在发布时将设置“护栏”,这将阻止该模型回答许多与网络安全、生物学和化学相关的用户问题。这些请求将被重新路由到较旧的人工智能模型Claude Opus 4。

8.如果Anthropic怀疑用户试图在Claude Fable 5上进行蒸馏--根据较大的人工智能模型的响应训练较小的人工智能模型,则这些请求也将被重新路由到Claude Opus 4。8,该公司称。

Anthropic的产品管理主管黛安·佩恩(Diane Penn)在接受《WIRED》采访时表示,自四月份发布之前以来,该公司一直在努力解决如何处理Mythos的软件灵活性发现能力和其他先进功能的问题,但此后的测试和用户输入帮助完善了该战略。

佩恩说:“即使我们没有针对每个用例的完美[解决方案],我们也在努力以有益的方式进行改进。”“在所有不同的方法中,这是最可行、最好的方法。我们最终觉得这是用户从《寓言5》中获得最大价值的最佳产品选择。

”佩恩表示,目前,保护机制的目的是为了谨慎行事,这意味着一些用户查询可能会被路由到能力较差的人工智能模型,即使它们是良性的。随着时间的推移,Anthropic希望使其分类器更加精确,但Penn表示,这是该公司目前广泛发布该模型的唯一安全方式。

该公司周二表示,除了向Project Glasswing合作伙伴提供《克劳德神话5》之外,它还提供了“精选生物学研究人员”的机会。

此外,Anthropic在其关于周二发布的博客文章中指出,它正在向这些小群体客户提供不受限制的版本,“直到我们的可信访问计划可用”,暗示未来计划进一步扩大访问范围。

自4月份推出Mythos以来,Anthropic一再强调,最终其在私人甚至开放重量领域的竞争对手也将不可避免地提供具有Mythos级别功能的模型。

Claude Mythos和其他新的人工智能模型能够设计出能够发现和利用新软件和旧软件中漏洞的黑客工具,这迫使世界各地的科技公司和政府在这种级别的人工智能模型被广泛提供给攻击者之前保护他们的软件防御。

Anthropic首先在一个名为Project Glasswing的联盟下向行业合作伙伴发布了Mythos,其想法是这可以让成员在准备自己的系统并在更广泛的发布之前权衡全球解决方案。

Anthropic上周在一份关于Project Glasswing的更新中写道:“我们正在尽可能快地安全地发布Mythos级别的功能。要做到这一点,我们需要高度强大的安全措施来防止模型的网络功能被滥用-我们(以及据我们所知,所有其他AI开发人员)尚未开发的安全措施。

”Anthropic表示,Claude Fable 5--以文学形式命名,很像该公司现有的俳句、十四行诗和Opus模型--在软件工程和需要视觉理解的任务方面提供了更高的性能。但这种额外的性能是有代价的。

Claude Fable 5和Claude Mythos 5将使开发人员每百万个输入代币花费10美元,每百万个输出代币花费50美元--是Anthropic公开可用的人工智能模型的两倍,但比Mythos Preview便宜。

《克劳德寓言5》的中性发布暗示了Anthropic的业务紧张局势,即希望在科技行业解决这些模型的网络安全问题之前发布神话级人工智能模型供普遍使用。

今年4月,OpenAI还私下推出了一款据称具有先进网络安全功能的模型,并召集了一个类似于Project Glasswing的工作组。OpenAI和Anthropic都已秘密申请IPO,并竞相在今年上市之前给潜在投资者留下深刻印象。

不过,即使作为临时解决方案,《克劳德寓言5》的保护措施在野外的抵抗力如何还有待观察。Anthropic表示,在1,000多个小时的红色团队中,其测试人员没有发现该模型普遍越狱。

尽管如此,对制定足够保护措施的能力的担忧支撑了该公司最初为何没有在四月份向公众发布神话级型号的理由,而且这些担忧似乎一直存在。

原文出处
Anthropic Offers Mythos Upgrade for Cyber Partners and a ‘Safe’ Version for the Rest of You

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。