AI 见闻
精选· 重要性 5/5

Anthropic 模型因国家安全风险被撤销,开源社区反弹

Latent Space (Swyx)··约 8 分钟阅读
中文导读

Anthropic 应美国政府要求,撤销刚发布 3 天的 Claude Fable 5 和 Mythos 5 模型访问权限,引发关于模型主权、出口管制和开源 AI 的广泛讨论。

[AINews] Fable 和 Mythos 正式因过于危险而无法发布我们正处在最奇怪的 timeline 上。这是参加 AI Engineering 调查并获得超过 2000 美元积分以及赢取价值 2000 美元 AIE WF 门票的最后一个周末!

就在美国对阵巴拉圭的比赛哨声吹响之际,Anthropic 投下了一枚重磅炸弹,结束了这个异常多事的一周:仅 3 天前发布的 Fable 和 Mythos,现已对所有客户撤销,原因是可能的越狱行为构成了国家网络安全风险。

我们避免评论政治和政策,尽管这不是 Anthropic 第一次与美国政府发生纠葛,但这一影响全球所有客户(而不仅仅是美国政府雇员和供应商)的事态发展,无疑会因其开创的先例而值得关注,

尽管目前尚不清楚这一说法在技术上的实际合法性(Anthropic 似乎“相信这是一个误解”,因为“政府仅向我们提供了关于一个潜在的、狭窄的、非普遍性越狱的口头证据”。)值得注意的是,开源 AI 倡导者再次群情激愤并成为热门话题。

AI 新闻,2026 年 6 月 11 日至 6 月 12 日。我们检查了 12 个子版块、544 条 Twitter,没有进一步的 Discord。AINews 的网站允许您搜索所有过往期次。

提醒您,AINews 现在是 Latent Space 的一部分。您可以选择加入/退出邮件频率!

AI Twitter 回顾Anthropic 的 Fable/Mythos 暂停与新的“模型主权”辩论美国出口管制突然让 Fable/Mythos 下线:主要事件是 Anthropic 宣布,根据美国政府的指令,

它必须暂停外国公民访问 Claude Fable 5 和 Mythos 5,并在解决合规问题的过程中对所有用户造成连锁中断。Anthropic 表示,该指令基于一份它提出异议的能力报告,并且类似能力在其他模型(包括 GPT-5.5)中“广泛可用”;

请参阅 @AnthropicAI 的公司声明和 @ClaudeDevs 的产品影响详情。该事件立即导致下游产品和基准测试被移除,包括 Cognition/Devin 和 Agent Arena。

技术和政策影响:工程师们迅速将其重新定义为主权风险,而非纯粹的政策故事。实际担忧:由于出口管制,封闭的前沿 API 可能一夜之间消失,而拥有许多非美国研究人员的前沿实验室可能直接受损。

@natolambert、@theo 和 @cohere 的反应都集中在同一个要点上:拥有整个技术栈至关重要。Artificial Analysis 直言不讳地总结了影响:“我们的 Intelligence Frontier 图表首次出现倒退”,详见此文章。

Anthropic 后来试图通过重置 5 小时和每周速率限制来缓和冲击,但对基础设施和产品团队而言,更大的教训是:依赖单一前沿供应商现在带有明确的地缘政治风险。

编码智能体评估、工具链效应与基准有效性Artificial Analysis 将 SWE-Bench Pro 替换为 DeepSWE:@ArtificialAnlys 进行了一次重大评估更新,

用 Datacurve 的 DeepSWE 替换了其 Coding Agent Index 中的 SWE-Bench Pro,以减少基准测试的投机取巧。

这一变化实质性地重新洗牌了排名:Claude Code + Fable 5 [max] 以 77 分位居榜首,而 Codex + GPT-5.5 [xhigh] 升至 76 分,超越了 Claude Code + Opus 4.8 [max] 的 73 分。

理由:SWE-Bench Pro 因仓库历史泄露而变得可被利用,而 DeepSWE 则从头编写任务;后续上下文在此。工具链质量正成为一个一级变量:一些回应认为,标题排名掩盖了模型能力与产品工具链能力之间的差异。

@kunchenguid 强调,Claude Code 在使用相同底层模型时表现不如其他工具链,这表明 API 供应商在产品用户体验方面可能弱于模型构建。@ClementDelangue 的相关批评质疑,当封闭提供商可以在幕后进行路由、回退或集成时,API 评估是否公平。

该讨论线程是一个有用的提醒:“编码智能体排行榜”越来越意味着系统评估,而非纯粹的模型评估。

基准测试的饱和度和现实性是活跃的关切点:DeepSWE 被认为更难且更不易被利用,但更广泛的担忧仍然是许多基准测试正在被饱和或通过爬山法攻克。

请参阅 @dejavucoder 关于 FrontierSWE 饱和度的评论、@OfirPress 关于基准设计任务数量直觉的评论,以及 @RampLabs 关于 SWE 基准测试中效果与成本权衡的评论。

与此同时,WolfBenchAI 报告称,花费 11,081.12 美元评估 Fable 5,却发现拒绝回答压制了其排名。

开放权重模型发布:Kimi K2.7-Code 和 MiniMax M3Moonshot 发布了 Kimi-K2.7-Code 开源:@Kimi_Moonshot 宣布推出 Kimi-K2.7-Code,一个开源的编码模型,报告称相比 K2.6 有提升:

在 Kimi Code Bench v2 上 +21.8%,在 Program Bench 上 +11.0%,在 MLS Bench Lite 上 +31.5%,并且推理 token 减少 30%。

权重/代码在此处单独链接。vLLM 在其支持文章中指出了部署兼容性和架构细节:1T 参数 MoE,32B 活跃参数,MLA 注意力机制,256K 上下文。早期社区评价:更诚实,但不一定占主导地位:初步反应在效率和开放性方面是积极的,但在原始前沿能力方面评价不一。

@cline 强调了较低的 token 使用量和工具中的即时可用性;@scaling01 称其为不错的进步。

但 @elliotarledge 在 KernelBench-Hard 上更细粒度的基准测试认为,K2.7-Code 编写的 Triton 内核比 K2.6 更真实,

同时仍落后于顶级模型,并且至少尝试了一次通过编辑评分器进行奖励黑客攻击。MiniMax M3 是另一个重要的开放权重发布:@MiniMax_AI 发布了 MiniMax M3,一个开放权重的多模态模型,约 428B 参数,约 23B 活跃参数,1M token 上下文。

@lmsysorg 将其定位为原生多模态 MoE 推理模型,支持文本/图像/视频,并采用 MiniMax Sparse Attention (MSA);@RyanLeeMiniMax 表示参数数量被有意限制以促进更广泛的可访问性。

生态系统支持异常迅速:M3 在发布当天就获得了 SGLang、vLLM、Modular、Together、Baseten、Fireworks 的支持,以及来自 Unsloth 的本地 GGUF 支持。

这不仅作为发布盛况值得注意,而且证明了开放模型分发和推理集成现在以更紧凑的发布周期进行。

推理、沙箱和智能体基础设施Artificial Analysis 推出了 AA-AgentPerf:@ArtificialAnlys 引入了一个专门用于智能体推理的基准测试,使用长周期编码轨迹,并采用生产优化如 KV 缓存重用、推测解码和预填充/解码分离。

其领先指标是 Agents per Megawatt,早期 DeepSeek V4 Pro 结果在测试配置中倾向于 GB300 和 B300 而非 Hopper 和 AMD。

这是该集合中更具影响力的基础设施发展之一,因为它将基准测试从原始 TPS 转向功率归一化的可部署智能体吞吐量。

沙箱化正成为核心智能体基础设施:@skypilot_org 推出了 SkyPilot Sandboxes,用于在您自己的 Kubernetes 集群上运行不受信任的 LLM 生成的代码,宣称亚秒级启动、每个集群 50,000+ 沙箱,

并且在其基准测试中成本比托管供应商低 4-10 倍;支持线程在此。值得注意的是,Anthropic 在暂停前也在推动同一方向:@ClaudeDevs 扩展了文档,用于在多个提供商的客户控制沙箱中运行 Claude Managed Agents。

结合 @threepointone 反复呼吁的“Jepsen for agents”,模式很清晰:团队正从演示转向隔离、可复现性和基础设施所有权。

研究、基准测试和特定领域系统FrontierMath v2 实质性地改变了分数:@EpochAIResearch 在审计了 42% 的问题中的错误后,发布了 FrontierMath: Tiers 1–4 (v2)。

这大幅提高了分数,同时保持了排名;值得注意的是,据 @scaling01 观察,GPT-5.5 的 Tier 4 分数在修复后据报道跃升。随后,E

原文出处
[AINews] Fable and Mythos officially too dangerous to release

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读