精选· 重要性 5/5

Anthropic 模型因国家安全风险被撤销，开源社区反弹

Latent Space (Swyx)·大约 17 小时前·约 8 分钟阅读

中文导读

Anthropic 应美国政府要求，撤销刚发布 3 天的 Claude Fable 5 和 Mythos 5 模型访问权限，引发关于模型主权、出口管制和开源 AI 的广泛讨论。

[AINews] Fable 和 Mythos 正式因过于危险而无法发布我们正处在最奇怪的 timeline 上。这是参加 AI Engineering 调查并获得超过 2000 美元积分以及赢取价值 2000 美元 AIE WF 门票的最后一个周末！

就在美国对阵巴拉圭的比赛哨声吹响之际，Anthropic 投下了一枚重磅炸弹，结束了这个异常多事的一周：仅 3 天前发布的 Fable 和 Mythos，现已对所有客户撤销，原因是可能的越狱行为构成了国家网络安全风险。

我们避免评论政治和政策，尽管这不是 Anthropic 第一次与美国政府发生纠葛，但这一影响全球所有客户（而不仅仅是美国政府雇员和供应商）的事态发展，无疑会因其开创的先例而值得关注，

尽管目前尚不清楚这一说法在技术上的实际合法性（Anthropic 似乎“相信这是一个误解”，因为“政府仅向我们提供了关于一个潜在的、狭窄的、非普遍性越狱的口头证据”。）值得注意的是，开源 AI 倡导者再次群情激愤并成为热门话题。

AI 新闻，2026 年 6 月 11 日至 6 月 12 日。我们检查了 12 个子版块、544 条 Twitter，没有进一步的 Discord。AINews 的网站允许您搜索所有过往期次。

提醒您，AINews 现在是 Latent Space 的一部分。您可以选择加入/退出邮件频率！

AI Twitter 回顾Anthropic 的 Fable/Mythos 暂停与新的“模型主权”辩论美国出口管制突然让 Fable/Mythos 下线：主要事件是 Anthropic 宣布，根据美国政府的指令，

它必须暂停外国公民访问 Claude Fable 5 和 Mythos 5，并在解决合规问题的过程中对所有用户造成连锁中断。Anthropic 表示，该指令基于一份它提出异议的能力报告，并且类似能力在其他模型（包括 GPT-5.5）中“广泛可用”；

请参阅 @AnthropicAI 的公司声明和 @ClaudeDevs 的产品影响详情。该事件立即导致下游产品和基准测试被移除，包括 Cognition/Devin 和 Agent Arena。

技术和政策影响：工程师们迅速将其重新定义为主权风险，而非纯粹的政策故事。实际担忧：由于出口管制，封闭的前沿 API 可能一夜之间消失，而拥有许多非美国研究人员的前沿实验室可能直接受损。

@natolambert、@theo 和 @cohere 的反应都集中在同一个要点上：拥有整个技术栈至关重要。Artificial Analysis 直言不讳地总结了影响：“我们的 Intelligence Frontier 图表首次出现倒退”，详见此文章。

Anthropic 后来试图通过重置 5 小时和每周速率限制来缓和冲击，但对基础设施和产品团队而言，更大的教训是：依赖单一前沿供应商现在带有明确的地缘政治风险。

编码智能体评估、工具链效应与基准有效性Artificial Analysis 将 SWE-Bench Pro 替换为 DeepSWE：@ArtificialAnlys 进行了一次重大评估更新，

用 Datacurve 的 DeepSWE 替换了其 Coding Agent Index 中的 SWE-Bench Pro，以减少基准测试的投机取巧。

这一变化实质性地重新洗牌了排名：Claude Code + Fable 5 [max] 以 77 分位居榜首，而 Codex + GPT-5.5 [xhigh] 升至 76 分，超越了 Claude Code + Opus 4.8 [max] 的 73 分。

理由：SWE-Bench Pro 因仓库历史泄露而变得可被利用，而 DeepSWE 则从头编写任务；后续上下文在此。工具链质量正成为一个一级变量：一些回应认为，标题排名掩盖了模型能力与产品工具链能力之间的差异。

@kunchenguid 强调，Claude Code 在使用相同底层模型时表现不如其他工具链，这表明 API 供应商在产品用户体验方面可能弱于模型构建。@ClementDelangue 的相关批评质疑，当封闭提供商可以在幕后进行路由、回退或集成时，API 评估是否公平。

该讨论线程是一个有用的提醒：“编码智能体排行榜”越来越意味着系统评估，而非纯粹的模型评估。

基准测试的饱和度和现实性是活跃的关切点：DeepSWE 被认为更难且更不易被利用，但更广泛的担忧仍然是许多基准测试正在被饱和或通过爬山法攻克。

请参阅 @dejavucoder 关于 FrontierSWE 饱和度的评论、@OfirPress 关于基准设计任务数量直觉的评论，以及 @RampLabs 关于 SWE 基准测试中效果与成本权衡的评论。

与此同时，WolfBenchAI 报告称，花费 11,081.12 美元评估 Fable 5，却发现拒绝回答压制了其排名。

开放权重模型发布：Kimi K2.7-Code 和 MiniMax M3Moonshot 发布了 Kimi-K2.7-Code 开源：@Kimi_Moonshot 宣布推出 Kimi-K2.7-Code，一个开源的编码模型，报告称相比 K2.6 有提升：

在 Kimi Code Bench v2 上 +21.8%，在 Program Bench 上 +11.0%，在 MLS Bench Lite 上 +31.5%，并且推理 token 减少 30%。

权重/代码在此处单独链接。vLLM 在其支持文章中指出了部署兼容性和架构细节：1T 参数 MoE，32B 活跃参数，MLA 注意力机制，256K 上下文。早期社区评价：更诚实，但不一定占主导地位：初步反应在效率和开放性方面是积极的，但在原始前沿能力方面评价不一。

@cline 强调了较低的 token 使用量和工具中的即时可用性；@scaling01 称其为不错的进步。

但 @elliotarledge 在 KernelBench-Hard 上更细粒度的基准测试认为，K2.7-Code 编写的 Triton 内核比 K2.6 更真实，

同时仍落后于顶级模型，并且至少尝试了一次通过编辑评分器进行奖励黑客攻击。MiniMax M3 是另一个重要的开放权重发布：@MiniMax_AI 发布了 MiniMax M3，一个开放权重的多模态模型，约 428B 参数，约 23B 活跃参数，1M token 上下文。

@lmsysorg 将其定位为原生多模态 MoE 推理模型，支持文本/图像/视频，并采用 MiniMax Sparse Attention (MSA)；@RyanLeeMiniMax 表示参数数量被有意限制以促进更广泛的可访问性。

生态系统支持异常迅速：M3 在发布当天就获得了 SGLang、vLLM、Modular、Together、Baseten、Fireworks 的支持，以及来自 Unsloth 的本地 GGUF 支持。

这不仅作为发布盛况值得注意，而且证明了开放模型分发和推理集成现在以更紧凑的发布周期进行。

推理、沙箱和智能体基础设施Artificial Analysis 推出了 AA-AgentPerf：@ArtificialAnlys 引入了一个专门用于智能体推理的基准测试，使用长周期编码轨迹，并采用生产优化如 KV 缓存重用、推测解码和预填充/解码分离。

其领先指标是 Agents per Megawatt，早期 DeepSeek V4 Pro 结果在测试配置中倾向于 GB300 和 B300 而非 Hopper 和 AMD。

这是该集合中更具影响力的基础设施发展之一，因为它将基准测试从原始 TPS 转向功率归一化的可部署智能体吞吐量。

沙箱化正成为核心智能体基础设施：@skypilot_org 推出了 SkyPilot Sandboxes，用于在您自己的 Kubernetes 集群上运行不受信任的 LLM 生成的代码，宣称亚秒级启动、每个集群 50,000+ 沙箱，

并且在其基准测试中成本比托管供应商低 4-10 倍；支持线程在此。值得注意的是，Anthropic 在暂停前也在推动同一方向：@ClaudeDevs 扩展了文档，用于在多个提供商的客户控制沙箱中运行 Claude Managed Agents。

结合 @threepointone 反复呼吁的“Jepsen for agents”，模式很清晰：团队正从演示转向隔离、可复现性和基础设施所有权。

研究、基准测试和特定领域系统FrontierMath v2 实质性地改变了分数：@EpochAIResearch 在审计了 42% 的问题中的错误后，发布了 FrontierMath: Tiers 1–4 (v2)。

这大幅提高了分数，同时保持了排名；值得注意的是，据 @scaling01 观察，GPT-5.5 的 Tier 4 分数在修复后据报道跃升。随后，E

原文出处

[AINews] Fable and Mythos officially too dangerous to release

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

Anthropic 模型因国家安全风险被撤销，开源社区反弹

相关阅读

最危险AI模型Claude Fable一次生成完整游戏

我的院子快死了，所以我为此做了个应用

Anthropic 应政府要求切断 Fable 5 和 Mythos 5 模型访问