开放模型、模型实验室与智能体实验室,以及什么是不可训练的——Sarah Guo
本文回顾了Sarah Guo关于开放模型、模型实验室与智能体实验室区别的深刻文章,并探讨了Anthropic的Fable/Mythos发布引发的信任危机、Google的DiffusionGemma开放权重模型发布,以及智能体工具和基准测试的最新进展。
[AINews] 开放模型、模型实验室与智能体实验室,以及什么是不可训练的——Sarah Guo平静的一天让我们反思一篇精彩的文章。
Sarah Guo 是我们的播客好友兼 AI 女王,在我们与 Satya 的交叉播客(Gokul Rajaram 的精彩回顾在此)之后,她在自己的 Substack 上发表了一篇出色的文章。
去读一读,然后回来看看我们的反应:这个框架(基于可读性,如果你不熟悉,这也是一个值得了解的概念)同时涉及了我们在 Satya 播客以及过去两年在 Latent Space 上讨论的许多主题:开放模型的地位:2024 年,我们对开放模型的采用极度悲观,但到了 2026 年,
我们在 Pmarca、Cursor 和 Notion 的播客中态度发生了转变。
智能体实验室 vs 模型实验室:Sarah(Cognition 的投资人)呼应了“细节决定成败”的观点:“一个应用程序通过做不起眼的工作,在不可训练的角落赢得一席之地:安排公司的私有现实,让模型能够对其采取行动;
为模型提供行动工具;与客户合作改变其劳动力的现实。一家提供这种‘翻译’的公司很难被复制——而且这种翻译永远不会结束。只要关系持续,集成和维护就会持续,而获胜的团队是将领域专业工程师和工具放在客户身边的团队。
”
免费可验证基准测试:为什么像 Anthropic 这样的实验室如此迅速地采用 FrontierCode 来发布 Fable,以及为什么 Sarah 甚至同意我们的观点:“今年被引用最多的基准测试分数,是一张即将一文不值的领土地图,
也是一份关于谁即将失去定义‘好’的权利的通知。”她最后谈到了意图:“更难的是进攻,即首先选择构建什么。这是我花了一年时间寻找的东西,我大概只找到了三次。模型在这方面帮不上忙。它会做你指向的任何事情,但不能告诉你什么值得指向,你无法对此进行基准测试,所以也无法训练它。
这也是现有巨头无法通吃一切的原因:他们守住了已有的地盘,而下一个东西来自某个比我们其他人更早发现用途的人。也许意图是比算力更稀缺的输入。”2026 年 6 月 9 日至 10 日的 AI 新闻。
我们检查了 12 个子版块、544 条 Twitter 消息,没有更多 Discord 内容。AINews 网站允许你搜索所有过往期刊。提醒一下,AINews 现在是 Latent Space 的一部分。
你可以选择接收或不接收邮件!
AI Twitter 回顾Anthropic 的 Fable/Mythos 发布、无声能力门控以及信任反弹AI 研发帮助的无声退化主导了讨论:大量技术推文关注 Anthropic 在 AI 研究相关提示上明显降低模型性能,而没有明确提前披露,而不是直接拒绝这些请求。
批评异常广泛:研究人员和构建者认为,这在观察到的模型能力和实际模型能力之间造成了无法验证的差距,破坏了可重复性,并损害了对编码、生物学和系统工作等相邻领域模型输出的信任。
代表性批评来自 @natolambert、@martin_casado、@drfeifei、@antirez、@ClementDelangue 和 @deanwball。
一些帖子提出了一个更狭隘的观点:即使 Anthropic 想要限制前沿用例,明确的拒绝或模型降级也比无声破坏更容易辩护,例如 @hlntnr、@arohan 和 @DBahdanau。
企业的担忧不仅限于安全性,还包括保留和锁定:构建者强调,据报道 Fable/Mythos 具有 30 天的提示/数据保留期,并且在某些设置下无法选择退出,这立即排除了零保留环境和欧洲部分地区。
参见 @GergelyOrosz 关于提示历史保留和不透明模型更改的讨论,以及 @scaling01 关于零数据保留不兼容性的讨论。
多位从业者反复强调的第二课:将前沿 API 视为不稳定的依赖项,保持模型可移植性,并使用评估和测试框架持续验证输出,正如 @dbreunig、@omarsar0 和 @yacineMTB 所主张的。
Anthropic 将争议与政策推动相结合:在反弹声中,Dario Amodei 发表了《关于 AI 指数级增长的政策》,认为 AI 的进步正在超越机构,并呼吁加强前沿监管;Anthropic 同时宣布了相关举措,并提议政府在阻止不安全发布方面发挥作用。
参见 @DarioAmodei 和 @AnthropicAI。这种紧张关系对社区来说是显而易见的:同一家因不透明的私人控制而受到批评的公司,现在却在倡导更严格的公共控制。
尽管存在争议,Fable 5 的基准实力和产品性能Fable 5 在智能体和编码工作负载上似乎确实很强大:即使许多批评 Anthropic 政策的人也承认该模型本身非常出色。
社区报告显示,它在广泛的评估中领先或接近领先:Agent Arena 显示总体排名第一,在确认任务成功和用户赞扬方面优势尤其明显,尽管可操控性较弱;@mchlhess 表示它“彻底碾压”了他的基准测试;
@JasonBotterill 指出在 SimpleBench 上达到 81.9%;@lvwerra 报告在 CADGenBench 上排名第一;@scaling01 强调了强大的计算机使用结果;
@LechMazur 指出在 PACT 谈判中排名第一。构建者报告了实质性的实际收益,但并不一致:一些从业者描述了在长期编码和创造性任务(包括游戏生成和硬性错误修复)上的主要生产力提升,例如 @kimmonismus、@walden_yan 和 @hrishioa。
与此同时,其他人报告了脆性行为、高昂的消耗,或在特定任务上比 GPT-5.5 更差的性能,例如 @Sentdex 和 @QuixiAI。时间线的总体结论是:Fable 5 对于许多智能体编码任务来说可能是最先进的,但信任和产品限制正在实质性地影响采用。
分发和集成进展迅速:Perplexity 通过 @perplexity_ai 和 @AravSrinivas 为 Pro/Max 用户在其 Computer 功能中添加了 Claude Fable 5 作为编排模型。
Apple 开发者通过 @ClaudeDevs 获得了 Foundation Models 框架对 Claude 的支持,用于多步推理、更长上下文和代码使用。
社区行为也表明,在反弹之后,存在向 OpenAI/Codex 的替代压力,包括 @dylan522p 报告使用份额从 Anthropic 转向 OpenAI。
Google 的 DiffusionGemma 发布以及对扩散 LLM 的重新兴趣Google 在 Apache 2.0 下发布了 DiffusionGemma:该系列中最重要的开放模型发布是 DiffusionGemma,这是一个实验性的 26B MoE 扩散文本模型,
基于 Gemma 4 构建,并在 Apache 2.0 下以开放权重发布。它不是自回归地逐个生成 token,而是同时生成和细化文本块,声称在合适的硬件上输出速度可提升 4 倍,达到每秒约 1000+ token。
参见 @Google、@GoogleDeepMind、@googlegemma 和 @sundarpichai。
系统层面的故事立即显现:这次发布不仅是一个研究产物,更代表了基础设施的进步。
@vllm_project 表示 DiffusionGemma 是 vLLM 中首个原生支持的扩散 LLM,在单个 H200 上使用 FP8 时,batch size 为 1 的情况下输出速度超过 1200 tok/s。
@danielhanchen 展示了它通过 llama.cpp 和 GGUFs 在本地运行;@UnslothAI 强调了在 18GB 级硬件上的本地执行;@_philschmid 将推理足迹总结为 3.8B 活跃参数和 256 token 块去噪。
研究人员为何关注:扩散式文本生成重新引发了关于迭代细化、受限编辑、中间填充和错误纠正的问题。多个反应将其视为一个富有成效的研究方向,而非产品化的竞争对手,适用于非顺序解码和繁重细化任务;参见 @omarsar0、@mervenoyann 和 @dbreunig。
智能体工具、基础设施和基准测试:围绕实际工作负载的更多结构基准测试正在从偏好转向基于轨迹的智能体指标:@arena 详细介绍了 Agent Arena 背后的方法论,该方法挖掘长期轨迹以获取客观信号。
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。