精选· 重要性 4/5

AI日报：Anthropic发现递归自我改进迹象，英伟达发布Nemotron 3 Ultra

Latent Space (Swyx)·大约 2 个月前·约 8 分钟阅读

中文导读

Anthropic发布报告称AI已出现递归自我改进的早期迹象，英伟达推出完全开源的Nemotron 3 Ultra模型，OpenAI的ChatGPT月活突破10亿并改进记忆功能，Cloudflare收购VoidZero以强化全栈代理工具链。

Anthropic看到了RJ的火花，OpenAI的ChatGPT终于比计划晚了约5个月突破了1B MAU，内存也得到了改善，SpaceXAI正在向那些可能不知道自己将被迫购买它的人解释其IPO。

这些都没有比获得AIEWF门票和酒店以及通过Andon Labs收听最新的吊舱更重要！人工智能新闻2026年3月6日至2026年4月6日。我们检查了12个subreddits、544个Twitter用户，没有进一步的Discords。

AINews的网站允许您搜索所有过去的问题。提醒您的是，AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率！

人工智能Twitter回顾英伟达的Nemotron 3 Ultra和3. 5 ASB发布Nemotron 3 Ultra是当天最清晰的技术版本：一个完全开放的550 B MoE模型，具有55 B活动参数，1 M上下文，并明确关注长期运行的代理工作负载。

英伟达表示，在OpenMDW 1下发布了权重、合成数据、奖励检查点、量化变体和训练食谱，代理任务的速度提高了5倍，成本降低了30%。1（NVIDIA发布、NVIDIAAI开放文物、Pavlo Molchanov线程）。

该架构结合了混合Mamba/注意力、LatentMoE和原生STP，并在NVFP 4中完成超过20 T代币的预训练-值得注意的是，它将低精度预训练推入了新的规模机制（技术笔记、规模讨论）。对于开放版本来说，基准和服务故事异常强大。

@ CLARicialAnlys测量值为47。

7使用NVIDIA推荐的NVFP 4推断权重（48. BF 16中的2），使其成为他们测试过的最强的美国公开量级模型，尽管仍然落后于Kimi K2。

6.更有趣的是，他们通过BlackBox报告了400+个输出tok/s，并分别在转弯限制下在Terminal-Bench式评估中，Nemotron 3 Ultra在任务延迟与性能方面处于帕累托前沿（延迟分析、BlackBox吞吐量）。

该模型在第0天跨栈发货：vLLM、Modal、Together、烟花、Olama cloud、Baseten、CoreWeave/W & B、Cline、Prime Intelligence和Nous Portal。

Nemotron 3。5 ASB是一个安静但实用的配套版本：一个开放流媒体ASB模型，带有单个0。

6 B检查点、40种语言语言环境组合和低于100 ms的延迟，基于缓存感知的FastConformer / RNN-T风格设计，针对语音代理和流语音工作负载进行了优化（Piotr Zelasko，Together，fal可用性）。

Anthropic的渐进式自我改进框架和内部AI编码脚本Anthropic发布了当天讨论最多的政策/研究笔记，认为当前的系统显示出了循环自我改进（RTI）的早期迹象--研究方向尚未完全自主，但有明确证据表明人工智能正在加速人工智能的发展（Anthropic帖子）。

头条运营主张是具体的：Anthropic 80%以上的合并代码现在由Claude编写，典型的工程师每个季度交付的代码比往年多8倍，并且在内部开放式工程任务方面，Claude的成功率在六个月内从大约26%上升到了76%（代码指标，Alex Albert摘要）。

最引人注目的经验数据点是Anthropic反复进行的“加速小型模型训练脚本”测试：Claude Opus 4平均加速约3倍，而Mythos Preview据报道实现了~ 52倍（Anthropic基准声明，日期更正）。

Anthropic还表示，在研究人员走错路的会议中，64%的情况下，神话提供了比人类更好的“下一步该做什么”研究建议（研究下一步结果）。他们更广泛的论点：自动化问题选择仍然没有解决，但大部分实现和迭代的自动化已经在发生。

治理角度与生产力所声称的一样重要。Anthropic明确写道，“世界可以选择放慢或暂时暂停前沿人工智能开发将是件好事”，如果类似RTI的动态继续下去，验证和协调机制将变得越来越紧迫（Anthropic治理声明、讨论、评论）。

据@CRSegerie报道，这是在批评Anthropic最近削弱了其有关生物/化学风险的部分负责任缩放政策门槛之际发生的。

另外，包括Altman，Amodei，Hassabis和Baker在内的联盟支持在美国进行强制性DNA合成筛选和记录保存，认为人工智能正在侵蚀生物知识壁垒。

Cloudflare收购了VoidZero，并升级了全栈代理工具链最大的开发平台举措是Cloudflare引入了VoidZero，Vite，Vitest，Rolldown，Oxc和Vite+背后的团队。

Cloudflare和VoidZero强调，Vite仍然是开源的，MIT和供应商中立的，Cloudflare还承诺向独立的Vite生态系统开发基金提供100万美元（Cloudflare，Vite声明，Evan You）。

开发人员的战略解读是，这使Cloudflare能够更严格地控制日益对代理友好的应用程序堆栈：前端/构建工具、运行时、存储、推理、部署基元和安全性集中在一个地方。

@wesbos将其定义为Cloudflare正在组装“一个他们可以交给LLM来创建网站的整洁包”，这与Cloudflare自己在统一平台中对代理、LCP、沙箱、人工智能搜索、支付和可观察性的推动方向一致（Cloudflare代理文档概述）。

代理、安全带、内存和评估基础设施几条推文指出，原始模型发布之外还有一个成熟的“代理系统”层。一个反复出现的主题是，瓶颈越来越多地是线束/协调器，而不仅仅是提示。

一个流行的剪辑将Claude Code工作流程总结为“我不再提示Claude，我写循环”，而@omarsar0则将反向工程动态工作流程描述到他自己的编排器中，用于分支研究、验证、分类、数据合成和评估生成。

共同的想法是：更高级的控制循环，而不是一次性提示，正在成为真正的工作单位。围绕这些循环的工具也得到了改进。LangSmith Sandboxes通过Dockerfile快照、交互式控制台、TCP隧道和标准Linux工具登陆GA。

Hugging Face提出了两个相邻的想法：Hub上自定义内核的Kernels分发路径（公告），以及对将代理痕迹存储为一流文物的更强支持，@ClementDelangue对此表示赞同。

@julien_c发布了SynthTraces，这是一个最小的工具，通过让开放模型扮演编码代理和本地模型模拟用户来生成2，000多个合成编码代理会话轨迹。评估也转向现实世界的代理工作。

Arena推出了Agent Arena / Agent Mode，使用网络搜索、文件系统、bash和图像生成等工具测量数百万个实时会话的代理性能。他们目前的排名是GPT-5。首先是5，其次是克劳德作品4。

7、GLM-5。1、双子座3。1 Pro和Kimi-K2。6，方法论基于30万+任务、2 M+工具调用和4000万行代码（启动、方法论）的任务成功、可操控性、恢复、用户好评/投诉和工具幻觉。

在企业方面，Cognition为Devin推出了人工智能生产力保证--如果产品不能产生积极的工程价值，最高可获得1000万美元的覆盖使用费，并由内部测量系统支持，涵盖258个企业会话，涵盖任务长达64小时以上（保证、技术写作）。

内存、多模式和模型/基准更新OpenAI向美国的Plus和Pro用户推出了功能更强的ChatGPT内存系统，具有内存摘要、更多转向控制和2倍的内存。

该公司将其定义为一个长期运行的研究弧线，从保存的内存到“梦想”到当前系统（OpenAI、控制、Christina Kim解释）。

相关的开发人员端更新包括响应和完成API（OpenAidevs）中的审核分数，以及新Codex iOS应用程序插件的大量共享演示，用于在浏览器中通过热加载查看和测试应用程序（OpenAidevs演示）。

其他一些模型/数据发布是

原文出处

[AINews] not much happened today

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

AI日报：Anthropic发现递归自我改进迹象，英伟达发布Nemotron 3 Ultra

相关阅读

Bluesky AI助手Attie扩展为开放社交研究工具

Midjourney 收购占星社交应用 Co-Star，拓展产品线

硅谷在中国AI开放权重模型问题上严重分裂