AI日报:Anthropic发现递归自我改进迹象,英伟达发布Nemotron 3 Ultra
Anthropic发布报告称AI已出现递归自我改进的早期迹象,英伟达推出完全开源的Nemotron 3 Ultra模型,OpenAI的ChatGPT月活突破10亿并改进记忆功能,Cloudflare收购VoidZero以强化全栈代理工具链。
Anthropic看到了RJ的火花,OpenAI的ChatGPT终于比计划晚了约5个月突破了1B MAU,内存也得到了改善,SpaceXAI正在向那些可能不知道自己将被迫购买它的人解释其IPO。
这些都没有比获得AIEWF门票和酒店以及通过Andon Labs收听最新的吊舱更重要!人工智能新闻2026年3月6日至2026年4月6日。我们检查了12个subreddits、544个Twitter用户,没有进一步的Discords。
AINews的网站允许您搜索所有过去的问题。提醒您的是,AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率!
人工智能Twitter回顾英伟达的Nemotron 3 Ultra和3. 5 ASB发布Nemotron 3 Ultra是当天最清晰的技术版本:一个完全开放的550 B MoE模型,具有55 B活动参数,1 M上下文,并明确关注长期运行的代理工作负载。
英伟达表示,在OpenMDW 1下发布了权重、合成数据、奖励检查点、量化变体和训练食谱,代理任务的速度提高了5倍,成本降低了30%。1(NVIDIA发布、NVIDIAAI开放文物、Pavlo Molchanov线程)。
该架构结合了混合Mamba/注意力、LatentMoE和原生STP,并在NVFP 4中完成超过20 T代币的预训练-值得注意的是,它将低精度预训练推入了新的规模机制(技术笔记、规模讨论)。对于开放版本来说,基准和服务故事异常强大。
@ CLARicialAnlys测量值为47。
7使用NVIDIA推荐的NVFP 4推断权重(48. BF 16中的2),使其成为他们测试过的最强的美国公开量级模型,尽管仍然落后于Kimi K2。
6.更有趣的是,他们通过BlackBox报告了400+个输出tok/s,并分别在转弯限制下在Terminal-Bench式评估中,Nemotron 3 Ultra在任务延迟与性能方面处于帕累托前沿(延迟分析、BlackBox吞吐量)。
该模型在第0天跨栈发货:vLLM、Modal、Together、烟花、Olama cloud、Baseten、CoreWeave/W & B、Cline、Prime Intelligence和Nous Portal。
Nemotron 3。5 ASB是一个安静但实用的配套版本:一个开放流媒体ASB模型,带有单个0。
6 B检查点、40种语言语言环境组合和低于100 ms的延迟,基于缓存感知的FastConformer / RNN-T风格设计,针对语音代理和流语音工作负载进行了优化(Piotr Zelasko,Together,fal可用性)。
Anthropic的渐进式自我改进框架和内部AI编码脚本Anthropic发布了当天讨论最多的政策/研究笔记,认为当前的系统显示出了循环自我改进(RTI)的早期迹象--研究方向尚未完全自主,但有明确证据表明人工智能正在加速人工智能的发展(Anthropic帖子)。
头条运营主张是具体的:Anthropic 80%以上的合并代码现在由Claude编写,典型的工程师每个季度交付的代码比往年多8倍,并且在内部开放式工程任务方面,Claude的成功率在六个月内从大约26%上升到了76%(代码指标,Alex Albert摘要)。
最引人注目的经验数据点是Anthropic反复进行的“加速小型模型训练脚本”测试:Claude Opus 4平均加速约3倍,而Mythos Preview据报道实现了~ 52倍(Anthropic基准声明,日期更正)。
Anthropic还表示,在研究人员走错路的会议中,64%的情况下,神话提供了比人类更好的“下一步该做什么”研究建议(研究下一步结果)。他们更广泛的论点:自动化问题选择仍然没有解决,但大部分实现和迭代的自动化已经在发生。
治理角度与生产力所声称的一样重要。Anthropic明确写道,“世界可以选择放慢或暂时暂停前沿人工智能开发将是件好事”,如果类似RTI的动态继续下去,验证和协调机制将变得越来越紧迫(Anthropic治理声明、讨论、评论)。
据@CRSegerie报道,这是在批评Anthropic最近削弱了其有关生物/化学风险的部分负责任缩放政策门槛之际发生的。
另外,包括Altman,Amodei,Hassabis和Baker在内的联盟支持在美国进行强制性DNA合成筛选和记录保存,认为人工智能正在侵蚀生物知识壁垒。
Cloudflare收购了VoidZero,并升级了全栈代理工具链最大的开发平台举措是Cloudflare引入了VoidZero,Vite,Vitest,Rolldown,Oxc和Vite+背后的团队。
Cloudflare和VoidZero强调,Vite仍然是开源的,MIT和供应商中立的,Cloudflare还承诺向独立的Vite生态系统开发基金提供100万美元(Cloudflare,Vite声明,Evan You)。
开发人员的战略解读是,这使Cloudflare能够更严格地控制日益对代理友好的应用程序堆栈:前端/构建工具、运行时、存储、推理、部署基元和安全性集中在一个地方。
@wesbos将其定义为Cloudflare正在组装“一个他们可以交给LLM来创建网站的整洁包”,这与Cloudflare自己在统一平台中对代理、LCP、沙箱、人工智能搜索、支付和可观察性的推动方向一致(Cloudflare代理文档概述)。
代理、安全带、内存和评估基础设施几条推文指出,原始模型发布之外还有一个成熟的“代理系统”层。一个反复出现的主题是,瓶颈越来越多地是线束/协调器,而不仅仅是提示。
一个流行的剪辑将Claude Code工作流程总结为“我不再提示Claude,我写循环”,而@omarsar0则将反向工程动态工作流程描述到他自己的编排器中,用于分支研究、验证、分类、数据合成和评估生成。
共同的想法是:更高级的控制循环,而不是一次性提示,正在成为真正的工作单位。围绕这些循环的工具也得到了改进。LangSmith Sandboxes通过Dockerfile快照、交互式控制台、TCP隧道和标准Linux工具登陆GA。
Hugging Face提出了两个相邻的想法:Hub上自定义内核的Kernels分发路径(公告),以及对将代理痕迹存储为一流文物的更强支持,@ClementDelangue对此表示赞同。
@julien_c发布了SynthTraces,这是一个最小的工具,通过让开放模型扮演编码代理和本地模型模拟用户来生成2,000多个合成编码代理会话轨迹。评估也转向现实世界的代理工作。
Arena推出了Agent Arena / Agent Mode,使用网络搜索、文件系统、bash和图像生成等工具测量数百万个实时会话的代理性能。他们目前的排名是GPT-5。首先是5,其次是克劳德作品4。
7、GLM-5。1、双子座3。1 Pro和Kimi-K2。6,方法论基于30万+任务、2 M+工具调用和4000万行代码(启动、方法论)的任务成功、可操控性、恢复、用户好评/投诉和工具幻觉。
在企业方面,Cognition为Devin推出了人工智能生产力保证--如果产品不能产生积极的工程价值,最高可获得1000万美元的覆盖使用费,并由内部测量系统支持,涵盖258个企业会话,涵盖任务长达64小时以上(保证、技术写作)。
内存、多模式和模型/基准更新OpenAI向美国的Plus和Pro用户推出了功能更强的ChatGPT内存系统,具有内存摘要、更多转向控制和2倍的内存。
该公司将其定义为一个长期运行的研究弧线,从保存的内存到“梦想”到当前系统(OpenAI、控制、Christina Kim解释)。
相关的开发人员端更新包括响应和完成API(OpenAidevs)中的审核分数,以及新Codex iOS应用程序插件的大量共享演示,用于在浏览器中通过热加载查看和测试应用程序(OpenAidevs演示)。
其他一些模型/数据发布是