AI 见闻
精选· 重要性 5/5

当AI自我构建:迈向递归自我改进的进展

Hacker News (AI)··meetpateltech·约 8 分钟阅读
Hacker News 510
中文导读

Anthropic 发布报告,展示 AI 系统正加速自身开发,工程师代码产出提升 8 倍,但完全递归自我改进可能带来失控风险。

在人工智能历史的大部分时间里,人类驱动着其开发周期的每一步。但在 Anthropic,我们正将越来越多的人工智能开发工作委托给 AI 系统本身,这加快了我们的工作速度。如果这一趋势足够深入,并且算力充足,那么它将指向一个能够完全自主设计和开发其继任者的 AI 系统。

这被称为递归自我改进。我们尚未达到那个阶段,递归自我改进也并非不可避免。但它可能比大多数机构准备应对的时间来得更早。利用公开基准和 Anthropic 内部此前未公开的数据,Anthropic Institute 表明 AI 已经在加速 AI 系统的开发。

仅举一例:如今,Anthropic 工程师平均每季度提交的代码量是 2021-2025 年期间的 8 倍。本文讨论的技术趋势表明,AI 系统在未来几年将变得更加强大。这些趋势影响深远。能够自我构建的 AI 将是技术史上的重大发展——它能为科学、医疗等领域带来巨大福祉。

但完全的递归自我改进也可能增加人类失去对 AI 系统控制的风险。如果系统能够完全构建自己的继任者,那么我们保护、监控和塑造它们行为的方式都将变得更加重要。

2021–2023构建第一个 Claude早期,Anthropic 的工作看起来与其他科技公司无异:人们在笔记本电脑上编写代码和文档。2023–2025聊天机器人人们使用早期聊天机器人辅助部分流程,例如生成短代码片段并将输出复制到文本编辑器中。

2025–2026编码智能体随着智能体能力增强,它们能够自行编写和编辑代码,有时甚至能处理整个文件。今天自主智能体智能体现在可以自己运行代码,并将数小时的工作委托给其他智能体。20XX?闭环未来,智能体可能具备足够能力自行构建和训练模型。

如果发生这种情况,Claude 的未来版本可以由 Claude 自身持续改进。来自外界的证据AI 模型改进的速度正在加快。它们能够可靠独立完成的任务时长大约每四个月翻一番,而此前趋势是每七个月翻一番。

2024 年 3 月,Claude Opus 3 能完成人类约需 4 分钟的软件任务。一年后,Claude Sonnet 3.7 能处理约一个半小时的任务。又过一年,Claude Opus 4.6 能处理 12 小时的任务。

如果这一趋势持续,今年内可能触及需要熟练人员数天的任务。到 2027 年,AI 系统可能能够完成需要人类数周的任务。同样的模式也出现在编码和研究基准上。

基准测试衡量模型在特定领域的性能,当模型达到接近 100% 的性能时,基准便“饱和”了。SWE-bench 是现实世界软件工程的标准测试:它向模型提供一个实际的开源代码库和一个真实的错误报告,要求模型编写代码修复问题并通过项目自身的测试。

模型在两年内从低个位数得分发展到饱和该基准。CORE-Bench 测试模型能否复现现有研究,这是它们进行原创研究的前提。它向 AI 模型提供已发表论文背后的代码和数据,要求模型重新运行所有内容并确认能否复现论文结果。

AI 系统从 2024 年约 20% 的成功复现率,发展到 15 个月后饱和该基准。METR 运行衡量模型完成长时间任务能力的基准,发现 Claude Mythos Preview 可以工作“至少”16 小时,并且“处于 [METR] 在没有新任务情况下所能测量的上限”。

公开基准测试能很好地说明这些系统的能力,但它们无法揭示 AI 系统对加速 AI 开发本身的影响。为此,我们需要来自 Anthropic 等 AI 公司内部的直接证据。来自 Anthropic 内部的证据构建前沿模型需要两大类工作。

工程方面:编写代码、搭建基础设施、监督模型训练。研究方面:决定进行哪些实验、解读实验结果、确定下一步尝试哪些想法。在工程和研究两个领域,情况是一致的。在工程方面,Claude 可以被赋予一个未明确说明的问题,并找出解决方法;

人类提供目标,但不再需要提供方法。在研究方面,Claude 在执行明确指定的实验时,已经能与熟练人类匹敌甚至超越。然而,在 Claude 需要运用判断力选择工程和研究目标时,仍然存在巨大的性能差距。

这就是当今 AI 与未来能够自主设计其继任者的系统之间的差距。Anthropic 的员工随着经验增长,通常会承担更开放、更重要的任务。早期,他们执行他人指定的任务,比如“导出按钮不工作,请修复”。

有了经验后,他们会被赋予目标并自行设计方法,例如“调查为什么网络在高负载下变慢”。在最高级别,他们决定哪些问题值得研究:“团队下季度应该构建什么?”我们可以利用 Anthropic 内部数据,了解 Claude 在处理这些不同类型任务方面取得了多大进展。

Claude 编写了 Anthropic 很大一部分代码。

截至 2026 年 5 月,我们合并到 Anthropic 代码库中的代码超过 80% 由 Claude 编写。在 Claude Code 于 2025 年 2 月以研究预览形式发布之前,这一数字仅为低个位数。

这一转变也体现在每位工程师的产出量上。在 Anthropic 的前四年(2021-2024),每位工程师每天合并的代码行数保持稳定,然后在 2025 年开始攀升,当时 Claude 开始运行代码,而不仅仅是建议工程师复制粘贴。

2026 年,当模型开始在更长时间范围内自主工作时,斜率再次陡增。这两个拐点如下图所示。2026 年第二季度,典型工程师每天合并的代码量是 2024 年的 8 倍。这是因为大部分代码由 Claude 编写,工程师负责指导和审查,而非亲自键入。

需要说明的是:代码行数是一个不完美的衡量标准,因为它衡量数量而非质量。因此,2026 年第二季度每天 8 倍的代码行数/工程师几乎肯定夸大了真实的生产力提升。尽管如此,它仍表明了加速。在 Anthropic,我们并不根据代码行数奖励员工;

相反,团队成员之所以产出更多代码,仅仅是因为他们使用 AI 系统来编写更多代码。代码行数的增加与生产力大幅提升的主观感受相符。

在 2026 年 3 月对 Anthropic 研究团队 130 名员工的调查中,中位数受访者估计,使用 Mythos Preview 后,他们在本应从事的项目上的产出大约是未使用任何 AI 模型时的 4 倍。

我们预计 3 月份的真实提升幅度略低。尽管如此,我们认为这一总体说法是合理的,并且与我们的其他观察一致:相当一部分 Anthropic 技术人员完成核心工作的速度比没有 AI 辅助时快数倍。

我们还看到证据表明,Anthropic 的员工正在利用 Claude 完成那些原本根本不会去做的工作。

原文出处
When AI Builds Itself: Our progress toward recursive self-improvement

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读