精选· 重要性 5/5

当AI自我构建：迈向递归自我改进的进展

Hacker News (AI)·大约 2 个月前·meetpateltech·约 8 分钟阅读

社区热度 510 分

中文导读

Anthropic 发布报告，展示 AI 系统正加速自身开发，工程师代码产出提升 8 倍，但完全递归自我改进可能带来失控风险。

在人工智能历史的大部分时间里，人类驱动着其开发周期的每一步。但在 Anthropic，我们正将越来越多的人工智能开发工作委托给 AI 系统本身，这加快了我们的工作速度。如果这一趋势足够深入，并且算力充足，那么它将指向一个能够完全自主设计和开发其继任者的 AI 系统。

这被称为递归自我改进。我们尚未达到那个阶段，递归自我改进也并非不可避免。但它可能比大多数机构准备应对的时间来得更早。利用公开基准和 Anthropic 内部此前未公开的数据，Anthropic Institute 表明 AI 已经在加速 AI 系统的开发。

仅举一例：如今，Anthropic 工程师平均每季度提交的代码量是 2021-2025 年期间的 8 倍。本文讨论的技术趋势表明，AI 系统在未来几年将变得更加强大。这些趋势影响深远。能够自我构建的 AI 将是技术史上的重大发展——它能为科学、医疗等领域带来巨大福祉。

但完全的递归自我改进也可能增加人类失去对 AI 系统控制的风险。如果系统能够完全构建自己的继任者，那么我们保护、监控和塑造它们行为的方式都将变得更加重要。

2021–2023构建第一个 Claude早期，Anthropic 的工作看起来与其他科技公司无异：人们在笔记本电脑上编写代码和文档。2023–2025聊天机器人人们使用早期聊天机器人辅助部分流程，例如生成短代码片段并将输出复制到文本编辑器中。

2025–2026编码智能体随着智能体能力增强，它们能够自行编写和编辑代码，有时甚至能处理整个文件。今天自主智能体智能体现在可以自己运行代码，并将数小时的工作委托给其他智能体。20XX？闭环未来，智能体可能具备足够能力自行构建和训练模型。

如果发生这种情况，Claude 的未来版本可以由 Claude 自身持续改进。来自外界的证据AI 模型改进的速度正在加快。它们能够可靠独立完成的任务时长大约每四个月翻一番，而此前趋势是每七个月翻一番。

2024 年 3 月，Claude Opus 3 能完成人类约需 4 分钟的软件任务。一年后，Claude Sonnet 3.7 能处理约一个半小时的任务。又过一年，Claude Opus 4.6 能处理 12 小时的任务。

如果这一趋势持续，今年内可能触及需要熟练人员数天的任务。到 2027 年，AI 系统可能能够完成需要人类数周的任务。同样的模式也出现在编码和研究基准上。

基准测试衡量模型在特定领域的性能，当模型达到接近 100% 的性能时，基准便“饱和”了。SWE-bench 是现实世界软件工程的标准测试：它向模型提供一个实际的开源代码库和一个真实的错误报告，要求模型编写代码修复问题并通过项目自身的测试。

模型在两年内从低个位数得分发展到饱和该基准。CORE-Bench 测试模型能否复现现有研究，这是它们进行原创研究的前提。它向 AI 模型提供已发表论文背后的代码和数据，要求模型重新运行所有内容并确认能否复现论文结果。

AI 系统从 2024 年约 20% 的成功复现率，发展到 15 个月后饱和该基准。METR 运行衡量模型完成长时间任务能力的基准，发现 Claude Mythos Preview 可以工作“至少”16 小时，并且“处于 [METR] 在没有新任务情况下所能测量的上限”。

公开基准测试能很好地说明这些系统的能力，但它们无法揭示 AI 系统对加速 AI 开发本身的影响。为此，我们需要来自 Anthropic 等 AI 公司内部的直接证据。来自 Anthropic 内部的证据构建前沿模型需要两大类工作。

工程方面：编写代码、搭建基础设施、监督模型训练。研究方面：决定进行哪些实验、解读实验结果、确定下一步尝试哪些想法。在工程和研究两个领域，情况是一致的。在工程方面，Claude 可以被赋予一个未明确说明的问题，并找出解决方法；

人类提供目标，但不再需要提供方法。在研究方面，Claude 在执行明确指定的实验时，已经能与熟练人类匹敌甚至超越。然而，在 Claude 需要运用判断力选择工程和研究目标时，仍然存在巨大的性能差距。

这就是当今 AI 与未来能够自主设计其继任者的系统之间的差距。Anthropic 的员工随着经验增长，通常会承担更开放、更重要的任务。早期，他们执行他人指定的任务，比如“导出按钮不工作，请修复”。

有了经验后，他们会被赋予目标并自行设计方法，例如“调查为什么网络在高负载下变慢”。在最高级别，他们决定哪些问题值得研究：“团队下季度应该构建什么？”我们可以利用 Anthropic 内部数据，了解 Claude 在处理这些不同类型任务方面取得了多大进展。

Claude 编写了 Anthropic 很大一部分代码。

截至 2026 年 5 月，我们合并到 Anthropic 代码库中的代码超过 80% 由 Claude 编写。在 Claude Code 于 2025 年 2 月以研究预览形式发布之前，这一数字仅为低个位数。

这一转变也体现在每位工程师的产出量上。在 Anthropic 的前四年（2021-2024），每位工程师每天合并的代码行数保持稳定，然后在 2025 年开始攀升，当时 Claude 开始运行代码，而不仅仅是建议工程师复制粘贴。

2026 年，当模型开始在更长时间范围内自主工作时，斜率再次陡增。这两个拐点如下图所示。2026 年第二季度，典型工程师每天合并的代码量是 2024 年的 8 倍。这是因为大部分代码由 Claude 编写，工程师负责指导和审查，而非亲自键入。

需要说明的是：代码行数是一个不完美的衡量标准，因为它衡量数量而非质量。因此，2026 年第二季度每天 8 倍的代码行数/工程师几乎肯定夸大了真实的生产力提升。尽管如此，它仍表明了加速。在 Anthropic，我们并不根据代码行数奖励员工；

相反，团队成员之所以产出更多代码，仅仅是因为他们使用 AI 系统来编写更多代码。代码行数的增加与生产力大幅提升的主观感受相符。

在 2026 年 3 月对 Anthropic 研究团队 130 名员工的调查中，中位数受访者估计，使用 Mythos Preview 后，他们在本应从事的项目上的产出大约是未使用任何 AI 模型时的 4 倍。

我们预计 3 月份的真实提升幅度略低。尽管如此，我们认为这一总体说法是合理的，并且与我们的其他观察一致：相当一部分 Anthropic 技术人员完成核心工作的速度比没有 AI 辅助时快数倍。

我们还看到证据表明，Anthropic 的员工正在利用 Claude 完成那些原本根本不会去做的工作。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读