AI 见闻
精选· 重要性 4/5

FrontierCode:代码质量基准测试,从通过测试到可合并代码

Latent Space (Swyx)··约 8 分钟阅读
中文导读

Cognition发布FrontierCode基准,评估代码是否真正可合并而非仅通过单元测试,结果显示最强模型在困难子集上仅得13%,表明编码远未被解决。同时,AI代理评估从合成任务转向真实世界遥测,Agent Arena基于百万会话进行因果追踪。

[AINews] FrontierCode:代码质量相对于Slop的基准测试我们做了一件事!AI工程师世界博览会第二批AI领导力和工程+研讨会门票昨晚售罄!最后500张门票现已发售,售完即止!

前20名看到此内容的读者可享受20%折扣。我们很少亲自参与当天的头条故事,苹果WWDC宣布Gemini驱动的Siri是一个可能的候选,但我们以前也被愚弄过。因此,我们有了FrontierCode,这是我们“反Slop战争”中的最新成果!

如果这个图表看起来很熟悉,那是因为FrontierCode明确受到FrontierMath的启发并以其命名——将其最难的层级聚焦于两年前前沿模型面临的极其困难的问题:FrontierCode的背景围绕我们过去围绕SWEBench-Verified所做的工作展开。

很明显,即使改用SWEBench Pro,关于2025年到底发生了什么仍然缺乏清晰的阐述。正如在播客中与OpenAI团队讨论的那样,围绕代码质量和可维护性的评估标准需要做更多的工作,而这正是Cog研究团队最终在FrontierCode的第一版中构建的内容。

另外,METR发现许多通过SWE-bench的PR实际上并不会被合并到主分支,而假阳性轨迹问题(不完全是“奖励黑客”,但在基准不可靠性方面精神相似,而非模型本身)在FrontierCode报告中得到了直接测量和解决。

事后看来,FrontierCode的第三层问题显示了进入2025年12月的巨大加速,这突然使得智能体工程和vibe coding有可能上升一个抽象级别,达到我们今天讨论的目标、循环和元提示。AI新闻2026年5月6日至2026年6月8日。

我们检查了12个subreddits、544个Twitter账号,没有进一步的Discord。AINews网站允许您搜索所有过去的问题。提醒您,AINews现在是Latent Space的一部分。

您可以选择加入/退出邮件频率!

AI Twitter回顾编码智能体、循环以及从“通过测试”到可合并软件的转变FrontierCode提高了编码评估的标准:Cognition引入了FrontierCode,这是一个新基准,明确针对代码是否实际上是可合并的,而不仅仅是单元测试通过。

任务由开源维护者构建,每个任务耗时40小时以上,并在回归安全性、整洁性、范围、测试正确性和可维护性等维度上进行评估。

头条结果是,最佳模型Opus 4.8在最难的子集上仅得分约13%——远低于SWE-bench风格评估中常见的50%以上水平,表明编码远未像流行基准所暗示的那样“解决”(Cognition公告、Scott Wu总结、swyx分析、theo关于方差/可重复性的问题、

Cognition回应)。“循环”正在成为主导的智能体控制隐喻——但需谨慎:当天最响亮的实用主题是编码智能体应被赋予明确的目标、验证标准和迭代结构,而非一次性提示。

流行的例子包括dzhng的“不要使用循环,设计状态机”、Claude Code对自动模式、例程和验证的回顾、bcherny的帖子、OpenAI Codex关于结果优先提示和Approve-for-me默认值的提示,以及LangChain OSS“评估标准”。

但一些从业者反驳了天真的循环炒作:Omar Sar0和Graham Neubig强调,在易于验证的领域之外,人工检查点仍然至关重要,而Hamel Husain则开玩笑说要完全屏蔽这个词。

围绕验证和编排,智能体人体工程学正在改进:整个技术栈的产品变化反映了这一转变。ClaudeDevs为MCP连接器开发者添加了可观测性仪表板,包括采用率、延迟和错误视图。MagicPath推出了一个Builder计划,用于外部智能体工作流和多人画布编辑。

LangSmith沙箱和Modal的沙箱扩展故事指向相同的基础设施趋势:智能体需要隔离、可检查、长期运行的环境。实际使用模式正在稳定:最强的操作建议集中在可测量的结果、有限的自主性和线程卫生上。

Angaisb_警告过长的Codex线程会降低性能,而reach_vb报告单线程上下文积累取得了成功。这种不匹配本身就是一个有用的信号:当前的智能体性能仍然受到框架行为和工作流选择的强烈影响,而不仅仅是基础模型质量。

模型发布、本地推理和服务栈升级Kimi推出了更强的编码智能体和桌面智能体产品:Moonshot发布了其开源编码智能体Kimi Code的重大更新,添加了一行CLI安装、拖放视频作为编码上下文、ACP支持、插件和IDE集成(公告)。

它还推出了Kimi Work,一款桌面智能体产品,拥有多达300个本地子智能体、通过扩展使用浏览器、以金融为中心的工具访问和持久内存(产品发布、桌面可用性)。谷歌大力推动高效的本地部署:Gemma获得了几项显著升级。

据报道,新的QAT Gemma 4检查点在保留性能的同时内存使用减少约4倍,Gemma 4 E2B使用移动量化格式仅占约1GB(@_philschmid)。另外,Gemma 4 MTP被合并到llama.cpp中,与QAT检查点配合时可实现更快的解码(Gemma团队)。

llama.cpp还添加了视频输入支持,扩展了本地多模态用例。开源/开放权重竞争仍然激烈:Artificial Analysis报告MiniMax-M3在其智能指数中得分为55,一旦权重发布,这将使其成为领先的开放权重模型。

M3添加了原生多模态和1M令牌上下文窗口,具有强大的GPQA/MMMU-Pro数字,但在对幻觉敏感的评估上明显弃权。与此同时,norpadon宣布了针对Apple硬件优化的量化Qwen3.5检查点。

服务基础设施正在从文本LLM扩展到世界模型和全模态模型:vLLM-Omni 0.22.0添加了对NVIDIA Cosmos 3世界模型、机器人服务API、TTS模型(如Qwen3-TTS和VoxCPM2)、

更快的图像/视频服务以及更广泛的量化/硬件覆盖范围的即日支持(发布)。这反映了向通用多模态服务而非纯文本推理栈的更广泛趋势。

基准、评估方法和现实世界智能体测量智能体评估正在从合成任务转向真实世界遥测:Arena推出了Agent Arena,这是一个基于超过100万次真实世界会话的排行榜,使用因果追踪而非投票来估计编排器/框架在五个信号上的处理效果:确认成功、赞扬与投诉、可操控性、

bash恢复和工具幻觉(概述、方法论帖子)。该方法是否完全成立还有待观察,但这是迄今为止使用实际使用痕迹对已部署智能体进行基准测试的最明确尝试之一。

专业基准不断扩展到新的输出领域:Hugging Face和Mecado发布了CADGenBench,这是一个用于从图纸或STEP修改生成和编辑工程级3D CAD零件的基准,指标涵盖几何、拓扑、接口兼容性和CAD有效性(发布帖子、Thom Wolf总结)。

这是一个有意义的转变:评估正在从文本/代码扩展到结构化工件,其中正确性是物理和几何的。一个反复出现的论点:好的基准成为训练管道:Ofir Press认为,最好的基准是可扩展的,并且植根于现实世界爬取的数据源,使它们不仅用于测量,也用于数据生成。

这种观点隐含地出现在FrontierCode和Agent Arena中:基准不再是静态记分牌;它们正在成为产品和强化学习改进的反馈循环。

谷歌、苹果和消费者AI平台竞赛谷歌扩大了AI包装、搜索和开发者界面

原文出处
[AINews] FrontierCode: Benchmarking for Code Quality over Slop

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读