精选· 重要性 4/5

LLM能否击败经典超参数优化算法？混合方法Centaur表现最佳

Hacker News (AI)·大约 2 个月前·galsapir·约 3 分钟阅读

社区热度 117 分

中文导读

一项新研究将LLM智能体与经典超参数优化算法（如CMA-ES）进行对比，发现经典方法在固定搜索空间下仍占优，但混合方法Centaur结合两者优势，取得最佳效果。

计算机科学 > 机器学习[提交于2026年3月25日（v1），最后修订于2026年4月17日（本版本，v5）]标题：LLM能否击败经典超参数优化算法？

一项关于autoresearch的研究查看PDF HTML（实验性）摘要：autoresearch仓库使LLM智能体能够通过直接编辑训练代码来优化超参数。我们将其作为测试平台，在固定算力预算下，比较经典HPO算法与基于LLM的方法在调优小型语言模型超参数上的表现。

当在autoresearch上定义固定搜索空间时，CMA-ES和TPE等经典方法始终优于基于LLM的智能体，其中避免内存溢出故障比搜索多样性更重要。

允许LLM直接编辑源代码缩小了与经典方法的差距，但并未完全弥合，即使使用撰写本文时可用的前沿模型（如Claude Opus 4.6和Gemini 3.1 Pro Preview）也是如此。我们观察到LLM难以跨试验跟踪优化状态。

相比之下，经典方法缺乏LLM的领域知识。为了结合两者优势，我们引入了Centaur，这是一种混合方法，将CMA-ES的可解释内部状态（包括均值向量、步长和协方差矩阵）与LLM共享。

Centaur在我们的实验中取得了最佳结果，并且一个0.8B参数的LLM就足以超越所有经典和纯LLM方法。

无约束的代码编辑需要更大的模型才能与经典方法竞争。我们进一步分析了搜索多样性、从0.8B到前沿模型的模型缩放，以及Centaur中LLM提议试验的比例消融。总而言之，我们的结果表明，LLM作为经典优化器的补充最有效，而非替代品。

代码可在此https URL获取，交互式演示可在此https URL获取。

提交历史来自：Fabio Ferreira [查看电子邮件][v1] 2026年3月25日星期三17:29:40 UTC (1,874 KB)[v2] 2026年3月29日星期日18:46:53 UTC (2,456 KB)[v3] 2026年4月4日星期六10:33:

34 UTC (3,

843 KB)[v4] 2026年4月13日星期一21:59:37 UTC (3,768 KB)[v5] 2026年4月17日星期五18:50:51 UTC (3,905 KB)当前浏览上下文：cs.LG参考文献与引文加载中... 书目与引文工具书目探索器（什么是探索器？

）关联论文（什么是关联论文？）Litmaps（什么是Litmaps？）scite智能引文（什么是智能引文？）与本文相关的代码、数据与媒体alphaXiv（什么是alphaXiv？）CatalyzeX论文代码查找器（什么是CatalyzeX？

）DagsHub（什么是DagsHub？）Gotit.pub（什么是GotitPub？）Hugging Face（什么是Hugging Face？）ScienceCast（什么是ScienceCast？

）演示推荐与搜索工具影响之花（什么是影响之花？）CORE推荐器（什么是CORE？）IArxiv推荐器（什么是IArxiv？）

)arXivLabs：与社区合作者的实验项目arXivLabs是一个框架，允许合作者直接在我们的网站上开发和共享新的arXiv功能。与arXivLabs合作的个人和组织都接受并认同我们关于开放性、社区、卓越和用户数据隐私的价值观。

arXiv致力于这些价值观，并且只与遵守这些价值观的合作伙伴合作。有一个能为arXiv社区增加价值的项目想法吗？了解更多关于arXivLabs的信息。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读