LLM能否击败经典超参数优化算法?
计算机科学>机器学习[提交于2026年3月25日(v1),最后修订于2026年4月17日(本版本,v5)]标题:LLM能否击败经典超参数优化算法?自我研究研究查看PDF HTML(实验性)摘要:自动研究存储库使LLM代理能够通过直接编辑训练代码来优化超参数。
我们将其用作测试平台,将经典HPO算法与基于LLM的方法进行比较,以在固定计算预算下调整小型语言模型的超参数。当在自动搜索上定义固定的搜索空间时,CMA-ES和TPE等经典方法始终优于基于LLM的代理,而避免内存耗尽故障比搜索多样性更重要。
允许LLM直接编辑源代码缩小了与经典方法的差距,但并没有缩小它,即使在撰写本文时可用的前沿模型(例如Claude Opus 4)也是如此。6号和双子座3号。1 Pro预览。我们观察到LLM很难在试验中跟踪优化状态。
相比之下,经典方法缺乏LLM的领域知识。为了结合两者的优势,我们引入了Centaur,这是一种与LLM共享CMA-ES的可解释内部状态的混合体,包括均值载体、步进大小和协方差矩阵。Centaur在我们的实验中取得了最好的结果,并且是0。
8 B LLM已经足以优于所有经典和纯粹的LLM方法。
无约束的代码编辑需要更大的模型才能与经典方法竞争。我们进一步分析搜索多样性,模型从0开始扩展。8B到前沿模型,并在Centaur中消融LLM提议的试验的一部分。总而言之,我们的结果表明,LLM作为经典优化器的补充最有效,而不是替代品。
代码可在此https URL中获取,交互式演示可在此https URL中获取。
提交历史记录发件人:Fabio Ferreira [查看电子邮件][v1] 2026年3月25日星期三17:29:40 UTC(1,874 KB)[v2]2026年3月29日星期日18:46:53 UTC(2,456 KB)[v3]2026年4月4日星期六10:33:
34 UTC(3,
843 KB)[v4]2026年4月13日星期一21:59:37 UTC(3,768 KB)[v5]2026年4月17日星期五18:50:51 UTC(3,905 KB)当前浏览上下文:CS. LG参考文献和引文加载中. .书目和引文工具书目探索者(什么是探索者?
)关联论文(什么是关联论文?)Litmap(什么是Litmap?)scite Smart Citations(什么是Smart Citations?)与本文相关的代码、数据和媒体alphaXiv(什么是alphaXiv?
)CatalyzeX纸张代码收件箱(什么是CatalyzeX?)DagsHub(什么是DagsHub?)戈蒂特。pub(什么是GotitPub?)拥抱脸(什么是拥抱脸?)ScienceCast(什么是ScienceCast?
)演示推荐人和搜索工具影响力之花(什么是影响力之花?)核心推荐器(什么是核心?)IArxiv推荐者(What是IArxiv吗?
)arXivLabs:与社区合作者的实验项目arXivLabs是一个框架,允许合作者直接在我们的网站上开发和共享新的arXiv功能。与arXivLabs合作的个人和组织都接受并接受了我们的开放性、社区、卓越和用户数据隐私价值观。
arXiv致力于这些价值观,并且仅与遵守这些价值观的合作伙伴合作。有一个可以为arXiv社区增加价值的项目的想法吗?了解有关arXivLabs的更多信息。