双子座深度思考的数学加速和科学发现
双子座深度思考的数学加速和科学发现在专家数学家和科学家的指导下,Gemini Deep Think正在解决数学、物理和计算机科学领域的专业研究问题2025年夏天,Gemini Deep Think的高级版本在国际数学奥林匹克竞赛(IMO)上获得了金牌标准,
随后的更新版本在国际大学生编程竞赛上获得了类似的成绩。这些结果表明该模型可以推理出为学生设计的一些最具挑战性的数学和编程问题。从那时起,双子座深度思考模式已转移到科学、工程和企业工作流程中,以应对更复杂、开放式的挑战。
上周,我们的团队发表了两篇论文(1、2),详细介绍了使用Gemini Deep Think模式解决专业研究问题的跨学科努力。这些结果源于数学家、物理学家和计算机科学家之间的深入合作。纯数学的前沿与国际海事组织问题不同,研究级数学需要大量文献中的先进技术。
虽然基础模型拥有庞大的知识库,但数据稀缺往往导致高级学科的肤浅理解和幻觉。为了解决这个问题,我们构建了一个数学研究代理(内部代号为Aletheia),由Gemini Deep Think模式提供支持。
它具有自然语言验证器来识别候选解决方案中的缺陷,并实现生成和修改解决方案的迭代过程。至关重要的是,该代理可以承认未能解决问题,这是提高研究人员效率的一个关键功能。此外,研究代理使用谷歌搜索和网络浏览来导航复杂的研究,防止合成已发表文献时出现虚假引用和计算不准确。
自2025年7月达到国际海事组织金奖标准以来,Gemini Deep Think进展迅速,在IMO-ProofBench高级测试中得分高达90%。我们证明,随着我们从奥林匹克水平进入博士水平练习(根据我们内部的FutureMath Basic基准),缩放定律继续成立。
值得注意的是,Aletheia证明,可以在较低的推理时间计算下实现更高的推理质量。对于研究级数学,Aletheia已经通过不同水平的自主研究实现了多项进步:- 可靠的自主研究。
人工智能在没有任何人类干预的情况下生成的一篇研究论文(Feng 26),计算算术几何中的某些结构常数,称为特征权重。- AI引导的协作。一篇研究论文(LeeSeo 26)展示了人类与人工智能的合作,证明了称为独立集的相互作用粒子系统的界限。
- 广泛的半自主评估(Feng等人。
,2026 b)Bloom的Erdspirs Conjectures数据库中的700个开放问题,包括其中列出的四个开放问题的自主解决方案。在Erdspirs-1051上,我们的模型自主求解并帮助得出了一篇研究论文(BKKKZ 26)中报告的概括。
该代理人还就另外两篇论文(FZZ 26)和(ACGKMP 26)提出了中间命题。还值得注意的是,就合作和解决的问题数量而言,之前曾有过使用Gemini进行较小规模的研究级数学的工作。
在与数学界进行广泛讨论后,我们提出了一种分类法,根据人工智能贡献的重要性和程度对人工智能辅助数学研究进行分类,从而有助于更广泛地讨论人工智能生成的结果的负责任记录、评估和沟通。2级(“可传播质量”)作品已提交给知名期刊。
目前,我们不要求任何3级(“重大进展”)和4级(“里程碑突破”)结果。此处提供了预算和模型输出。有关人工智能贡献、我们的“人机交互卡”和社区影响的讨论,请参阅我们的论文。扩展到物理和计算机科学双子座深度思考模式在计算机科学和物理学方面也表现出了希望。
第二篇论文建立在类似的代理推理思想之上,并确定了有效的协作“食谱”,特别是“顾问”模型,其中人类引导人工智能通过迭代的“Vibe-Proving”循环来验证直觉并完善证据。我们还详细介绍了“平衡提示”(请求同时证明或反驳以防止确认偏差)和代码辅助验证等战术技术。
这些方法,加上模型通过深层结构联系连接不同科学领域的能力,正在改变理论研究的进行方式。这项工作建立在我们成功部署Gemini Deep Think的高级版本的基础上,以协助审查STOC ' 26会议的CS理论论文。
Gemini Deep Think的高级版本与专家合作解决了18个研究问题,帮助解决了算法、ML和组合优化、信息论和经济学方面长期存在的瓶颈。
我们的“与双子座加速研究”论文的亮点包括(论文中相应的部分编号):- 跨越网络难题的数学边界:经典计算机科学问题,如“Max-Cut”(有效分割网络)和“Steiner Tree”(连接高维点)的进展已经放缓。
双子座通过跳出框框思考打破了两个僵局。
它通过从完全不相关的连续数学分支中提取高级工具--例如Kirzbraun定理、测量理论和斯通-维尔斯特拉斯定理--来解决这些离散算法难题。请参阅第4节。
1和4. 2. - 解决在线子模块优化中十年前的猜想:2015年的一篇理论论文提出了一条看似明显的数据流规则:复制到达的物品总是比简单地移动原始物品更有价值。专家们花了十年时间来证明这一点。双子座设计了一个高度特定的三项组合反例,严格证明了长期存在的人类直觉是错误的。
请参阅第3节。1. - 机器学习优化:训练人工智能过滤噪音通常需要工程师手动调整数学“惩罚”。“研究人员创造了一种新技术,可以自动做到这一点,但无法从数学上解释原因。Gemini分析了这些方程,并通过秘密地实时生成自己的“自适应罚分”来证明该方法是成功的。
参见第8节。3. - 升级人工智能的经济理论:最近拍卖人工智能一代代币的“启示原则”只有在出价仅限于有理数时才在数学上有效。将域扩展到连续的真实数字会使原始证明无效。双子座采用先进的布局和序理论来扩展该定理,适应现实世界的连续拍卖动态。
请参阅第8节。4.
- 宇宙弦物理学:计算宇宙弦的引力辐射需要找到包含“奇点”的复杂积分的解析解。“Gemini使用Gegenbauer多项式找到了一种新的解决方案。这自然地吸收了奇点,将无穷级数坍缩成一个封闭的形式,即有限和。
请参阅第6节。1.这些结果跨越了不同的领域--从信息和复杂性理论到密码学和机制设计--展示了人工智能如何从根本上改变研究。详情请参阅我们的论文。鉴于计算机科学流动、会议驱动的出版渠道,我们通过学术轨迹而不是严格的分类来描述这些结果。
大约一半的研究结果瞄准了强有力的会议--包括ICLR 26的接受--而大多数剩余的研究结果将形成未来的期刊提交。即使通过识别错误来纠正该字段(第3节。2)或反驳猜测(第3节。1),这些结果
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。