OpenAI GPT-next 不到1000美元推翻80年未解数学猜想

Latent Space (Swyx)·2 个月前·约 8 分钟阅读

[AINews] OpenAI GPT-Next以不到1000美元的价格反驳了80岁Erdspel的平面单位距离问题安静的一天，但人工智能x数学成绩不错我们将把SpaceXAI IPO申请的报道保留到IPO的实际当天。

今天我们庆祝OpenAI的结果，推测为GPT 5。6运行时间< 32小时或< 1000美元，解决平面单位距离问题。

与2025年IMO Gold结果类似，这是一个通用LLM，而不是AlphaProof/Lean风格的专用模型，这让人们希望这种扩展推理能够超越数学：在125页的输出中，存在一个引起一些关注的“第39页时刻”：正如意见信的作者指出的那样，这是一个反证，而不是一个证据，

这会更令人印象深刻，但仍然指出了事情的未来：人工智能新闻2026年4月5日-2026年5月5日。我们检查了12个subreddits、544个Twitter用户，没有进一步的Discords。

AINews的网站允许您搜索所有过去的问题。提醒您的是，AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率！

人工智能Twitter回顾OpenAI在Erdspel单位距离问题上的数学突破通用推理模型在离散几何领域产生了新的研究结果：OpenAI宣布内部模型反驳了围绕平面单位距离问题（1946年著名的埃尔登斯问题）的长期信念，发现了一个新的结构族，

可以改进方形网格风格的解决方案@OpenAI。

OpenAI强调这是一个通用模型，而不是特定领域的数学系统或脚手架解算器@OpenAI，并表示该结果指向了更强的科学长期推理@OpenAI。这一结果得到了数学家和邻近研究人员异常强烈的验证。

Timothy Gowers称其为人工智能解决著名开放数学问题的第一个真正清晰的例子@wtgowers，而OpenAI研究员吴洪勋则将其描述为“最难问题”@HongxunWu上的内部推理LLM里程碑。

@thomasfbloom、@gDB、@alexwei_和@polynoamial的其他反应都集中在同一点上：这似乎在质量上超越了之前的“人工智能进行奥林匹克数学”里程碑。

值得注意的技术潜台词：OpenAI表示该模型并未被推向极限，旨在最终供公众使用@polynoamial。据报道，已发布的推理摘要本身非常冗长--每个@ vooooooogel约有125页--这有助于引发有关测试时计算在前沿推理中实际作用的讨论。

一些观察家明确地将这一点视为进一步的证据，证明推理时缩放是承载当前进展的范式@arohan，而其他人则推断未来在形式科学和数学方面取得更快的收益@scaling01，@sama。Kohere命令A+开放发布和架构讨论Kohere将命令A+作为Apache 2发布。

0开放权重，将其定位为迄今为止最强大的模型，并针对低硬件要求进行了明确优化@cohere，后续@cohere澄清了许可问题。该版本意义重大，部分原因是根据@aidangomez的说法，这是Kohere第一个完全开放的Apache 2模型。

社区的反应集中在这一点上，认为这是向更宽松、可部署的企业级开放模型的有意义的转变@nickfrosst、@ClementDelangue。

该模型细节在多个帖子中重复：大约218 B MoE /25 B活跃、多模式、48种语言，并且可在相对温和的设置下运行@JayAlammar、@mervenoyann。vLLM第0天支持迅速落地，包括在W4A4@vllm_Project上运行最多2 x H100秒的时间。

基准描绘了一幅好坏参半但可信的图景：人工分析将命令A+在其情报指数中排名为37，大约在克劳德4号左右。5俳句领域，具有特别强的非幻觉行为和不错的速度，但科学推理和编码比顶级同行模型@ JournicialAnlys更弱。

该社区还深入研究了该架构：提出的不寻常选择包括并行Transformer块、大量共享专家使用、LayerNorm之上的RMSNorm、相对较低的32层深度以及非典型的头部/专家配置@eliebakouch、@rasbt、@stochasticchasm。

这使得该版本不仅作为模型下降，而且作为架构数据点而引人注目。

代理、内存和科学工作流的基准InferenceBench是当天技术上最具实质性的版本之一。

它通过开放式推理优化任务瞄准人工智能研发自动化，标题对当前前沿代理来说是负面的：他们在系统级工程、依赖性管理和广泛探索方面遇到困难，表现不佳vLLM/SGLang超参数tuning @maksym_andr的简单基线。

该线程还报告了明显的逆缩放效应，其中像克劳德十四行诗4这样的模型。6和GLM-5排名良好，因为它们保留了稳健的最终状态，而较大的模型通常会产生脆端配置。

Terminal-Bench Science将代理评估从编码扩展到真正的科学工作流程，任务贡献现已开放@StevenDillmann。与此同时，MINTEval针对频繁更新和干扰的长上下文内存系统：平均实例长度为138。

8 k代币，最多1. 8 M，但7个系统的平均准确率仅为27。9%，最好的为33%。4%@hyunji_amy_lee。这补充了越来越多的工作，认为记忆应该是一个专门的学习子系统，而不仅仅是RAG/上下文填充@dair_ai。

在交互研究的人性方面，InghtTrace引入了用户在真实LLM对话期间自我报告的大规模思想数据集：10，174个思想注释、2，155个多回合对话、1，058个用户、20个模型。报告的涨幅包括+41。

用户行为预测为7%，+25%。aligning @chuanyang_jin为6%。这是测量对话日志单独错过的“潜在用户状态”的更具体尝试之一。Google I/O后续行动：Gemini 3。

5 Flash、Omni、AI Studio和反重力双子座3。5 Flash开始在Gemini应用程序中更广泛地推出，包括在全球范围内免费访问@GeminiApp、@GeminiApp。

谷歌将其定位为迄今为止最强大的代理和编码模型，声称其前沿性能是同类模型的4倍，成本不到@Google的一半。然而，外部讨论要混杂得多，尽管在启动阶段基准定位有利，但仍有多篇帖子质疑现实世界的成本/性能和代币效率。

@ scaling 01，@giffmana。双子座Omni似乎比3给人留下了更大的定性印象。5闪光。谷歌将其定位为视频和混合输入工作流程@Google的对话式多模式创建/编辑模型，Gemini应用程序演示展示了对话式视频编辑@GeminiApp。

早期反应通常将Omni视为比核心LLM refresh@scaling01更具差异化的产品。

在工具方面，AI Studio更加努力地推动端到端开发人员工作流程和移动访问@ GoogleAISStudio，而一些帖子试图解码Gemini Spark、Antigravity和Google内部/外部代理之间的关系@simonw、@_philschmid。

与反重力相关的一个更具体的更新是Google代理堆栈的Science Skills的推出，集成了UniProt和AlphaFold DB @GoogleDeepMind等30多个生命科学来源。

代理基础设施、检索和开发工具几个帖子都集中在同一个操作教训上：代理在演示失败之前就在基础设施现实上失败了。

该主题出现在研究代理对抗依赖冲突的定性主题和收件箱@jehyeoky248中，LangChain对LangSmith Sandboxes GA @LangChain的推动，以及对deepagents的较新轻量级代码解释器支持中，

作为纯工具执行和完整沙箱之间的中间地带@sydneyrunkle，@hwchase17。在检索/搜索基础上，Perplexity描述了一个生产化的查询感知、引用保留上下文压缩系统，该系统将上下文标记削减高达70%，同时提高了答案q

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读