微调的终结：OpenAI弃用微调API引发行业反思

Latent Space (Swyx)·2 个月前·约 8 分钟阅读

[AINews] Finetuning的终结安静的一天让我们反思微调何去何从今天专栏文章的主要原因是OpenAI对其微调API的弃用。

多年来，OpenAI因其微调支持而在大型实验室中脱颖而出，许多许多讲座和内容片段以及人工智能工程师宣传如何获得“以4 o价格获得o 1性能”的某种变体，并坚称这是工具包的重要组成部分。

现在潮流已经过去，Anthropic可能会有史以来第一次以高于OpenAI的估值上涨，而Finetuning是2026年Side Quest大屠杀（继Sora之后）的下一个受害者。

如果你假设图形处理器会出现极端的紧缩，那是有道理的，但即使没有显着的计算限制，人工智能工程行业的80%也可能会出现这种趋势，杰里米·霍华德（Jeremy Howard）早在2023年就在豆荚中指出了这一点。

对于大多数人来说，一件事的“结束”并不意味着一件事时期的“结束”--事实上，顶级公司，例如Cursor和Cognition（其250亿美元的一轮融资现在正在公开讨论），开放模型WLFT和使用量都有所增加，而不是减少。

开放模型微调也可能是自定义ASIC论文的核心，但如果Taalas的模型和持续的P/D分解推理解决方案有任何迹象，那么也许Just Very Long Predicts（例如Claude的宪法）就是您所需要的一切.人工智能新闻2026年11月5日至2026年12月5日。

我们检查了12个subreddits、544个Twitter用户，没有进一步的Discords。

AINews的网站允许您搜索所有过去的问题。提醒您的是，AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率！

人工智能Twitter回顾研究基准、硬评估和统计科学系统研究级推理基准越来越难：Soohak引入了由64名数学家（包括38名教师）从头开始编写的439个研究级数学问题，明确针对高于标准奥林匹克风格数学的能力。

在医学评估方面，@SophontAI发布了Medmarks v1。0，扩展其开放医疗基准套件，从20 - 30基准和46 - 61型号。人们越来越多地认为旧的评估正在饱和：@polynoamial认为，得分一致较高的基准应该退役，转而采用得分较低、挑战前沿的测试。

统计系统开始突破科学和数学领域的基准前沿：Google DeepMind的人工智能联合数学家被描述为数学家的一个同步、有状态的研究工作台，据报道，FrontierMath Tier 4上的这一比例达到了48%，同时支持构思、文献发现、计算分析、定理验证和正式输出。

在理论物理学中，物理实习生助推双子座3号。1 Pro来自17。7%对31。通过分解为专门的试剂，CritPt4%。在编码/程序合成方面，据报道ProgramBench的第一个任务已由GPT-5解决。

5高/xhigh，xhigh表现优于Opus 4。跨指标7 x高。

检索和搜索基准正在奖励小型、专门的模型：LightOn的Agent-ModernColBERT比BrowseComp-Plus上的Reason-ModernColBERT额外堆叠约10%，同时将检索器保持在1.49 M个参数，

声称与生成器配对时匹配或超过更大的基于模型的系统。@xuzihuan4的相关讨论询问，当代理可以迭代地细化自己的查询时，词汇检索是否可以满足代理搜索循环。训练、优化和缩放定律技术优化器工作继续压缩培训成本并改进小规模实验：几条推文集中在肥皂/Muon风格更新的快速变体上。

@torchcompiled将Tangent-Step + Stiefel管汇回缩应用于肥皂基础更新，并后续讨论漂移检查和QR回退以实现稳定性。

在Modded-NanoGPT社区中，SOAP-Muon创下了3150步（-60）的新纪录，而NorMuonH上的早期MuLoCo式外部Nesterov Singapore包裹也改善了结果，两者都得到了p值报告的支持。

形式方法和超级优化开始与ML系统工作融合：@leloykun描述了一个Lean 4-to-TilLang张量程序超级优化器，它可以自动发现Flash Attention 2、Flash Norm和split-k matmul等内核，报告大约为1。

A100上的8倍几何加速。同一框架用于联合搜索内核、优化器、超参数传输规则和缩放定律。

缩放定律和训练指标正在重新审查：@che_shr_cat认为经典的“每个参数20个令牌”框架依赖于令牌化器，并且缩放应该以字节而不是令牌来衡量。另外，@JJitsev强调，规定性缩放定律不仅对于预测很有价值，而且可以作为比较跨规模学习过程的系统基础。

仅限训练时间的效率技巧变得越来越有趣：来自Nous的Lighthouse Attention被强调为围绕香草注意力的次二次训练包装，可以在恢复阶段后在训练结束时删除，保留标准的部署时推断，同时减少长上下文预训练成本。

本着类似的精神，Prime Intelligence的Renderers解决了RL训练器和代理环境之间的令牌/消息阻抗不匹配问题，声称流行开放模型的吞吐量超过3倍。

推理系统、服务栈和数据库基础设施Blackwell机架正在成为大型教育部服务的参考平台：Perplexity发布了在NVIDIA GB 200 NVL 72系统上提供后训练Qwen 3 235 B的详细信息，认为GB 200是大型教育部比Hopper更重要的推理步骤。

他们的基准测试引用NVLS完全降低了延迟，从586下降。H200至313时为1µs。GB 200上的3µs和MoE预填充在EP=4时从730下降时结合在一起。1µs至438。5µs，在高令牌速率下具有更好的解码吞吐量。

@AravSrinivas将其描述为为大型教育部服务的预填充/解码分解带来了重大改变。推理编排日益专业化，而不仅仅是“Kubernetes”：Modal认为推理需要一个专用的堆栈，并引用了计算管理、云原生缓存、CRIU和图形处理器检查点方面的工作。

这一定位立即得到了Perceptron的现实支持，Perceptron表示所有Mk 1推理都在Modal上运行，因为原生视频、结构化输出和混合推理会产生不寻常的冷启动和扩展要求。

OSS推理经济学继续快速改善：SemiAnalysis报告称，在RoCEv 2 CX-7上聚集多台B200 8-GPU机器，并通过PD分解可以将每个GDP-Token吞吐量提高高达7倍，这意味着每个代币的成本可相当地降低。

在载体DB端，Qdrant 1。18添加了TurboQuant，声称具有接近纯量量化的召回能力，内存减少2倍，以及内存监控和命名载体生命周期操作。

代理运行时正在成为类似版本控制的底层：斯坦福大学的Shepherd是一个杰出的系统想法，由@ai_satoru_chan总结，它更像Git对待代理执行：一流的任务、效果、范围和跟踪;精确的重播;

分支;回滚;以及精益中的形式保证。声称的结果包括CooperBench的现场监督从28开始增长。8%→54。7%，加上更快的反事实优化和树RL推出。

产品和型号发布：多模式、视频、检索和嵌入Perceptron Mk 1是该系列中最实质性的新模型发布：@ perceptron Mk 1作为前沿视频和体现推理的模型推出，具有高达2 FPS的原生视频支持、时间基础、多模式上下文学习和结构化空间输出。

OpenRouter的摘要指出了32 k多模式上下文和一流的输出，例如点、框、多边形和剪辑。该版本与其说是通用的VLM，不如说是物理世界推理堆栈。

Google和Meta都推出了多模式交互层，而不是独立的模型规格：Google DeepMind的支持人工智能的鼠标指针演示将鼠标重新构想为上下文指向界面

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读