AI 见闻

[AINews]新人工智能Infra decacorns:烟花、Baseten(OpenRouter即将推出)

Latent Space (Swyx)··约 8 分钟阅读

[AINews]新人工智能Infra decacorns:烟花、Baseten(OpenRouter即将推出)这是资金新闻,但也是好消息。参加2026年人工智能工程调查,即可获得超过2,000美元的积分和AIE WF门票!

读者喜欢我们没有报道新闻,但我们第二喜欢的是我们可以简单地强化您应该注意的趋势。四月份,我们强调了推理变形,如果今天的标题让您想起上周的标题,那么这正是我们要表达的观点。

随着如今人工智能融资的步伐,我们的总体政策是仅在跨越十角兽地位(> 10亿美元)时覆盖初创公司-但仅在确认的情况下,以及今天的烟花15亿美元轮融资的消息(“正在谈判”,3. 7个月内75倍,我们的播客在这里)和Baseten的110亿美元轮(“正在筹集”,

2. 3个月内2x)有点为时过早,但推理大陆和独角兽到十角兽的发展速度太多了,不能不成为今天的头条新闻,价值1.13亿美元的OpenRouter Series C(6个月内5倍产量)是最重要的:如果你要进行多模型推理,你需要一个路由器。

人工智能新闻2026年5月23日至2026年5月26日。我们检查了12个subreddits、544个Twitter用户,没有进一步的Discords。AINews的网站允许您搜索所有过去的问题。

提醒您的是,AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率!

人工智能Twitter回顾代理背带、编码基准以及超越“只是模型”的转变收件箱工程正在成为编码代理的主要区别:几篇文章集中在同一个论点上:获胜的堆栈现在是模型+利用+评估循环,而不仅仅是更强大的基础模型。

智虎的一份长篇摘要认为,DeepSeek正在明确建立一个工具团队,以闭合模型输出、运行时反馈、验证和纠正之间的循环,声称具有缓存输入成本优势,可以支持更紧密的交互/验证循环。

与此同时,Google的Gemini托管代理将基础设施代理引导为对具有沙箱、持久性和装载的托管工具的单个API调用,同时LangChain进行了更新创建_代理文件和乳制品。ai的“利用”论文摘要正式化了相同的堆栈:上下文治理、可信内存、动态技能路由。

基准越来越接近真实的开发人员体验:DeepSWE作为代理编码的新基准而推出,得到了从业者的强烈认可;@theo称其为“第一个真正符合使用这些模型编码感觉的代码平台”。“它还在高端造成了比公共SWE排行榜通常显示的更多的分离。

相关基准信号:Qwen 3. 7 Max在Code Arena:Frontend上首次亮相,排名第四,大致与Claude Opus 4持平。6关于代理网络开发任务,阿里巴巴放大了结果。

在整个工具堆栈中,Anthropic为Claude Code推出了一个安全指导插件,并报告内部使用中与安全相关的公关评论减少了30-40%,而OpenAI则强调了GPT-5。数据库的Codex中的5个,以实现更可靠的文档解析。

研究代理、长视野推理和上下文压缩的“睡眠”数学/科学代理人表现出更多能力过剩的证据--前提是正确的利用:最强的推文集群围绕着解决旧的开放问题的模型。

一位数学家报告克劳德·迈索斯(Claude Mythos)解决了Erdspel的问题#90,后续细节表明,该模型通常会收敛到与OpenAI早期路线不同、更清晰的证明路径。

这一点得到了@_sholtodouspel、@kimmonismus的回应,然后又被Sébastien Bubeck尖锐化:使用适当的背带,Mythos和GPT-5。5可以复制内部模型一次性完成的事情,这意味着大量潜在能力没有被vanilla chat UX暴露。

长期记忆作为核心瓶颈重新浮出水面:《语言模型需要睡眠》论文引起了人们的关注。该机制是一个类似于睡眠的整合阶段,在清除KV缓存之前,最近的上下文被转换为持久的快速权重,将计算移至离线传递,同时保留唤醒时间延迟。

牛奶。ai的总结强调了系统角度:对于具有长轨迹的代理来说,这是不断增长的KV缓存的替代方案。

这个主题与正在进行的有关特工记忆系统的讨论紧密相连,包括奥马尔指向Anthropic的记忆谈话和Dream功能的指针。开放式深度研究代理和科学预测也取得了进展:QUEST是一个开放式2B-35 B模型系列,用于长期事实寻求、引用基础和报告合成,作为通用深度研究代理发布。

在科学评估方面,Sakana/Stanford/Oxford/AI 2的CUSP基准发现,当前的模型通常可以确定有前途的研究方向,但在是否以及何时实现突破方面面临着更大的困难。

模型、优化器和体系结构更新优化器的工作仍然活跃,尤其是围绕Muon变体和无时间表训练:AMUSE提出了具有稳定梯度评估的Anytime Muon,将Muon与无时间表风格的梯度评估相结合,以实现随时稳定的训练,而不会出现LR衰退,

报告124 M/720 M/ 1B规模和ViT/ImageNet微调的收益。相关实现讨论来自ClashLuke的SFMuon片段和kellerjordan在Newton-Muon上的Modded-NanoGPT结果。

稀疏注意力设计空间继续多元化:MiniMax嘲笑M3是开源的,后续技术评论建议了一种新的块稀疏两阶段注意力路径。@kimmonismus总结了报告的加速:9。7倍预填充和15. 6倍以1 M代币进行解码,而以M2进行解码。

@eliebakouch补充说,M3似乎回到了基于GQA的稀疏注意力,并在真实KV上进行块选择,与DeepSeek的压缩注意力变体不同。

Vision/开放模型发布和排名更新:PrismML发布了Bonsai Image 4 B,包括旨在在笔记本电脑和手机上本地运行的1位和三进制变体;后续报告指出,浏览器本地执行的空间约为3GB。

封闭面是微软的MAI-Image-2。5在Image Arena上首次亮相,排名第三,打破了之前由OpenAI和Google主导的前五俱乐部,Arena的得分为1,254分。与此同时,人工分析测量了双子座3号。

5 Flash的输出toks/s可达约280,代理性能明显更强,但成本约为Gemini 3 Flash的5倍。

基础设施、系统和半导体堆栈华为的“T标度”论文主要被解读为工程路线图,而不是新法律:一条非常详细的线索认为华为的“多层电子系统的时间标度理论”应该被解释为战略宣言/白皮书。核心提案是将时间常数t(而不是进程节点)视为跨设备、芯片和数据中心扩展的统一指标。

最具体的主张涉及未来Kirin设计的LogicFounding,包括+55%的密度、+41%的能源效率和+13%的固定节点频率,以及统一巴士和Hi-ONE光学I/O等封装/网络想法。

同一线程小心翼翼地指出缺失的验证文物--模具照片、SEMS、工作负载详细信息、产出曲线--并将最引人注目的数字解释为有希望但未经验证。后续反应也强调,华为的道路可能更多地依赖于包装和架构,而不是平板印刷追赶,例如。

G. @josiah_leee引用Jensen的观点,即Hopper-Blackwell的大部分收益来自非节点优化。

数据中心功率和推理电源限制正在成为首要问题:SemiAnalytics发布了关于800 DC过渡的文章,约翰·卡马克(John Carmack)推荐了它,重点介绍了从电动汽车电力电子产品到数据中心设计的交叉,包括高压硅部件。

另外,Epoch AI估计了可能存在的推理计算紧缩:需求的增长速度似乎快于服务容量,尤其是对于长上下文工作负载。他们的粗略模型表明,虽然在有利的假设下,当前的全球布莱克威尔供应可以满足当今的需求,但吞吐量会下降

原文出处
[AINews] New AI Infra decacorns: Fireworks, Baseten (with OpenRouter on the way)

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。