AI基础设施新晋百亿独角兽：Fireworks、Baseten，OpenRouter紧随其后

Latent Space (Swyx)·大约 2 个月前·约 8 分钟阅读

[AINews]新人工智能Infra decacorns：烟花、Baseten（OpenRouter即将推出）这是资金新闻，但也是好消息。参加2026年人工智能工程调查，即可获得超过2，000美元的积分和AIE WF门票！

读者喜欢我们没有报道新闻，但我们第二喜欢的是我们可以简单地强化您应该注意的趋势。四月份，我们强调了推理变形，如果今天的标题让您想起上周的标题，那么这正是我们要表达的观点。

随着如今人工智能融资的步伐，我们的总体政策是仅在跨越十角兽地位（> 10亿美元）时覆盖初创公司-但仅在确认的情况下，以及今天的烟花15亿美元轮融资的消息（“正在谈判”，3. 7个月内75倍，我们的播客在这里）和Baseten的110亿美元轮（“正在筹集”，

2. 3个月内2x）有点为时过早，但推理大陆和独角兽到十角兽的发展速度太多了，不能不成为今天的头条新闻，价值1.13亿美元的OpenRouter Series C（6个月内5倍产量）是最重要的：如果你要进行多模型推理，你需要一个路由器。

人工智能新闻2026年5月23日至2026年5月26日。我们检查了12个subreddits、544个Twitter用户，没有进一步的Discords。AINews的网站允许您搜索所有过去的问题。

提醒您的是，AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率！

人工智能Twitter回顾代理背带、编码基准以及超越“只是模型”的转变收件箱工程正在成为编码代理的主要区别：几篇文章集中在同一个论点上：获胜的堆栈现在是模型+利用+评估循环，而不仅仅是更强大的基础模型。

智虎的一份长篇摘要认为，DeepSeek正在明确建立一个工具团队，以闭合模型输出、运行时反馈、验证和纠正之间的循环，声称具有缓存输入成本优势，可以支持更紧密的交互/验证循环。

与此同时，Google的Gemini托管代理将基础设施代理引导为对具有沙箱、持久性和装载的托管工具的单个API调用，同时LangChain进行了更新创建_代理文件和乳制品。ai的“利用”论文摘要正式化了相同的堆栈：上下文治理、可信内存、动态技能路由。

基准越来越接近真实的开发人员体验：DeepSWE作为代理编码的新基准而推出，得到了从业者的强烈认可;@theo称其为“第一个真正符合使用这些模型编码感觉的代码平台”。“它还在高端造成了比公共SWE排行榜通常显示的更多的分离。

相关基准信号：Qwen 3. 7 Max在Code Arena：Frontend上首次亮相，排名第四，大致与Claude Opus 4持平。6关于代理网络开发任务，阿里巴巴放大了结果。

在整个工具堆栈中，Anthropic为Claude Code推出了一个安全指导插件，并报告内部使用中与安全相关的公关评论减少了30-40%，而OpenAI则强调了GPT-5。数据库的Codex中的5个，以实现更可靠的文档解析。

研究代理、长视野推理和上下文压缩的“睡眠”数学/科学代理人表现出更多能力过剩的证据--前提是正确的利用：最强的推文集群围绕着解决旧的开放问题的模型。

一位数学家报告克劳德·迈索斯（Claude Mythos）解决了Erdspel的问题#90，后续细节表明，该模型通常会收敛到与OpenAI早期路线不同、更清晰的证明路径。

这一点得到了@_sholtodouspel、@kimmonismus的回应，然后又被Sébastien Bubeck尖锐化：使用适当的背带，Mythos和GPT-5。5可以复制内部模型一次性完成的事情，这意味着大量潜在能力没有被vanilla chat UX暴露。

长期记忆作为核心瓶颈重新浮出水面：《语言模型需要睡眠》论文引起了人们的关注。该机制是一个类似于睡眠的整合阶段，在清除KV缓存之前，最近的上下文被转换为持久的快速权重，将计算移至离线传递，同时保留唤醒时间延迟。

牛奶。ai的总结强调了系统角度：对于具有长轨迹的代理来说，这是不断增长的KV缓存的替代方案。

这个主题与正在进行的有关特工记忆系统的讨论紧密相连，包括奥马尔指向Anthropic的记忆谈话和Dream功能的指针。开放式深度研究代理和科学预测也取得了进展：QUEST是一个开放式2B-35 B模型系列，用于长期事实寻求、引用基础和报告合成，作为通用深度研究代理发布。

在科学评估方面，Sakana/Stanford/Oxford/AI 2的CUSP基准发现，当前的模型通常可以确定有前途的研究方向，但在是否以及何时实现突破方面面临着更大的困难。

模型、优化器和体系结构更新优化器的工作仍然活跃，尤其是围绕Muon变体和无时间表训练：AMUSE提出了具有稳定梯度评估的Anytime Muon，将Muon与无时间表风格的梯度评估相结合，以实现随时稳定的训练，而不会出现LR衰退，

报告124 M/720 M/ 1B规模和ViT/ImageNet微调的收益。相关实现讨论来自ClashLuke的SFMuon片段和kellerjordan在Newton-Muon上的Modded-NanoGPT结果。

稀疏注意力设计空间继续多元化：MiniMax嘲笑M3是开源的，后续技术评论建议了一种新的块稀疏两阶段注意力路径。@kimmonismus总结了报告的加速：9。7倍预填充和15. 6倍以1 M代币进行解码，而以M2进行解码。

@eliebakouch补充说，M3似乎回到了基于GQA的稀疏注意力，并在真实KV上进行块选择，与DeepSeek的压缩注意力变体不同。

Vision/开放模型发布和排名更新：PrismML发布了Bonsai Image 4 B，包括旨在在笔记本电脑和手机上本地运行的1位和三进制变体;后续报告指出，浏览器本地执行的空间约为3GB。

封闭面是微软的MAI-Image-2。5在Image Arena上首次亮相，排名第三，打破了之前由OpenAI和Google主导的前五俱乐部，Arena的得分为1，254分。与此同时，人工分析测量了双子座3号。

5 Flash的输出toks/s可达约280，代理性能明显更强，但成本约为Gemini 3 Flash的5倍。

基础设施、系统和半导体堆栈华为的“T标度”论文主要被解读为工程路线图，而不是新法律：一条非常详细的线索认为华为的“多层电子系统的时间标度理论”应该被解释为战略宣言/白皮书。核心提案是将时间常数t（而不是进程节点）视为跨设备、芯片和数据中心扩展的统一指标。

最具体的主张涉及未来Kirin设计的LogicFounding，包括+55%的密度、+41%的能源效率和+13%的固定节点频率，以及统一巴士和Hi-ONE光学I/O等封装/网络想法。

同一线程小心翼翼地指出缺失的验证文物--模具照片、SEMS、工作负载详细信息、产出曲线--并将最引人注目的数字解释为有希望但未经验证。后续反应也强调，华为的道路可能更多地依赖于包装和架构，而不是平板印刷追赶，例如。

G. @josiah_leee引用Jensen的观点，即Hopper-Blackwell的大部分收益来自非节点优化。

数据中心功率和推理电源限制正在成为首要问题：SemiAnalytics发布了关于800 DC过渡的文章，约翰·卡马克（John Carmack）推荐了它，重点介绍了从电动汽车电力电子产品到数据中心设计的交叉，包括高压硅部件。

另外，Epoch AI估计了可能存在的推理计算紧缩：需求的增长速度似乎快于服务容量，尤其是对于长上下文工作负载。他们的粗略模型表明，虽然在有利的假设下，当前的全球布莱克威尔供应可以满足当今的需求，但吞吐量会下降

原文出处

[AINews] New AI Infra decacorns: Fireworks, Baseten (with OpenRouter on the way)

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

AI基础设施新晋百亿独角兽：Fireworks、Baseten，OpenRouter紧随其后

相关阅读

Bluesky AI助手Attie扩展为开放社交研究工具

Midjourney 收购占星社交应用 Co-Star，拓展产品线

硅谷在中国AI开放权重模型问题上严重分裂