AI Infra新独角兽：Exa、Modal、TurboPuffer

Latent Space (Swyx)·2 个月前·Latent.Space·约 8 分钟阅读

[AINews]新人工智能Infra独角兽：Exa、Modal、TurboPuffer安静的一天让我们举办筹款活动！参加2026年人工智能工程调查，即可获得超过2，000美元的积分和AIE WF门票！

祝贺本周取得重大里程碑的所有过去嘉宾：Turbopuffer：ARR 1亿美元且盈利（我们的播客）Exa：$250 M@$2。2B系列C（我们的播客）Modal：$355 M@$4。7 B系列C（我们的播客）我们确实需要尽快筹集潜在空间基金……但与此同时。

.通过参加2026年人工智能工程调查并获得超过2，000美元的Notion和Vercel积分以及AIE WF门票来帮助我们！人工智能新闻2026年5月20日至2026年5月21日。

我们检查了12个subreddits、544个Twitter用户，没有进一步的Discords。AINews的网站允许您搜索所有过去的问题。提醒您的是，AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率！

人工智能Twitter回顾模型、基准和研究更新：RAEv 2、Gated DeltaNet-2、数据过滤和开放数学RAEv 2和代表优先标记化：一些研究人员强调RAEv 2是代表自动编码器的有意义的后续产品，用于统一视觉理解和生成。

@1jaskiratsingh表示，此次更新的收敛速度超过10倍，重建速度更快，生成速度更好，测试扩展到文本到图像和世界模型。

@ reccat的中文摘要有效地提取了三个主要发现：对最后K个编码器层进行汇总，而不是仅对最后一层进行汇总，可以在不增加推理成本的情况下改善重建和生成;RAE和REPA在语义与空间结构上是互补的;

REPA可以重新制定为内部自我引导机制，避免额外的弱模型引导传递。@sainingxi ' e还指出了DID以外的新评估观点，认为代表驱动的像素解码器中仍然存在未充分探索的空间。

标准注意力和代币化器假设的替代方案：NVIDIA的Gated Delta Net-2将线性注意力中的擦除和写入操作与通道级门分开，性能优于KDA和Mamba-3，为1。语言建模和常识推理的3B参数，在RULER上具有显着的长上下文检索收益;

@rasbt称其为更有趣的混合注意力方向之一。在标记化方面，@NousResearch发布了一项对照研究，探讨子词标记化为何有帮助，模拟了1中的七个假设好处。7 B字节级管道;只有七种干预措施中的三种以该规模转移了验证损失。

另外，@tatsu_hashimoto在DCLM上报告了一个令人惊讶的扩展结果：在足够的计算下，最好的数据过滤器可能是没有过滤器，预测表明互联网规模池的交叉在1 e30 FLOP左右;下游evals看起来很吵，但方向一致（后续）。

机械可解释性和几何学：@GoodfireAI认为，主导的“模型在曲线形管汇中思考，SAS使用直线特征”批评只是部分正确的。他们提出的解决方案是通过联合激发模式对严重不良事件特征进行聚集，通过特征组而不是孤立的原子（线程延续、后置）恢复几何形状。

这是对当前严重不良事件讨论的有用更新：不是拒绝稀疏特征，而是警告解释应该从单一特征转向结构化集合。数学作为人工智能研究领域：最大的科学讨论集中在OpenAI关于Erdspel单位距离问题的报告结果上。

@markchen90将其视为数学是目前最适合人工智能辅助研究突破的领域的证据，而@wtgowers指出，如果报道的低人际互动水平保持不变，那么结果确实很有趣。

这场讨论立即受到怀疑主义和基准/游戏性担忧的影响，@memecrashes开玩笑说，结果“在人类不到三个小时后就过时了”，而@cloneofsimo则指出了可预测的“门柱移动”。合法的人工智能数学。

有趣的技术元点是，数学仍然是人工智能共同研究的一个相对清晰的前沿，因为输出可以被检查、辩论和扩展。

代理、背带和开发人员工具：Codex、Gemini、Devin和代理基础设施背带仍然是能力提升的主要来源：@lvwerra发布了物理实习生，这是一种科学问题背带，可以增强像双子座3这样的模型。

1 Pro来自17。7比31。4、超过GPT 5。5 Pro在该设置中。值得注意的细微差别是GPT 5. 5 Pro本身并没有从该背带中受益，这表明特定型号吸收了脚手架技巧。

本着同样的精神，@KLieret使迷你swe-Agent可以在ProgramBench上运行，明确旨在改善围绕软件工程代理的创新。

代理设计模式正在从“单代理优先”成熟到显式子代理编排：@ cwolferearch给出了一个实用的综合：从单代理系统开始，只有当工具蔓延或提示膨胀变得难以管理时，才会转向管理器/子代理或去中心化多代理布局。

该建议与子代理用户的更多操作观察一致：@andrew_loce将Cognition的子德文工作流程描述为一个步骤，将之前看起来2+工程师周的时间压缩为几个小时。

Codex在该模型的基础上交付了大量的产品层：OpenAI的“Codex Thursday”更新与其说是独立功能，不如说是编码代理走向何方的标志。

@OpenAIDevs推出了Appshots，可以从Mac应用程序窗口捕获屏幕截图和文本，以获得更丰富的工作上下文;他们还添加了团队插件共享（链接）和更详细的组织分析（链接）。

更重要的系统转变是远程计算机用途：@OpenAIDevs表示，Codex现在可以通过手机安全地使用Mac上的应用程序，即使Mac已锁定。这是一个强烈的信号，表明代理产品表面正在从聊天IDE转向持久的跨设备操作员工作流程。

双子座的代理/工具故事正在迅速扩大：@ DeliveralLoganK强调双子座3。5 Flash在APEX-Agents-AA上排名第一，表现优于大型型号。

在应用端，@_philschmid展示了一个GitHub问题分类代理，该代理由单个Gemini API调用构建，没有编排框架，而@ skalskip 92展示了Gemini 3。5 Flash用一个多模式API调用取代用于车道/汽车推理的自定义视觉管道。

谷歌还扩展了操作界面：Daily Brief（公告）和OpenTable、Canva和Instacart（公告）的连接应用程序操作本质上是面向消费者的代理工作流程。

开发人员基础设施正在围绕检索、流媒体、沙箱和安全边界进行融合：Weaviate在数据库内运送了内置的LCP服务器，以便编码代理可以吸收仓库并使用混合BM 25+载体检索，而无需额外的流程（公告）。

LangChain引入了一个沙盒Auth Proxy来控制代理世界边界（公告）和一个新的类型化流协议，用于渲染工具，子代理，媒体和中断作为第一类投影而不是令牌流（概述）。

vLLM的Elastic Expert并行主义也是一项值得注意的系统工作：@vllm_Project描述了无需完全重新启动、使用NVLink/RDX上的直接GPU-to-GDPJ传输的MoE DP/EP拓扑的实时并行操作-不仅对于扩展很重要，

而且对于未来的故障服务也很重要。

基础设施、计算和人工智能业务信号：Modal、Turbopuffer、Hark和计算竞赛基础设施层经历了最明确的“这就是钱在哪里”的日子之一：@ Siirupsen表示，turbopuffer在3月份的运行利率突破了1亿美元，距离100万美元仅19个月，

同时盈利并筹集了不到100万美元。该公司的定位是直接和及时的：前沿团队知道“当人工智能在正确的环境中发挥作用时，它会发生魔力”，这将许多产品差异化转化为搜索/检索问题。这与@swyx更广泛的观点一致，即“无聊”的人工智能基础设施，而不仅仅是迷人的前沿

原文出处

[AINews] New AI Infra unicorns: Exa, Modal, TurboPuffer

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

AI Infra新独角兽：Exa、Modal、TurboPuffer

相关阅读

Midjourney 收购占星社交应用 Co-Star，拓展产品线

硅谷在中国AI开放权重模型问题上严重分裂

美国科学的技术化：特朗普政府以AI重塑科研体系