[AINews]所有模型实验室现在都是代理实验室
[AINews]所有模型实验室现在都是代理实验室安静的一天让我们将一些引言联系在一起,因为所有模型实验室都变成了代理实验室在OpenAI下周可能提交IPO之前,Greg发表了一系列评论中的最新言论,其中模型实验室越来越多地将Agents作为产品:
这句话是立场的一个重大转变--任何在Team Big Model工作的人都一致持有,包括他之前的OpenAI Labs负责人:随着AI 21模型团队的关闭,该团队现在转向代理商:甚至连备受尊敬的DeepSeek现在也首次组建了一个“Inbox团队”:
“系统优先于模型”的人们将以此作为对他们一直以来所说内容的验证点.除了与安全带联合训练的模型确实为进一步关闭对模型的访问打开了大门的细微差别-如果您可以有效地对模型进行后训练,
使其仅与闭源代理一起有意义地执行,然后您可以将大多数用户输送给您的代理,而牺牲您的模型/API合作竞争。但这是一个更大讨论的话题..人工智能新闻2026年4月5日-2026年5月5日。
我们检查了12个subreddits、544个Twitter用户,没有进一步的Discords。AINews的网站允许您搜索所有过去的问题。提醒您的是,AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率!
人工智能Twitter回顾代理产品、安全带和超越“只是模型”的转变产品表面正在向上发展:一个反复出现的主题是模型质量不再是护城河;获胜的产品越来越多地是模型+工具+工作流程+ UI +内存+经济性。
@gDB直言不讳地说:“模型本身不再是产品”,而@dzhng则认为顶级产品需要模型<>利用<>产品共生。
同样的模式出现在实践中:@ Signullll将环境人工智能和代理人工智能框架为计算界面的新接缝,@ marks taxesTex指出,利用研究仍然有可能会集中在“复制克劳德代码”上,而不是探索更广泛的界面。
编码代理产品差异化正在变得具体:OpenAI通过“codeex星期四第6号”发布了另一项重大Codex更新,其中包括应用程序快照、/目标改进、锁定时远程计算机使用、注释模式、插件共享和分析。
@gDB单独强调了Appshots,而用户则报告了有意义的工作流程变化:@gDB表示很难记住Codex之前的编码,而@reach_VB表示他们已经一个多月没有打开IDE了。
但产品的粗糙边缘仍然存在:@theo称赞T3 Code的远程功能领先于替代方案,然后在后续帖子中将其与Codex中存在缺陷的远程工作流程进行了对比。在克劳德方面,@ClaudeDevs将自动模式扩展到Pro计划,并添加了Sonnet 4。
6支持;@_mohansolo还必须澄清和修补反重力2中的IDE支持。
用户反冲后为0。模型性能、成本曲线和前沿竞争DeepSeek的定价举措是最大的市场信号:@deepseek_ai将75%的DeepSeek-V4-Pro折扣永久化,引发了强烈的反应,因为它实质性地改变了成本/性能边界。
@ marticialAnlys将第一方定价量化为0美元。435/M输入,0美元。87/M产量,0美元。0036/M缓存输入,估计混合约0美元。18/M,并将V4 Pro置于帕累托前沿,以提高智能与运行成本。
他们估计在V4 Pro上运行情报指数的成本比Gemini 3低约3倍。1 Pro预览版,比GPT-5低约12倍。5,比克劳德作品4少约19倍。7.正如@scaling01所说,社区的反应集中在DeepSeek推动“情报太便宜而无法计量”上。
@Yuchenj_UW和@kimmonismus都强调了削减的幅度。Gemini Flash有所改进,但使用反馈褒贬不一:@ DeliveralLoganK报告Gemini 3。5 Flash比3取得重大进展。
1 Pro在GDPval上声称Flash现在“处于前沿竞争”,@Designarena将其在Design Arena上的总体排名第16位,比Gemini 3 Flash Preview跃升了16位。
但一些开发商对实用性与基准收益进行了反驳:@Alezander907在更高的成本下只看到了浏览器代理的轻微改进,@giffmana认为,如果该品牌仍然暗示廉价,这就不是“Flash进步”,而@jeremyphoward表示,
该模型感觉被优化为最大限度地提高evals而不是与人类合作。
这与@HamelHusain更广泛的评估怀疑论一致,他认为当前的工具低估了定性的HITL判断。Qwen和中国前沿模型不断压缩比赛:@Alibaba_Qwen官方预告片和@ZhihuFrontier的长篇第三方评论描绘了Qwen 3。
7-Max是一个有意义的进步,特别是在指令遵循、上下文可靠性和稳定性方面,同时仍然受到冗长和高代币使用率的困扰。在其他地方,@scaling01声称最近的ALE-Bench跑步展示了Kimi-K2等中国模特。
6、DeepSeek-V4、GLM-5。1在该环境下的表现优于几部西方版本。@ JournicialAnlys还报道了Cursor Composer 2。5比Opus 4便宜3- 18倍。比GPT-5便宜7倍和5- 32倍。
Coding Agent基准测试为5,代币使用率明显较低。
协议、基础设施和代理收件箱工具HCP的新候选版本是一个实质性的协议简化:@ dp_宣布了HCP 2026-07-28发布候选版本,关键变化是该协议现在是无状态的:没有握手、没有会话ID,并且任何请求都可以击中任何服务器实例。
RC还引入了一流的扩展,例如HCP Apps和Tasks,以及身份验证强化和更明确的弃用政策。对于基础设施团队来说,无状态是一个重大的运营转变:更容易扩展、更简单的负载平衡、更少的粘性会话问题。
沙盒和托管执行正在成为一流的原始语言:@_philschmid演示了Gemini托管代理+交互API,为代理提供一个具有内存和代码执行的安全托管Linux沙盒。
@CoreWeave在公共预览版中推出了CoreWeave Sandbox,用于RL、代理工具使用和模型评估,而@cnakazawa发布了Cloudsail,用于按任务Cloudflare沙箱,具有Shell、Codex和GitHub访问权限,无需暴露令牌。
在编排层,@skypilot_org认为RL不适用于Slurm,因为现代RL是一个具有不同硬件和恢复需求的多服务系统。开源网络和内存层正在激增:@NVIDIAAI开源AI-Q代理技能,用于可插入任意网络的便携式深度研究管道。
@Teknium在Hermes中添加了Bitwarden对密钥管理的支持,并随后恢复了Grok Build v0的256 K上下文。1在爱马仕这里。@shannholmberg描述了爱马仕代理下的共享内存“gBrain”层,其中包含打字文件夹和专业代理的优先读访问权限。
@aakashadesara更新了CTOP,以支持Devin和CLI来列出、搜索和杀死代理会话。研究:RL,蒸馏,架构和评估RL后训练和奖励设计正在积极反思中:@RyanBoldi引入了向量策略优化(VPO),认为RL期间的标量奖励崩溃可能会破坏测试时间缩放。
相反,VPO优化了载体值奖励,即使在原始的纯量目标上也能提高搜索性能。@lateinteraction将其定义为针对更多样化的环境和目标培训法学硕士的一种方式,而@FeiziSoheil将其与更广泛的结构化反馈而不是单一奖励数字的举措联系起来。
另外,@jsuarez介绍了一种解决长期存在的RL问题的方法,涉及极端稀疏性,最初的扫描显示SOTA在一个内部环境上。
代理编译/蒸馏正在成为一个严肃的经济理念:@dair_ai强调了一篇论文,展示了完整的代理工作流程--多步骤调用、工具使用、便笺簿、决策结构--可以蒸馏成权重并以约100倍的低推理成本运行,同时保持近前沿的质量。
这是将昂贵的运行时代理循环编译成更便宜的可部署模型的最清晰的技术论据之一。建筑工作保持活力超越香草transs