AI 见闻

[AINews] Codex Rises、Claude Meters程序化使用

Latent Space (Swyx)··约 8 分钟阅读

[AINews] Codex Rises、Claude Meters程序化使用安静的一天让我们报告主要编码代理的长期趋势自GPT 5推出以来,这是过去3周两座城市的故事。5;

虽然金融界人士在Anthropic可能于10月首次公开募股之前爱上了其增长和首席财务官,但人工智能工程师中支持Codex的情绪显着上升,这可能是GPT 5的结合。

5是一个非常好的(在某些情况下是神话级别的)模型,推出了Everything Else Codex,第三件事,这是今天专栏的触发因素:更慷慨的限制。

Claude定价变化的信息总体上做得很好,这根本不是替代安全带的用途想要听到的:每个Claude订阅现在每月都会获得相当于Claude订阅计划金额的API代币积分。

因此,您支付200美元,即可获得Claude订阅,但对于在Claude等人类拥有的安全带上使用Claude有自己的限制。

ai和Claude Code(“交互式使用”),以及在其他地方(包括claude-p)使用Claude的价值200美元的API积分、OpenClaw等(“编程使用”)。

如果事情从一开始就这样运作,这将被视为一笔非常好的交易:然而,由于历史上的补贴/定价优势(估计API定价的70-90%折扣),人们将其视为各种各样的“地毯拉”-然而,有一个官方政策是很好的,而不是选择性地针对OpenClaw,

OpenCode和不太受欢迎的线束的不确定状态。

这些头条新闻出现在OpenAI推出企业交换机宣传的同一天,这是一个令人难以置信的巧合:在一天结束的时候,我们会警告不要对任何一种方式的波动进行过多的解读-这两个实验室都做得很好,这些都是人们发明编码未来的正常定价变化的宏伟计划,

同时在他们动摇一个几十年的行业时找出最佳定价。Anthropic一开始更加自由,但现在Claude Code拥有了可持续的品牌和作为代理工具的影响力,Anthropic正在将其最优惠的定价放在自己的工具后面,并对其他一切进行计量,而Codex作为挑战者对一切都更加自由。

也许硬件就是命运,也许这是“强制分”更长的6个月交替周期的一部分:人工智能新闻2026年12月5日至2026年13月5日。我们检查了12个subreddits、544个Twitter用户,没有进一步的Discords。

AINews的网站允许您搜索所有过去的问题。提醒您的是,AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率!

人工智能Twitter回顾代理基础设施、装备和开发人员平台Cline、LangChain、Notion和Cursor都深入推进了代理平台领域:Cline开源了重建的Cline SDK和更新的CLI,其中包含TUI、代理团队、预定作业和连接器,

将其工具定位为自定义编码代理的可重复使用的底层。LangChain在NPS交付了大量代理生命周期基础设施:LangSmith Engine、SmithDB、Sandbox、托管深度代理、LLM Gateway、上下文中心和深度代理0。

6.技术上最引人注目的是SmithDB,这是一个专门构建的可观察性数据库,用于嵌套、长时间运行的跟踪,具有大负载,据报道,可以提高对关键工作负载的访问速度12-15倍;该团队表示,它是在Apache DataFusion和Vortex之上构建的。

与此同时,Notion的外部代理API允许Claude、Codex、Cursor、Decagon、Warp和Devin等第三方代理在Notion内部直接作为共享、可审查的上下文层而不是另一个筒仓运行。

Cursor扩展了云代理,具有完全配置的开发环境,包括克隆的repos、依赖项、版本历史记录、回滚、范围出口和隔离的秘密。Agent UX越来越关注长期运行的状态、流媒体和编排,而不是聊天:几次发布都集中在同一设计方向上。

Duet Agent为持续数周或数月的作业提出了一种状态机工具,其中父/子代理协调和内存取代压缩。

LangChain的OSS更新增加了流式类型投影,检查点存储,代码解释器,线束配置文件和模型特定的调整,所有这些都旨在比普通令牌更丰富的代理事件流。Tabracadabra从自动完成转移到任何文本框中的上下文感知助手,而VS Code引入了代理窗口和更好的多项目任务审查。

这些版本的架构信息是,生产代理越来越需要持久执行、可检查的中间状态和工具原生的UI界面,而不是无状态的提示/响应循环。

模型训练、架构和数据效率预训练效率和架构实验是最强的研究主线:Nous Research的代币叠加训练修改了预训练的早期阶段,以便模型在恢复到标准的下一个代币预测之前读取/预测连续的代币袋;

他们报告了匹配的FLOP处2-3倍的时钟加速,没有任何推断时间架构变化,验证范围为270 M到3B密集和10 B-A1 B MoE。

Jonas Geiping等人认为,当前的基于消息的/聊天训练将代理过度限制在单一流,并发布了一篇多流LLM论文,声称延迟更低、关注点分离更清晰以及并行推理/工具使用更清晰;论文和代码在这里链接。

δ-RST提出了一种连接到冻结的全注意力主干上的外部在线联想记忆,据报道,8 x 8的状态可以将平均得分提高1分。10倍,比非δ-RST基线高1倍。15倍,在内存较多的基准上获得更大的收益。

后训练/压缩和数据策展也产生了显着的结果:英伟达的Star Elastic声称,一次训练后运行可以推导出推理模型大小家族,成本比预训练家族低360倍,比SOTA压缩高7倍。

Siddharth Joshi和Pratyush Maini强调了Datology的VLM工作,认为仅数据策展就可以产生重大的多模式收益:+11。20个公共VLM基准测试7分,评分为2B,击败InternVL 3。

5-2B在训练计算减少约17倍的情况下提高了大约10分,而接近前沿的4 B性能为3。响应FLOP比Qwen 3-BL-4 B低3倍。

在开放数据方面,Percy Liang表示,下一次Marin运行已经包含18 T代币,并且仍在寻求更多训练前、训练中和SFT数据,并在此处分享了一个配套的代币查看器。

开放评估和数据集工作随着模型构建而日益成熟:Kevin Li的SWE-ZERO-12 M轨迹被定位为最大的开放代理痕迹数据集:112 B代币、12 M轨迹、122 K PR、3 K repos、16种语言。

维克多·穆斯塔(Victor Mustar)将美洲驼视为迈向更具可比性的美洲驼的一步。cpp社区评估。

与此同时,Steve Rabinovich和Sayash Kapoor认为,可信的代理评估需要日志分析,而不是仅结果的指标,因为更强大的代理会暴露隐藏的基准错误和奖励黑客路径。

企业人工智能定价、平台竞争和分销Anthropic与OpenAI围绕企业分发和开发者锁定的竞争加剧:Andrew Curran引用的Ramp数据显示Anthropic为34岁。4%的企业与OpenAI为32。

4月份为3%,这是业务采用率的首次明显领先变化;The Rundown放大了同样的数字。

与此同时,Anthropic改变了计划经济学:ClaudeDevs宣布,付费Claude计划将获得专门的每月积分,用于整个Agent SDK的编程使用,克劳德-p、GitHub Action和第三方SDK应用程序。

这立即被电力用户解读为对订阅补贴安全带的重大限制,西奥、杰里米·霍华德、马特·波科克和奥马尔·桑塞维耶罗对此提出了批评。Anthropic在7月13日之前将Claude Code每周限额单独提高50%,部分抵消了这种强烈反对,叠加在之前宣布的2 x 5小时的基础上

原文出处
[AINews] Codex Rises, Claude Meters Programmatic Usage

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。