Codex崛起，Claude计量程序化使用

Latent Space (Swyx)·2 个月前·约 8 分钟阅读

[AINews] Codex Rises、Claude Meters程序化使用安静的一天让我们报告主要编码代理的长期趋势自GPT 5推出以来，这是过去3周两座城市的故事。5;

虽然金融界人士在Anthropic可能于10月首次公开募股之前爱上了其增长和首席财务官，但人工智能工程师中支持Codex的情绪显着上升，这可能是GPT 5的结合。

5是一个非常好的（在某些情况下是神话级别的）模型，推出了Everything Else Codex，第三件事，这是今天专栏的触发因素：更慷慨的限制。

Claude定价变化的信息总体上做得很好，这根本不是替代安全带的用途想要听到的：每个Claude订阅现在每月都会获得相当于Claude订阅计划金额的API代币积分。

因此，您支付200美元，即可获得Claude订阅，但对于在Claude等人类拥有的安全带上使用Claude有自己的限制。

ai和Claude Code（“交互式使用”），以及在其他地方（包括claude-p）使用Claude的价值200美元的API积分、OpenClaw等（“编程使用”）。

如果事情从一开始就这样运作，这将被视为一笔非常好的交易：然而，由于历史上的补贴/定价优势（估计API定价的70-90%折扣），人们将其视为各种各样的“地毯拉”-然而，有一个官方政策是很好的，而不是选择性地针对OpenClaw，

OpenCode和不太受欢迎的线束的不确定状态。

这些头条新闻出现在OpenAI推出企业交换机宣传的同一天，这是一个令人难以置信的巧合：在一天结束的时候，我们会警告不要对任何一种方式的波动进行过多的解读-这两个实验室都做得很好，这些都是人们发明编码未来的正常定价变化的宏伟计划，

同时在他们动摇一个几十年的行业时找出最佳定价。Anthropic一开始更加自由，但现在Claude Code拥有了可持续的品牌和作为代理工具的影响力，Anthropic正在将其最优惠的定价放在自己的工具后面，并对其他一切进行计量，而Codex作为挑战者对一切都更加自由。

也许硬件就是命运，也许这是“强制分”更长的6个月交替周期的一部分：人工智能新闻2026年12月5日至2026年13月5日。我们检查了12个subreddits、544个Twitter用户，没有进一步的Discords。

AINews的网站允许您搜索所有过去的问题。提醒您的是，AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率！

人工智能Twitter回顾代理基础设施、装备和开发人员平台Cline、LangChain、Notion和Cursor都深入推进了代理平台领域：Cline开源了重建的Cline SDK和更新的CLI，其中包含TUI、代理团队、预定作业和连接器，

将其工具定位为自定义编码代理的可重复使用的底层。LangChain在NPS交付了大量代理生命周期基础设施：LangSmith Engine、SmithDB、Sandbox、托管深度代理、LLM Gateway、上下文中心和深度代理0。

6.技术上最引人注目的是SmithDB，这是一个专门构建的可观察性数据库，用于嵌套、长时间运行的跟踪，具有大负载，据报道，可以提高对关键工作负载的访问速度12-15倍;该团队表示，它是在Apache DataFusion和Vortex之上构建的。

与此同时，Notion的外部代理API允许Claude、Codex、Cursor、Decagon、Warp和Devin等第三方代理在Notion内部直接作为共享、可审查的上下文层而不是另一个筒仓运行。

Cursor扩展了云代理，具有完全配置的开发环境，包括克隆的repos、依赖项、版本历史记录、回滚、范围出口和隔离的秘密。Agent UX越来越关注长期运行的状态、流媒体和编排，而不是聊天：几次发布都集中在同一设计方向上。

Duet Agent为持续数周或数月的作业提出了一种状态机工具，其中父/子代理协调和内存取代压缩。

LangChain的OSS更新增加了流式类型投影，检查点存储，代码解释器，线束配置文件和模型特定的调整，所有这些都旨在比普通令牌更丰富的代理事件流。Tabracadabra从自动完成转移到任何文本框中的上下文感知助手，而VS Code引入了代理窗口和更好的多项目任务审查。

这些版本的架构信息是，生产代理越来越需要持久执行、可检查的中间状态和工具原生的UI界面，而不是无状态的提示/响应循环。

模型训练、架构和数据效率预训练效率和架构实验是最强的研究主线：Nous Research的代币叠加训练修改了预训练的早期阶段，以便模型在恢复到标准的下一个代币预测之前读取/预测连续的代币袋;

他们报告了匹配的FLOP处2-3倍的时钟加速，没有任何推断时间架构变化，验证范围为270 M到3B密集和10 B-A1 B MoE。

Jonas Geiping等人认为，当前的基于消息的/聊天训练将代理过度限制在单一流，并发布了一篇多流LLM论文，声称延迟更低、关注点分离更清晰以及并行推理/工具使用更清晰;论文和代码在这里链接。

δ-RST提出了一种连接到冻结的全注意力主干上的外部在线联想记忆，据报道，8 x 8的状态可以将平均得分提高1分。10倍，比非δ-RST基线高1倍。15倍，在内存较多的基准上获得更大的收益。

后训练/压缩和数据策展也产生了显着的结果：英伟达的Star Elastic声称，一次训练后运行可以推导出推理模型大小家族，成本比预训练家族低360倍，比SOTA压缩高7倍。

Siddharth Joshi和Pratyush Maini强调了Datology的VLM工作，认为仅数据策展就可以产生重大的多模式收益：+11。20个公共VLM基准测试7分，评分为2B，击败InternVL 3。

5-2B在训练计算减少约17倍的情况下提高了大约10分，而接近前沿的4 B性能为3。响应FLOP比Qwen 3-BL-4 B低3倍。

在开放数据方面，Percy Liang表示，下一次Marin运行已经包含18 T代币，并且仍在寻求更多训练前、训练中和SFT数据，并在此处分享了一个配套的代币查看器。

开放评估和数据集工作随着模型构建而日益成熟：Kevin Li的SWE-ZERO-12 M轨迹被定位为最大的开放代理痕迹数据集：112 B代币、12 M轨迹、122 K PR、3 K repos、16种语言。

维克多·穆斯塔（Victor Mustar）将美洲驼视为迈向更具可比性的美洲驼的一步。cpp社区评估。

与此同时，Steve Rabinovich和Sayash Kapoor认为，可信的代理评估需要日志分析，而不是仅结果的指标，因为更强大的代理会暴露隐藏的基准错误和奖励黑客路径。

企业人工智能定价、平台竞争和分销Anthropic与OpenAI围绕企业分发和开发者锁定的竞争加剧：Andrew Curran引用的Ramp数据显示Anthropic为34岁。4%的企业与OpenAI为32。

4月份为3%，这是业务采用率的首次明显领先变化;The Rundown放大了同样的数字。

与此同时，Anthropic改变了计划经济学：ClaudeDevs宣布，付费Claude计划将获得专门的每月积分，用于整个Agent SDK的编程使用，克劳德-p、GitHub Action和第三方SDK应用程序。

这立即被电力用户解读为对订阅补贴安全带的重大限制，西奥、杰里米·霍华德、马特·波科克和奥马尔·桑塞维耶罗对此提出了批评。Anthropic在7月13日之前将Claude Code每周限额单独提高50%，部分抵消了这种强烈反对，叠加在之前宣布的2 x 5小时的基础上

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读