AI 见闻

[AINews]创始人和前沿部署工程师

Latent Space (Swyx)··约 8 分钟阅读

[AINews]创始人和前沿部署工程师安静的一天让我们强调AIE WF的新焦点大多数人仍在消化昨天发生的大量人类新闻。

我们借此机会为AIE新的前向部署工程师赛道招募世界领先的人工智能FDE,这反映了OpenAI DeployCo和Anthropic DeployCo的类似推动:以及AIE的新Founders计划,我们正在其中进行我们版本的Startup Battlefield,

这是一场由YCombinator的Garry Tan和Howie Lu的1000万美元超级特工比赛主持的竞争性演讲比赛。注册(并预订酒店!)如果您感兴趣,请今天了解详情。人工智能新闻2026年5月28日至2026年5月29日。

我们检查了12个subreddits、544个Twitter用户,没有进一步的Discords。AINews的网站允许您搜索所有过去的问题。提醒您的是,AINews现在是潜伏空间的一部分。您可以选择加入/退出电子邮件频率!

人工智能Twitter回顾第四章. 8推出、基准摩擦和API人体工程学作品4。8号陷入了喧闹、混合的古代景观:多个独立的长凳聚集在“渐进但不占主导地位”上。“@arena推出了200多个前端/代码测试,比较Opus 4。

针对之前的Opus变体、Gemini和GLM,8;@theo报告CursorBench显示它更有效,但比4稍差。

7在误差范围内;@jerryjliu0和@llama_index发现表格/布局略有改善,但文档解析中内容忠实度/图表出现倒退;@scaling01表示ALE-Bench上没有进展,并分别标记了LisanBench上有趣的故障模式。

从积极的方面来看,@jeremyphoward发现了4。8比4少太激进,更合作。7/GPT-5。5在编码方面,而@leo_linsky称其比之前的Anthropic版本是切实的产品改进。

Anthropic还提供了有用的平台级更改:@ClaudeDevs在不破坏提示缓存的情况下宣布了对话中系统指令,以及权威的对话中系统角色更新,这对于长时间运行的代理会话和成本控制很重要。

但定价仍然是一个主要抱怨:@jeremyphoward认为Anthropic在API负担能力方面做得很少,而是更喜欢GPT-5。5部分是因为订阅/API经济性更容易证明。总体外卖:4。8看起来像是一个真正使用的有意义的生活质量版本,而不是干净的基准重置。

代理背带、多转RL漏洞和围绕自主性的基础设施一种微妙但重要的RL失败模式被点名:@ClementDelangue强调了Hugging Face的深入研究,探讨了为什么许多使用工具的多回合RL训练循环被悄然打破。

核心错误:解码模型输出、解析工具调用,然后重新标记化更新的对话可能会改变标记化,因此将梯度应用于模型从未实际采样的序列。

建议的修复方法是严格的“Token-In,Token-Out”规则:永远不要重新编码采样的代币;轮流保留单个代币缓冲区。@ johnschulman 2强调了更广泛的观点,即渲染器是消息和令牌之间的基础基础设施,其故障模式跨越训练/测试不匹配、缓存效率低下和即时注入风险。

收件箱设计正在成为其自己的优化学科:@omarsar0浮出水面关于有效反馈计算(EFC)的工作,声称原始代币/工具计数很难解释代理的成功,而EFC的R²高达0。99,这意味着利用质量比总活动更重要。

这与@LangChain等产品化优化工作相一致,其中Deep Agents v0。6使利用配置文件一流,以比前沿API低20倍以上的成本从Qwen/Kimi/DeepSeek获得强劲性能,并且@hwchase17明确框架“不同的模型需要不同的提示/工具。

“@vllm_Project发布了原生权重同步API和改进的Deliverc RL暂停/恢复,后来添加了fastokens(Rust BPE标记化器),以减少长上下文/代理工作负载中的中央处理器标记化瓶颈。

争论正在从“单智能体与多智能体”转向抽象值得的地方:@OfirPress认为当前的多智能体系统主要是加速,而不是能力解锁;@ scaling 01持相反的观点,期望群式训练能够产生更好的规划和类似超级智能的行为。

无论哪种方式,实践趋势是明确的:越来越多的团队正在围绕代理可观察性、跟踪和持续改进循环等进行建设。G. @Vtrivedy10关于SFT/蒸馏和长期持续学习的采矿生产痕迹。

开放模型、本地人工智能和OSS工具链收紧本地优先和开放重量模型的势头持续上升:@LangChain表示,2026年4月,三分之一的人工智能团队运行了开放重量模型,高于九个月前的五分之一;@ EpochAiresResearch估计开放重量模型现在落后前沿专有模型约四个月。

在工具链方面,@ggerganov推出了美洲驼。应用程序,给骆驼。cpp官方网站、统一安装程序、单一美洲驼入口点旨在更轻松的本地部署和第三方代理集成。

@ollama通过Ollama宣布OpenJarvis是一款本地优先的个人人工智能,明确与斯坦福/Hazy的“每瓦智能”框架相关。

开放基础设施正变得越来越面向企业:@ClementDelangue指出,Hugging Face上约50%的模型和数据集现在是私有的,随着HF的存储/桶产品的增加,这一比例不断上升;这是对HF只是公共OSS基础设施这一观点的重要纠正。

@abidlabs显示Hugging Face Jobs取代了GitHub运行器来支持中央处理器/无服务器的图形处理器。@DSPyOSS、@dbreunig等人在即将到来的4之前发布了重新设计的DSPy文档/头版。

0,专注于进入可编程人工智能系统,而不是纯粹的提示。

许可和许可正在成为战略杠杆:@kimmonismus强调英伟达将其四个开放模式家族转移到Linux基金会OpenMDW-1。1、减少权重/代码/文档/数据之间的法律碎片化。

新的许可数据发布也很重要:@keshigeyan推出了GPIC,这是一个1亿对许可图像库,加上1百万对视觉生成基准,具有明确的研究+商业可用性。

Google/OpenAI产品表面扩展:Windows上的托管代理、Gemini Spark/Omni和Codex谷歌正在将“托管代理”堆栈从API扩展到消费者产品:@_philschmid在Gemini API中展示了托管代理:

单个API调用为沙箱Linux环境提供代码执行、Web访问和文件I/O。在消费者方面,@GeminiApp向美国推出了Gemini Spark。S. AI Ultra订阅者作为24/7个人代理,可以在用户的数字生态系统中按指示运营。

谷歌还继续推动Gemini Omni多模式生成/编辑演示(例如,产品线程),并宣布Google Flow Agent用于视频/电影制作(线程)中的创意工作流程。

OpenAI的Codex正在向持久的远程开发操作员靠拢:@OpenAI和@OpenAIDevs在Windows上增加了计算机使用,包括从ChatGPT移动应用程序进行远程控制。

后续用户体验改进包括后台代理的稳定身份符号和在之前的聊天内容中搜索(@OpenAIDevs);@reach_VB总结了围绕Windows控制、移动远程访问和个人资料/任务统计数据的更广泛Codex更新。

另外,OpenAI更新了GPT-5。@michpokrass可以立即提高谄媚、真实性和多语言性能。这一切都指向了更加垂直集成的代理堆栈:模型+工具+沙箱+ UI +远程控制+定价/配额。谷歌正在平滑Gemini(@joshwoodward)的配额;

OpenAI正在扩大Codex的操作界面;Cursor添加了自动审查模式,并采用基于下级代理的审批路由(tweet)。常见的模式是较少的“聊天机器人”,更多的是具有策略和内存的托管执行环境。

值得关注的研究和系统论文搜索、检索和记忆:@TheTuringPost重点介绍了哈佛/麻省理工学院的双向进化搜索(BEP),将前向搜索与后向分解和进化操作符相结合;报告的成果包括Llama-3。

2-3B-Inst

原文出处
[AINews] Founders and Forward Deployed Engineers

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。