前谷歌和苹果研究人员成立一家初创公司来建立人工智能缺失的反馈环
一群曾在Google DeepMind、Apple、OpenAI和Meta Superintelligence Labs工作过的人工智能研究人员周三宣布,他们将推出一家名为Trajectory的新初创公司,旨在帮助公司通过现实世界用户交互培训定期改进其人工智能产品。
Trajectory希望为人工智能建立一个可以持续学习的平台,研究人员长期以来一直将这种能力视为人工智能进一步进步的主要障碍。OpenAI、谷歌和Anthropic已经成功地训练了功能越来越强的人工智能模型版本,特别是对于编码、数学和科学等领域。
然而,这些系统在训练完成后不再变得更智能。虽然最近在持续学习方面取得了一些突破,但科技公司通常很难制造能够实时从错误中学习的人工智能产品。
2025年12月,在最大的年度人工智能研究会议之一NeurIPS上,图灵奖得主理查德·萨顿(Richard Sutton)认为,持续学习对于构建超级智能体至关重要。
Trajectory已经以1.15亿美元的投资后估值筹集了1500万美元的种子轮资金,由风险投资公司Conviction领投,Bessemer Venture Partners,Radical VC和BoxGroup参与。
个人投资者也参与了这轮融资,包括谷歌DeepMind的首席科学家杰夫·迪恩,以及所谓的“人工智能教母”,斯坦福大学教授和世界实验室首席执行官李飞飞。
Trajectory的首席执行官兼联合创始人Ronak Malde此前是Windsurf的人工智能研究员,后来,当Google DeepMind以2美元的价格聘请了这家编码初创公司的顶级人才时,他成为少数前往Google DeepMind工作的员工之一。
去年交易40亿美元。Trajectory的其他联合创始人包括苹果前人工智能研究员Arjun Karanam,曾参与Vision Pro的开发,以及曾在Google DeepMind机器人部门工作的Michael Elabd。
Malde告诉WIRED,一些领先的人工智能编码产品(例如Cursor)已经在进行持续学习的早期版本--使用有关人们如何与产品互动的真实数据来进行后培训并定期交付模型改进。
他认为,这是人工智能编码产品如此迅速起飞的核心原因,也是主要人工智能实验室纷纷开发自己的氛围编码应用程序的部分原因。Malde和他由11名研究人员和工程师组成的团队希望通过Trajectory应用类似的技术来改进编码空间之外的人工智能工具。
“即使是当今最强大的人工智能仍然是静态的。你昨天使用的人工智能模型今天也会犯同样的错误,”马尔德说。“有几家公司正在开始进入持续学习的世界。我们正在做的是为每家公司建立持续学习的平台。
”将此逻辑应用于其他领域的挑战在于编码很容易验证-代码要么运行,要么不运行-但某些行业对成功的定义更宽松。Karanam表示,Trajectory平台提供的部分功能是帮助根据企业的特定需求优化人工智能模型。
Trajectory不是从OpenAI或Anthropic的现成模型开始,而是让客户从开源模型开始,该模型已经针对公司考虑的特定人工智能产品进行了后期训练。
对于构建人工智能客户支持代理的客户Decagon来说,Trajectory会在其人工智能不足时记录日志--比如,试图返回的客户将其查询反弹给人类--并使用这些实例来后训练新模型每周。轨迹声称,这些经过后训练的模型在对公司产品最重要的狭窄任务上击败了前沿实验室的模型。
企业高管渴望使用人工智能来完成许多不同类型的任务,但今天要做到这一点,他们通常需要聘请“前沿部署工程师”团队,或嵌入公司内部的顾问和技术员工,帮助开发人工智能产品。OpenAI、Anthropic和Palantir等公司纷纷满足这一需求。
Elabd表示,Trajectory的目标是打造一款可以自行改进的产品,这样公司就不需要内部工程师来持续排除人工智能堆栈的故障。
该初创公司表示,它已经在各个领域拥有客户,包括企业销售初创公司Clay和合法人工智能初创公司Harvey。虽然Trajectory目前主要与人工智能原生公司合作,但最终计划向财富500强推销其平台。
批评者可能会认为,Trajectory尚未建立真正的持续学习,至少在传统意义上是这样。毕竟,该初创公司的模型此时每周只更新一次,并且在升级之间保持静态。Elabd认为Trajectory才刚刚开始。
他声称人工智能行业正在走向一种新的范式,人工智能从经验中学习--就像人工智能编码领域已经发生的事情一样。Elabd表示,Trajectory的最终目标是建立一个可以每天甚至更频繁地更新公司人工智能模型的平台。
“每天可能还不够。它可能是每一个小时,也可能是每一次互动,”Elabd说。“也许每个公司不需要一个人工智能,你可以训练一个人工智能来为每个公司的每个人学习。”这是Maxwell Zeff的模型行为时事通讯的一个版本。
在此处阅读之前的时事通讯。
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。