精选· 重要性 4/5

Decart 发布 Oasis 3 世界模型：可实时生成逼真驾驶环境，但仍有局限

TechCrunch — AI·大约 2 个月前·Rebecca Bellan·约 7 分钟阅读

中文导读

AI 初创公司 Decart 推出 Oasis 3 世界模型，能实时生成逼真的驾驶环境，旨在服务自动驾驶公司并构建开发者生态，但模型在一致性和物理模拟上仍有不足。

据 TechCrunch 独家获悉，AI 初创公司 Decart 周三发布了其最新的交互式世界模型 Oasis 3，可实时生成逼真的驾驶环境。该模型目前通过 API 提供。

这家初创公司最初瞄准需要大规模模拟罕见驾驶场景的自动驾驶汽车公司，并计划扩展到机器人和其他物理 AI 应用领域。

但更大的赌注押在开发者身上：通过从第一天起就提供 API 访问，Decart 正试图围绕世界模型构建一个开发者生态系统，就像 OpenAI 对语言模型所做的那样。

Decart 联合创始人兼 CEO Dean Leitersdorf 告诉 TechCrunch：“这将是第一个人们可以真正在其上编程的可用世界模型。我认为将会出现一个完整的开发者社区。

”这家初创公司已经拥有一个超过 10 万名开发者的社区，其中许多人正在其实时视频模型 Lucy 的基础上开发产品，主要集中在电子商务和直播领域。Oasis 3 基于该基础模型，代表了公司向物理 AI 的进军。

Decart 表示，访问定价为每秒 0.02 美元，企业定价取决于用例。Decart 正在日益拥挤的世界模型赛道上竞争。

去年，谷歌发布了研究预览版 Genie 3，李飞飞的 World Labs 推出了面向商业用例的 Marble，而 Luma 和 Runway 等视频生成初创公司也在将其物理感知视频模型转化为世界模型。

Oasis 3 发布几周前，成立两年的 Decart 筹集了 3 亿美元，Leitersdorf 表示，这是在电子商务、直播和物理 AI 领域“对我们构建的模型需求大幅增长”之后完成的。

该轮融资使 Decart 估值升至近 40 亿美元，并吸引了丰田、Adobe 和 eBay 等一系列战略投资者。Leitersdorf 表示，所有这些公司都是潜在客户。现有投资者 Nvidia 也参与了本轮融资。

Oasis 3 的优势在于其模型的照片级真实感和无限生成能力。这得益于 Decart 的一些效率魔法，由公司的另一款主要产品驱动：DOS（Decart 优化栈）软件，该软件允许模型在 Nvidia、亚马逊和谷歌硬件上高效运行，使其模型的运行成本远低于竞争对手。

“这是建立在我们整个实时堆栈之上的，我们一直优化到硬件层面，”Leitersdorf 说。“通过如此垂直整合，我们能够以比业内其他任何人都便宜一个数量级以上的成本来运行这些模型。”

据 Leitersdorf 称，这家初创公司的模型非常高效，以至于其整个生命周期中消耗的资金“远低于”1 亿美元。Oasis 3 为训练和测试系统生成物理上准确的多摄像头环境——一个前向和两个侧向。

Decart 允许开发者无限生成场景，而不是提供有限的演示和研究预览，这非常适合希望尽可能多地尝试边缘案例的自动驾驶汽车开发者。

与我尝试过的其他模型（如谷歌的 Genie 3 或 World Labs 的 Marble）相比，Oasis 3 通过单个文本提示提供了我所见过的最逼真的环境。事实上，你可以与之交互数小时，这表明 Decart 的竞争对手可能缺乏的效率水平。

但通过让你如此长时间地生成世界，模型也会显著退化。在我的测试中，我发现系统能够始终如一地设置与提示匹配的出色初始场景，但当我穿越世界时，主题完整性迅速下降。我提示它生成一条清晨的纽约市街道，它做到了，非常漂亮。

但当我开车行驶时，环境看起来不再像纽约，而更像是任何西方城市的标准版本。当我试图掉头回到最初的十字路口时，它消失了，取而代之的是一个全新的环境。

除此之外，控制响应不太灵敏，我经常失去对汽车移动方向的控制（同样，这也是我测试过的其他世界模型共有的缺点）。这种体验感觉不像是一个连贯的模拟，而更像是一种梦幻般的、脱节的意识流，很快就变得荒谬。

另一个问题（我在其他世界模型中也看到过）是汽车会直接穿过其他汽车，这意味着模型没有正确模拟环境中的物理。Leitersdorf 称这是一个“我们现在正在攻克的主要研究问题”，并将其归因于“与事故相比，关于良好驾驶的数据要多得多。

”物理一致性困难的部分原因在于这个世界模型的基本工作方式。Oasis 3 是自回归的，这意味着它一次生成一帧，并回顾之前生成的内容来决定下一步。这是许多世界模型的一个关键架构特征，也是一个计算密集型特征。

为了保持一致性，Leitersdorf 表示 Decart 团队正在努力提高模型的内存长度。“我们生成的每一帧大约有 8000 个 token，”他说。“以每秒几十帧的速度生成——那就是每秒几十万个 token。

上下文窗口很快就会填满。我们正在研究如何实现更长的上下文以存储数百万个 token，以及如何将内存压缩为更少的 token。”

Leitersdorf 认为，一致性问题可能在模型的下一个版本中得到部分解决，该版本将允许用户根据环境的视频而不是图像来开始生成世界。他承认，世界模型作为一个领域仍处于早期阶段。尽管如此，这位创始人更关注的是当开发者掌握它时会发生什么，而不是当前技术的局限性。

“这让我想起了 LLM 的早期，当时 OpenAI 发明了模型的 API，”他说，并指出开发者社区的出现通过发现和构建新的用例推动了该领域的发展。

“三个月后我们再谈时，我们会说，‘这里有 100 个开发者，他们都用 Oasis 构建了 100 个不同的应用程序，让我们所有人都感到惊讶，’”他说。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读