D4RT：教AI从四维视角看世界，速度提升300倍

Google DeepMind Blog·6 个月前·约 6 分钟阅读

D4 RT：教人工智能从四个维度看世界引入D4 RT，这是一个用于跨时空4D场景重建和跟踪的统一人工智能模型。每当我们观察世界时，我们都会做出非凡的记忆和预测壮举。我们看到和理解事物在特定时刻的样子，就像它们刚才的样子，以及它们在接下来的时刻将如何。

我们对世界的心理模型保持了对现实的持久表示，我们使用该模型来得出关于过去、现在和未来之间因果关系的直观结论。为了帮助机器更像我们一样看待世界，我们可以为它们配备摄像头，但这只能解决输入问题。

为了理解这个输入，计算机必须解决一个复杂的反向问题：拍摄视频（这是一系列平面2D投影）并恢复或理解动态中丰富、体积丰富的3D世界。

今天，我们推出了D4 RT（动态4D重建和跟踪），这是一种新的人工智能模型，它将动态场景重建统一到一个单一、高效的框架中，让我们更接近人工智能的下一个前沿：对动态现实的全面感知。

第四维度的挑战为了理解2D视频上捕捉的动态场景，人工智能模型必须跟踪每个物体在三维空间和第二维时间中移动时的每个像素。

此外，它必须将这种运动与摄像机的运动分开，即使物体在彼此后面移动或完全离开画面时也保持连贯的表示。传统上，从2D视频中捕捉这种水平的几何和运动需要计算密集型流程或专门的人工智能模型拼凑起来--一些用于深度，另一些用于运动或摄像机角度--导致人工智能重建缓慢且碎片化。

D4 RT的简化架构和新颖的查询机制使其处于4D重建的最前沿，同时比以前的方法效率高出300倍-速度足够快，适用于机器人、增强现实等领域的实时应用。D4 RT如何工作：基于查询的方法D4 RT作为统一的编码器-解码器Transformer架构运行。

编码器首先将输入视频处理为场景几何形状和运动的压缩表示。与采用单独模块执行不同任务的旧系统不同，D4 RT使用围绕一个基本问题的灵活查询机制仅计算其需要的内容：“从所选摄像机观看时，视频中的给定像素在任意时间位于3D空间中的哪里？

"在我们之前的工作的基础上，轻量级解码器随后查询此表示以回答所提出问题的特定实例。由于查询是独立的，因此可以在现代人工智能硬件上并行处理它们。

这使得D4 RT都极其快速和可扩展，无论是仅跟踪几个点还是重建整个场景。功能：快速、准确的4D理解有了这种灵活的公式，模型现在可以解决各种各样的4D任务，包括：- 点跟踪：通过查询像素在不同时间步长的位置，D4 RT可以预测其3D轨迹。

重要的是，模型无需在视频的其他帧上可见即可进行预测。- 点云重建：通过冻结时间和摄像机视角，D4 RT可以直接生成场景的完整3D结构，消除了单独摄像机估计或按视频迭代优化等额外步骤。

- 相机姿势估计：通过从不同视角生成和对齐单个时刻的3D快照，D4 RT可以轻松恢复相机的轨迹。正如基础技术报告中详细介绍的那样，D4 RT在广泛的4D重建任务中优于之前的方法。

定性比较表明，虽然其他方法难以处理动态对象--通常复制它们或未能完全重建它们--但D4 RT保持了对移动世界的坚实、持续的理解。至关重要的是，D4 RT的精确性不会以牺牲效率为代价。在测试中，它的性能比之前的最新技术快了18倍至300倍。

例如，D4 RT在单个TJ芯片上大约5秒内处理了一分钟的视频。

以前最先进的方法可能需要长达十分钟的时间来完成同一任务-改进了120倍。下游应用D4 RT证明我们在4D重建中不需要在准确性和效率之间做出选择。其灵活的基于查询的系统可以实时捕捉我们的动态世界，为下一代空间计算铺平道路。

这包括：- 机器人技术：机器人需要在由移动的人和物体组成的动态环境中导航。D4 RT可以提供安全导航和十字弓操纵所需的空间感知。- 增强现实（AR）：为了让AR眼镜将数字对象叠加到现实世界，它们需要即时、低延迟地理解场景的几何形状。

D4 RT的效率有助于使设备上部署成为切实的现实。- 世界模特：通过有效地解开摄像机运动、物体运动和静态几何形状，D4 RT让我们距离拥有物理现实的真正“世界模型”的人工智能又近了一步--这是实现AGI道路上的必要步骤。

我们正在继续探索该模型在机器人、增强现实等领域应用的能力和潜力。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读