精选· 重要性 4/5

Ethan He：视频代理模型是下一代AI视频生成的关键

Latent Space (Swyx)·大约 2 个月前·约 8 分钟阅读

中文导读

前xAI研究员Ethan He在播客中提出，视频模型的主要智能来自LLM而非视频数据，下一代Sora将是视频代理而非更好的视频模型，并分享了构建Grok Imagine的经验。

我们本周将宣布AIEWF发言人！参加人工智能工程调查！

今天的嘉宾Ethan首先加入我们LS Paper Club，担任NVIDIA Cosmos World Model的负责人，但随后加入xAI并在3个月内打造了Grok Imagine：他带着一些核心的热门观点回到了《潜伏空间》：视频模型主要从LLM中获取智能，

而不是从视频数据的训练中获取，真正交互式、实时、长视野世界模型的下一个前沿是在LLM上工作（也许也是交互模型.）这么说吧：短期内，下一个Sora不会是更好的视频模特，而是视频代理。

Generative Media可能会更密切地跟随人工智能编码的演变，人工智能编码从关注一次性输出性能和成本，转向针对可以规划、编辑、测试、调试和提交PR的代理和系统的多轮推理和规划模型。

在某个时候，编码模型变得如此之好，以至于提高性能的唯一重要下一步就是处理这些模型的编排。现在，随着视频模型在真实性、一致性和及时遵守方面的性能显着提高，同时变得更具成本效益，视频生成的下一个演变也可能是可以在整个创意任务中规划、生成、编辑、评论和调试的系统。

在本期节目中，Ethan与swyx和Vibhu一起揭开了构建前沿图像和视频系统的实际需要：数据、VAE、扩散转换器、音频视频对齐、推理加速以及存储和移动大量视频数据集的隐藏成本。

从构建NVIDIA的Cosmos世界模型到加入xAI，因为Grok Imagine正在从零到一的构建，Ethan He一直处于视频生成、多模式模型和实时世界模型领域一些最重要工作的中心。

我们深入研究Grok Imagine，一个小型xAI团队如何在三个月内交付其第一个多模式视频模型，为什么迭代速度比模型开发中的几乎任何事情都重要，以及为什么许多最大的收益来自修复数据和训练管道中的微小错误。

动画书：Videomaxing的未来视频代理商几乎肯定会成为来年的趋势。最后，我们来看看视频代理之外的东西：Flipbook今年发布时引起了轻微的轰动，但大多数人都认为它是一个有趣的演示。

Ethan对此非常重视--随着推理的速度和成本每年都在下降，自定义视频JT UI的未来比您想象的更接近。

我们讨论了为什么videogen模型可能成为人工智能的前端，生成性UI如何取代传统的HTML/CSS，为什么世界模型需要实时、交互和长视野，以及为什么视频生成的未来可能更多地依赖于语言模型和代理而不是仅仅依赖于扩散。

我们讨论：

为什么快速迭代比会议更重要为什么小的训练错误可以推动巨大的模型质量提高为什么编码模型可能会再次导致计算瓶颈如何使用合成字幕训练图像和视频模型VAE和潜在空间在前沿视频模型中的作用为什么图像模型是视频模型的基础时间压缩和实时交互性之间的权衡为什么未来的界面可能会从用户意图转

向像素训练视频模型的隐藏成本：存储、出口和图形处理时间分步蒸馏和一致性模型（例如OpenAI sCM）如何使视频推理速度更快Grok想象0.

9、大规模音视频生成为什么音频-视频对齐比文本-视频对齐更难伊森对世界模型的定义视频引用、视频扩展和长上下文视频生成为什么xAI的研究传播低于Grok ImaginexAI文化如何塑造开发速度AI水印、

SynthID和检测生成的媒体为什么提示重写对视频模特很重要Grok Imagine Agent和视频Agent的崛起为什么语言模型可以解锁更好的视频生成机器人技术、

物理人工智能和体现世界模型为什么Ethan离开xAI并将重点转向LLM自我管理的上下文、记忆和语言模型的下一个前沿何伊森时间戳00：00：00简介00：01：25从NVIDIA Cosmos到xAI00：03：24 Building Grok想象从零到一00：10：

07如何培训图像和视频模型00：18：53视频压缩、VAE和实时权衡00：22：10生成式UI、翻转本和神经操作系统00：32：10培训大型视频模型的成本00：37：04蒸馏、GAN和快速视频推理00：41：21音频视频生成和Grok Imagine 0。

900：48：34是什么造就了世界典范？

00：55：51参考视频、长上下文和视频内存01：00：11 xAI文化、研究和第一原则建设01：09：45人工智能安全、水印和及时重写01：13：10视频代理和人工智能辅助创建01：27：32为什么语言模型会提供更好的视频01：31：15机器人技术、

物理人工智能和虚拟世界模型01：

32：38伊森为什么离开xAI01：34：16自我管理环境与LLM的未来01：38：43伊森的职业道路和结束思考转录物简介：Ethan He、《潜伏空间》和xAI之路Swyx [00：00：00]：我们和Ethan He在工作室里，他是xAI的最新成员。

客气Ethan [00：00：10]：谢谢。很高兴来到这里。Swyx [00：00：11]：我们也和Vibhu在一起。您第一次来到我们或加入潜在太空世界是因为您正在英伟达研究Kosmos，并且您写了一篇论文。

我们喜欢它。您也介绍了它，所以感谢您这样做。Ethan [00：00：23]：实际上，我还在潜在空间介绍过两次教育部。Swyx [00：00：29]：您实际上是如何听说我们的？我们联系过你了吗？

它就是这样运作的吗？Ethan [00：00：33]：不，实际上，我--社区。就像我意识到的那样，哦，有一个在线社区，人们谈论人工智能，并且每周通过Paperclip通过论文互相学习。非常好。

Ethan [00：00：49]：我学到了很多。Swyx [00：00：49]：我认为三年结束了。即使在圣诞节和新年，我们也没有停下来。好几个星期我想停下来，但它还在继续。

Vibhu [00：00：58]：不，那很好。我想你发布了你在一篇论文上工作的消息，我说“哦，非常酷。我们有回形针。那么出席吧。”Vibhu [00：01：04]：但之后我可能会联系你。Swyx [00：01：05]：你--因为这是一个业余俱乐部，对吧？

Swyx [00：01：08]：所以这非常不寻常，但有时我们会有论文作者来实际解释论文。今天我们刚刚做了，池畔报纸，显然非常好。Vibhu [00：01：18]：昨天出来的。Vibhu [00：01：19]：很有趣，对吧？

完全打开。他们谈论一切，系统。所以这是一个很好的。我们会，我们会推荐人们阅读它。Swyx [00：01：25]：让我们了解您向xAI过渡的最新情况，因为我实际上什至不知道您是什么时候加入的。就像讲，讲关于这种转变的故事一样。

从NVIDIA Cosmos到xAI：缩放视频和世界模型Ethan [00：01：34]：在xAI之前，我正在英伟达研究Kosilon世界模型。所以Kosmos是一个巨大的视频基金会模型，旨在模拟世界，并作为所有机器人专家的基础。

在那里，一旦我构建了Kosmone，我意识到由于这个东西也有类似于语言模型的缩放定律，我们需要进一步扩展视频模型。这就是为什么我意识到我需要搬到拥有更多计算资源的地方。我就是这么Swyx [00：02：13]：比英伟达？

Vibhu [00：02：14]：图形处理器的富人自己来了。

Vibhu [00：02：19]：从时间线上看，Kosmo什么时候？当时还挺早的吧？这是开放世界模式，开放纸张，一切。Ethan [00：02：25]：二十四年结束了。Vibhu [00：02：28]：二十四结束。

Ethan [00：02：30]：然后在二十五年中期，我搬到了xAI。当时--我大约在xAI即将构建视频模型的时候加入，并在μ中

原文出处

Why Video Agent models are next — Ethan He, xAI Grok Imagine

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

Ethan He：视频代理模型是下一代AI视频生成的关键

相关阅读

Bluesky AI助手Attie扩展为开放社交研究工具

Midjourney 收购占星社交应用 Co-Star，拓展产品线

硅谷在中国AI开放权重模型问题上严重分裂