谷歌全新Omni模型：任意输入转任意输出

The Verge — AI·2 个月前·Allison Johnson·约 8 分钟阅读

去年，我对孩子的毛绒动物进行了深度伪造，让它看起来像他的毛绒鹿在度假。谷歌新的“任何对任何”人工智能模型很疯狂Omni将我孩子的毛绒漂流发送给我，并在埃菲尔铁塔前深度伪造了我。但这还不完全是奇异性。

这是一个实验，看看我是否可以重现谷歌正在运行的双子座广告中描述的事件，但我从未向我四岁的孩子展示鹿巴迪冒险经历的视频。但这是一次具有启发性的练习，让我思考了生成性人工智能的一些无害乐趣和全面的污水之间的区别。

也许维恩图是一个完美的圆！也许不是。但我可以肯定的是，制作逼真视频的工具出奇地好，所需的努力和专业知识出奇地少。这种趋势在双子座的全方位时代仍在继续。Omni是一个新的生成模型家族，据称有一天它将能够将任何类型的输入（照片、视频、文本）转化为其他任何内容。

但对于初学者来说，这只是创建视频。Omni Flash是谷歌发布的第一个模型，现已在该公司的人工智能视频生成和编辑平台Flow中提供。如果您愿意，您仍然可以使用之前的型号Veo，但Omni在几个方面对Veo进行了改进。

使用Omni，您可以上传视频并将其与文本提示一起用作人工智能生成创建的起点。

谷歌还声称，Omni在制作视频时融入了更多现实世界的知识，因此可以更好地保持整个视频中的角色一致。只有一种方法可以真正知道这些说法是否属实：我带回了AI Buddy，准备好他的AI生成的小袋子，进行另一次冒险。

结果好坏参半，令人困惑。有些非常好--比我五个月前测试Veo时更一致、更真实。但即使是Omni为我制作的最好的片段仍然有某些人工智能跳跃的恐惧，比如Buddy在跳伞时突然切换方向。对于另一个视频，我给了Omni一些艺术自由。

“创建一个巴迪打包度假和登上游轮度假的蒙太奇。心情又可爱又俏皮。巴迪在他的手提箱里装了一些有趣的东西，这些东西将在剪辑的后面发挥作用。“巴迪带了一罐蜂蜜;后来在剪辑中，他伸手去拿蜂蜜，就好像那是一瓶防晒霜一样。

“呃哦，”这个角色一边说，一边把蜂蜜喷到蹄子上。老实说，还不错。只是在整个视频中，蜂蜜瓶不断变化，从罐子到装满水的透明喷射瓶，然后又回到装满蜂蜜的挤压瓶。我甚至无法开始描述该模型是如何产生视频的最后一帧的--几乎就像它刚刚吐出了刚刚制作的序列中的一堆元素一样。

您可以使用基于文本的提示来建议对视频进行编辑，我会赞扬Google：这在Omni上的效果比我测试Veo 3时效果更好。但Veo的结果很糟糕--糟糕到我发现每次我想要更改某些内容时，只需从头开始提示新视频会更容易。

Omni实际上会接受您的编辑，但结果并不总是有效。我让它在巴迪的假期片段中强调他的面部反应，结果看起来很奇怪。它还会时不时地给巴迪带来鹿角，但他没有鹿角。巴迪是个婴儿，非常感谢。当我提示它删除一个场景中出现的鹿角时，它答应了--然后在所有其他场景中添加了鹿角。

问题是，这一切都不是免费的。生成视频需要花费积分，根据场景长度和开始使用的“成分”，从15到40积分不等。一轮编辑费用为40学分。我有每月20美元的AI Pro计划，每月有1，000个积分。在生成了大约20个剪辑并对其中一些剪辑进行了一些编辑后，我只剩下145个。

如果您对希望Omni生成的视频有具体的想法，那么您可能会与模型进行大量昂贵的来回操作，以获得接近您愿景的视频。我可以真诚地说，我没有为我所看到的做好准备Omni所谓的优势之一是将人工智能生成的内容添加到真实视频中，所以我让Buddy休息一下，并深度伪造了自己。

我从一段带有中性表情的自拍视频开始，提示Omni生成我吃一盘意大利面、坐在飞机座位上以及站在埃菲尔铁塔前咬一口法棍面包的视频。我可以真诚地说，我没有为我所看到的做好准备。我的Deepfake视频中有人工智能的信息。

叉子击中意大利面碗的叮当声有点太做作了。飞机视频的背景中有一名女子出现了两次。但除了这些小故障和隐约的不可思议的感觉之外，它们非常令人信服。我向我丈夫展示了意大利面片段;他知道我正在测试人工智能视频工具，但我没有告诉他人工智能在场景中生成了什么。

在不知道人工智能生成了什么的情况下，他相信我坐在镜头前吃意大利面，并说他唯一的线索是出了问题，这碗看起来很陌生。吃意大利面本身看起来足够真实，足以说服我丈夫。在过去的十年里，一个在现实生活中几乎每天都在看着我的男人。

我的其他Deepfake都是不同程度的“足以愚弄社交媒体上的人们”。“埃菲尔铁塔的几个片段看起来有点卡通，但其中一个足够令人信服，你可能需要重新观看几遍才能发现它是人工智能。当人工智能转过头，露出她扎成马尾辫的头发时，我知道那不是我。

但我不确定其他人会知道其中的区别，这让我感觉很奇怪。我们绝对是在恐怖山谷深处说实话，我对此有点筋疲力尽。当我测试Veo 3时，我对它所能产生的真实感感到震惊。在过去的几年里，一次又一次地在假照片中制造假人物是多么容易，我感到震惊。

我可能也应该对Omni感到震惊，我想我是的，但优势已经消失了。制作一部人工智能生成的电影杰作仍然不像谷歌希望您相信的那么容易。但Omni确实在一些明显的方面比Veo有所改进。

如果您拥有Google帐户和信用卡，那么您可以拍摄自己坐在家里的视频，并让它看起来像您正在飞往毛伊岛的航班上，只需轻轻的努力。我不认为我们确切地处于“奇异点的山麓”，但我们绝对处于恐怖山谷的深处。

本文中的所有图片和视频均由Google Gemini生成。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读