常规的计算机 CG 没有几个月是做不出来的,Pika 、Runway 为什么做不出这样的效果?这两天网上介绍所有的视频已经非常多了,我更喜欢琢磨背后的东西,大家都在说 sora 好,到底为什么好,它是怎么做的呢?
我特别对三个场景印象深刻:一群金毛小狗在雪地里打滚,其真实感让人惊叹;一个咖啡杯中的海盗船战斗场景,展现了惊人的特效;以及无人机穿越城市古迹的画面,其 3D 效果和一致性维护得非常好。这些效果展现了目前技术的极限,以及为何传统的 CG 方法无法轻易复制这些效果的原因。
Pika 和 Runway ,那为什么做不出这样的效果? 我理解 Pika 和 Runway 实际上还是基于这种图形图像本身的操作来进行的生成,在一个画面上选定一两个目标,一两个对象。让这一、两个对象要么保持不动,背景在动,要么背景不动,这一两个对象在动,就形成一种比较简单的计算机动画的效果,它是肯定做不到刚才的三个画面的能力。
( PS:目前,OpenAI 尚未公开开放 Sora 的灰度测试。然而,借鉴之前 DALL·E 图像模型的案例,我们可以预见首先会向 ChatGPT Plus 的付费用户提供这一服务。对于有意体验此服务的用户,如果您尚未注册或希望了解如何升级至 GPT Plus ,可以参考: 快速开通 ChatGPT Plus
在 CG 领域,创建真实感强的画面,比如毛茸茸的动物或是动态的水面,需要极其复杂的建模和粒子效果模拟。这不仅涉及到每一根毛发的建模,还包括每一个水滴的物理建模,以及如何表现出毛发随风飘动的感觉和雪花的质感。这样的工作量是巨大的,使用常规的电影工业特效手段,可能需要几个月的时间才能完成。
如果用电影特效来表示咖啡杯里的那个波动,这个就需要给粒子特效来模拟多少个水分子,把每个水分子看成是一个粒子,然后利用水的这种物理方程来模拟流体的特质,一帧帧的把它渲染出来。阿凡达为了做水的特效,据说花了好几年的时间才完成了大量的海浪,水波纹这些特效镜头。
那么像无人机飞跃一个城市,所有飞跃的地方,都要需要做真实的 3D 建模,3D 的贴图和 3D 的渲染,在镜头飞跃的每一个观察点上,都要对这个 3D 的画面做若干次的渲染。对一个城市的 3D 建模的工作量特别大,所谓叫数字孪生还是非常昂贵的一个技术。
但是到了 sora 这里,这些东西都变得非常的简单,只要给一堆文字的提示要求,它就能给你非常逼真的描绘出来。
sora 到底做 3D 建模没有? 我觉得答案应该是没有,因为 sora 如果也只是 3D 建模在进行渲染,和传统的电影工业走一样的路,那就它就不具备颠覆性和革命性了。
sora 怎么做到的呢? 第一点 sora 应该还是模拟了我们人类去观察世界、描绘世界和表现世界的这种方法,比如说如果要我们人类一个有经验的画师用笔画出来看才 3 个场景,我们人类在大脑里并不需要 3D 建模。
因为人类已经对世界有了一个基本的认知,我们知道透视的原理,我们知道随着这个镜头的移动,每个物体的视觉画面会发生改变,我们知道如何去画毛茸茸的毛发,如何去画这个雪,当狗转身的时候,我们知道整个画面会有什么样的变化,我们不需要懂粒子特效,不需要 3D 建模,不需要懂物理定律,我们靠着对世界的观察,我们也能画出惊涛骇岸的这种海浪的感觉。
sora 应该通过大量的训练,掌握了人类这种观察世界、描绘世界、表现世界的这种能力,所以就使得他通过表面看的是 2D 画面的这种生成,完全理解了这个 3D 世界的物理规律。
第二点 我觉得 sora 在学习的过程中,不光是用了很多视频电影的内容来作为训练的输入,当你输入一些画面给 sora 模型做训练的过程中,你不仅要解读出画面有什么元素,你还要解读出来这里面反映的一些物理定律。
openai 在对他的论文。你提到一个叫 recaptioning 技术,很多人把它翻译错了,翻译成叫字幕技术,像 recaptioning 的意思是说对每一帧画面能够把它变成用文字来描述,这点也非常符合人人类认知世界的方法。
比如说一个见过大海的人,向一个没有见过大海的人,用语言来描述这个海浪的效果,让他来进行学习,进行想象。所以这一点说明 openai 的多模态技术已经达到一个新的空间,我估计 Google 的 Gemini 看来短期内是很难赶上了。
第三点 大胆的猜测一下,openai 应该是自己产生了很多 3D 的内容,也不排除他用现在的游戏引擎做了很多这种实时 3D 模型的渲染,利用这种 3D 模型来把更多的物理知识训练给 sora 。
为什么人类对 AIGI 的突破可能就剩下最后一步了? sora 表面上看起来是一个刮胡刀,实际上它是一个吹风机,或者它看起来像一个吹风机,它实际上是个刮胡刀,它表面上看来是一个记录文字生成视频 AIGC 的工具。
它反映了 AI 对我们这个世界的理解,已经从文字进到图像,已经从图像进成视频,对这个世界 3D 模型的理解,对物理定律的理解,还有些人在吹毛求疵,我看到一个 sora 翻车的视频,比如一个杯子没有碎掉,水就流出来了,还比如说从土里挖出一个凳子,那个凳子没有表现出重力的感觉。
s 我恰恰觉得有这些问题呢,非常正常,就像大模型会产生幻觉一样,在梦中不也是会让很多物理定律失效吗?
sora 所谓的失效,我觉得有两种可能,一种是这种模型先天具备的,这种也有幻觉的问题,会产生一些魔幻的效果,还有一种,是物理知识训练的不够,所以我们面对一个新的东西,不要老是盯着它的弱点,这些弱点都是可以被改进的。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.