sora 是什么?三个重要原因让 Sora 生成视频堪比 CG

常规的计算机 CG 没有几个月是做不出来的，Pika 、Runway 为什么做不出这样的效果？这两天网上介绍所有的视频已经非常多了，我更喜欢琢磨背后的东西，大家都在说 sora 好，到底为什么好，它是怎么做的呢？

我特别对三个场景印象深刻：一群金毛小狗在雪地里打滚，其真实感让人惊叹；一个咖啡杯中的海盗船战斗场景，展现了惊人的特效；以及无人机穿越城市古迹的画面，其 3D 效果和一致性维护得非常好。这些效果展现了目前技术的极限，以及为何传统的 CG 方法无法轻易复制这些效果的原因。

Pika 和 Runway ，那为什么做不出这样的效果？我理解 Pika 和 Runway 实际上还是基于这种图形图像本身的操作来进行的生成，在一个画面上选定一两个目标，一两个对象。让这一、两个对象要么保持不动，背景在动，要么背景不动，这一两个对象在动，就形成一种比较简单的计算机动画的效果，它是肯定做不到刚才的三个画面的能力。

（ PS：目前，OpenAI 尚未公开开放 Sora 的灰度测试。然而，借鉴之前 DALL·E 图像模型的案例，我们可以预见首先会向 ChatGPT Plus 的付费用户提供这一服务。对于有意体验此服务的用户，如果您尚未注册或希望了解如何升级至 GPT Plus ，可以参考: 快速开通 ChatGPT Plus

在 CG 领域，创建真实感强的画面，比如毛茸茸的动物或是动态的水面，需要极其复杂的建模和粒子效果模拟。这不仅涉及到每一根毛发的建模，还包括每一个水滴的物理建模，以及如何表现出毛发随风飘动的感觉和雪花的质感。这样的工作量是巨大的，使用常规的电影工业特效手段，可能需要几个月的时间才能完成。

如果用电影特效来表示咖啡杯里的那个波动，这个就需要给粒子特效来模拟多少个水分子，把每个水分子看成是一个粒子，然后利用水的这种物理方程来模拟流体的特质，一帧帧的把它渲染出来。阿凡达为了做水的特效，据说花了好几年的时间才完成了大量的海浪，水波纹这些特效镜头。

那么像无人机飞跃一个城市，所有飞跃的地方，都要需要做真实的 3D 建模，3D 的贴图和 3D 的渲染，在镜头飞跃的每一个观察点上，都要对这个 3D 的画面做若干次的渲染。对一个城市的 3D 建模的工作量特别大，所谓叫数字孪生还是非常昂贵的一个技术。

但是到了 sora 这里，这些东西都变得非常的简单，只要给一堆文字的提示要求，它就能给你非常逼真的描绘出来。

sora 到底做 3D 建模没有？我觉得答案应该是没有，因为 sora 如果也只是 3D 建模在进行渲染，和传统的电影工业走一样的路，那就它就不具备颠覆性和革命性了。

sora 怎么做到的呢？第一点 sora 应该还是模拟了我们人类去观察世界、描绘世界和表现世界的这种方法，比如说如果要我们人类一个有经验的画师用笔画出来看才 3 个场景，我们人类在大脑里并不需要 3D 建模。

因为人类已经对世界有了一个基本的认知，我们知道透视的原理，我们知道随着这个镜头的移动，每个物体的视觉画面会发生改变，我们知道如何去画毛茸茸的毛发，如何去画这个雪，当狗转身的时候，我们知道整个画面会有什么样的变化，我们不需要懂粒子特效，不需要 3D 建模，不需要懂物理定律，我们靠着对世界的观察，我们也能画出惊涛骇岸的这种海浪的感觉。

sora 应该通过大量的训练，掌握了人类这种观察世界、描绘世界、表现世界的这种能力，所以就使得他通过表面看的是 2D 画面的这种生成，完全理解了这个 3D 世界的物理规律。

第二点我觉得 sora 在学习的过程中，不光是用了很多视频电影的内容来作为训练的输入，当你输入一些画面给 sora 模型做训练的过程中，你不仅要解读出画面有什么元素，你还要解读出来这里面反映的一些物理定律。

openai 在对他的论文。你提到一个叫 recaptioning 技术，很多人把它翻译错了，翻译成叫字幕技术，像 recaptioning 的意思是说对每一帧画面能够把它变成用文字来描述，这点也非常符合人人类认知世界的方法。

比如说一个见过大海的人，向一个没有见过大海的人，用语言来描述这个海浪的效果，让他来进行学习，进行想象。所以这一点说明 openai 的多模态技术已经达到一个新的空间，我估计 Google 的 Gemini 看来短期内是很难赶上了。

第三点大胆的猜测一下，openai 应该是自己产生了很多 3D 的内容，也不排除他用现在的游戏引擎做了很多这种实时 3D 模型的渲染，利用这种 3D 模型来把更多的物理知识训练给 sora 。

为什么人类对 AIGI 的突破可能就剩下最后一步了？ sora 表面上看起来是一个刮胡刀，实际上它是一个吹风机，或者它看起来像一个吹风机，它实际上是个刮胡刀，它表面上看来是一个记录文字生成视频 AIGC 的工具。

它反映了 AI 对我们这个世界的理解，已经从文字进到图像，已经从图像进成视频，对这个世界 3D 模型的理解，对物理定律的理解，还有些人在吹毛求疵，我看到一个 sora 翻车的视频，比如一个杯子没有碎掉，水就流出来了，还比如说从土里挖出一个凳子，那个凳子没有表现出重力的感觉。

s 我恰恰觉得有这些问题呢，非常正常，就像大模型会产生幻觉一样，在梦中不也是会让很多物理定律失效吗？

sora 所谓的失效，我觉得有两种可能，一种是这种模型先天具备的，这种也有幻觉的问题，会产生一些魔幻的效果，还有一种，是物理知识训练的不够，所以我们面对一个新的东西，不要老是盯着它的弱点，这些弱点都是可以被改进的。

原文转载： https://haogonju.com/2049.html