Sora到底懂不懂物理世界？-一球百科

AI圈掀起头脑风暴：Sora究竟懂不懂物理世界？

一场关于Sora是否真正理解物理世界的激烈讨论正在AI领域的大佬们之间展开。图灵奖得主Yann LeCun、Keras之父Francois Chollet等人纷纷加入这场辩论。

最近，OpenAI发布了一款名为Sora的视频生成模型，它打破了以往生成视频长度的限制，能够创作出长达60秒的视频。更令人惊叹的是，Sora不仅能理解用户在Prompt中提出的要求，还能捕捉到人物和物体在物理世界中的存在方式。

以“海盗船在咖啡杯中缠斗”为例，Sora需要克服规模适应、流体动力学、光线和阴影处理以及动画真实性等多重物理挑战。尽管生成的视频效果还有待完善，但Sora似乎已经展现出了一定的“物理智慧”。

英伟达高级研究科学家Jim Fan甚至大胆断言：“Sora是一个数据驱动的物理引擎，是一个可学习的模拟器，或‘世界模型’。”然而，这一观点并非毫无争议。

Yann LeCun认为，仅仅根据prompt生成逼真视频并不能证明模型理解了物理世界。在他看来，生成视频的过程与基于世界模型的因果预测截然不同。他主张更理想的做法是生成视频后续内容的抽象表达，并消除与可能采取的动作无关的场景细节。

而Francois Chollet则指出，虽然Sora这样的视频生成模型确实嵌入了“物理模型”，但关键在于这个模型是否准确，以及能否泛化到新的情况。他认为，目前Sora更倾向于依赖数据插值和潜空间拼贴来生成图像，而不是真实的物理模拟。

这场关于Sora是否懂物理的辩论仍在继续，但无疑已经激发了AI领域对物理建模和视频生成的新思考。

今天一次性把Sora是什么说清楚，让我们每个普通人也可以了解清楚！

Sora是OpenAI公司开发的一种文本转换成视频的模型，什么是模型？通俗点讲它类似Runway，Pika，但是Runway，Pika这两个模型生成的视频时间在3-5秒，且视频质量清晰度不高，Sora可以根据我们提供的文本生成长达一分钟的高质量视频。我们可以用AI工具比如Midjourny 去选择Sora这个模型去做Ai视频。

Sora可以从基本的文本描述中创建出色的视频场景，是目前在视频生成领域达到前所未有的真实感，它能够通过文本在短时间内生成长达一分钟的视频。比如我们自己写了一个小故事，想把这个小故事拍成微电影，用Sora就可以轻松实现。

Sora具有以下特点：

第一.只需提供文本描述，Sora就能生成与之匹配的视频内容。这样就极大地降低了视频创作的门槛，使没有专业视频制作技能的人也能创作出高质量的视频。

第二，Sora可以理解文本内容以及本文内容中描述的物理运动等，如物体的运动、光影效果；

第三，Sora能够生成具有特定的运动和情感表达的多个角色和复杂场景的视频；

Sora到底懂不懂物理世界？

AI圈掀起头脑风暴：Sora究竟懂不懂物理世界？ 一场关于So

今天一次性把Sora是什么说清楚，让我们每个普通人也可以了解清楚

AI圈掀起头脑风暴：Sora究竟懂不懂物理世界？一场关于So