AI圈掀起头脑风暴:Sora究竟懂不懂物理世界? 一场关于So
AI圈掀起头脑风暴:Sora究竟懂不懂物理世界?
一场关于Sora是否真正理解物理世界的激烈讨论正在AI领域的大佬们之间展开。图灵奖得主Yann LeCun、Keras之父Francois Chollet等人纷纷加入这场辩论。
最近,OpenAI发布了一款名为Sora的视频生成模型,它打破了以往生成视频长度的限制,能够创作出长达60秒的视频。更令人惊叹的是,Sora不仅能理解用户在Prompt中提出的要求,还能捕捉到人物和物体在物理世界中的存在方式。
以“海盗船在咖啡杯中缠斗”为例,Sora需要克服规模适应、流体动力学、光线和阴影处理以及动画真实性等多重物理挑战。尽管生成的视频效果还有待完善,但Sora似乎已经展现出了一定的“物理智慧”。
英伟达高级研究科学家Jim Fan甚至大胆断言:“Sora是一个数据驱动的物理引擎,是一个可学习的模拟器,或‘世界模型’。”然而,这一观点并非毫无争议。
Yann LeCun认为,仅仅根据prompt生成逼真视频并不能证明模型理解了物理世界。在他看来,生成视频的过程与基于世界模型的因果预测截然不同。他主张更理想的做法是生成视频后续内容的抽象表达,并消除与可能采取的动作无关的场景细节。
而Francois Chollet则指出,虽然Sora这样的视频生成模型确实嵌入了“物理模型”,但关键在于这个模型是否准确,以及能否泛化到新的情况。他认为,目前Sora更倾向于依赖数据插值和潜空间拼贴来生成图像,而不是真实的物理模拟。
这场关于Sora是否懂物理的辩论仍在继续,但无疑已经激发了AI领域对物理建模和视频生成的新思考。

今天一次性把Sora是什么说清楚,让我们每个普通人也可以了解清楚
今天一次性把Sora是什么说清楚,让我们每个普通人也可以了解清楚!
Sora是OpenAI公司开发的一种文本转换成视频的模型,什么是模型?通俗点讲 它类似Runway,Pika,但是Runway,Pika这两个模型生成的视频时间在3-5秒,且视频质量清晰度不高,Sora可以根据我们提供的文本生成长达一分钟的高质量视频。我们可以用AI工具比如Midjourny 去选择Sora这个模型去做Ai视频。
Sora可以从基本的文本描述中创建出色的视频场景,是目前在视频生成领域达到前所未有的真实感,它能够通过文本在短时间内生成长达一分钟的视频。比如我们自己写了一个小故事,想把这个小故事拍成微电影,用Sora就可以轻松实现。
Sora具有以下特点:
第一.只需提供文本描述,Sora就能生成与之匹配的视频内容。这样就极大地降低了视频创作的门槛,使没有专业视频制作技能的人也能创作出高质量的视频。
第二,Sora可以理解文本内容以及本文内容中描述的物理运动等,如物体的运动、光影效果;
第三,Sora能够生成具有特定的运动和情感表达的多个角色和复杂场景的视频;
目前暂未发布Sora公测地址,你准备好迎接新时代的到来了嘛?