更新于02-24

[已过期]OpenAI 新王炸 —— Sora AI视频生成软件

去年最大的科技创新就是Open AI的ChatGPT，没想到才不到1年，他们就又从裤兜中掏出了全新大杀器——Sora。

视频来自于@Open AI，版权属于原作者

“我们正在教授人工智能理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。”根据Open AI的官方说法，他们已经教会AI自己生成视频，仅根据您所输入的文字，就可以生成相关联的视频，并且几乎能达到以假乱真的程度。(⬆️Sora宣传片就是自我生成的视频)

视频来自于@WSJ，版权属于原作者

OpenAI的Sora利用视觉块嵌入代码（patches）将视频数据压缩至低维潜在空间，并将其分解为时空嵌入，然后训练一个专门用于降低视觉数据维度的网络。该网络将原始视频输入，输出压缩后的潜在表示，并在此空间内生成视频。同时，OpenAI还训练了一个解码器模型，能将这些潜在表征还原为像素级的视频图像。通过这种方式，Sora能够适应不同分辨率、持续时间和宽高比的视频和图像，以生成新的视频内容。

图片来自于@ Open AI，版权属于原作者

不过Sora也还是面临着一些问题，暂时Sora只能做到1分钟的自动生成，且生成的视频可能会产生一些逻辑问题；例如上图，跑步机上的男子在反向奔跑，或者一个人可能咬了一口饼干，但之后饼干可能没有咬痕，等等。颇有种游戏世界中的Bug跑到了现实世界中的感觉。

篮球穿模Bug

动物首尾相连Bug

但是就算这样，Sora也依旧是我们能见到的最强大的视频智能生成AI。无论是在视频的真实性、长度、稳定性、一致性、分辨率还是对文本的理解方面，Sora 均展现出了目前最佳的水平。

在大规模训练下，OpenAI的Sora展现出了引人注目的涌现能力，能够模拟真实世界中的人、动物和环境，而非基于特定预设，而是由大规模数据驱动产生的。其能力包括三维空间的连贯性，远距离连续性与物体持久性，以及数字世界的模拟。OpenAI认为Sora是理解和模拟现实世界的基础，其能力是实现人工智能通用智能（AGI）的重要里程碑，而这个未来也许并不久远了。