转载:https://www.toutiao.com/article/7337214193391649289/

原创2024-02-19 15:38·雷科技

就在前几天，OpenAI发布了文生视频工具Sora，尽管这并非行业首创，但作为AGI的“开宗立派”者的旗舰产品，Sora依然震撼了科技产业。除了引爆科技圈热议外，媒体、文娱等等相关产业均对Sora高度关注，更有消息称“开工第一天，所有VC都在开会讨论Sora”。

Sora从技术上迎来了全面革新，比如说，它能实现长达1分钟的视频内容创作，也能根据需要制作长镜头内容，还能根据不同角色的情感给出不同的镜头语言。如果最终发布的产品的能力，真如视频Demo这般强大，Sora将对流水线制作模式的影视团队带来一些冲击。

马斯克也在个人社交平台当中锐评道：“gg humans（人类愿赌服输）”。

（图源：X）

不过，Sora仍在测试阶段，距离其真正投入使用还有一段时间。鉴于AIGC行业存在“Demo过度”的情况（比如Google Gemini发布会的演示就被揭露造假了），因此Sora发布版到底表现如何还有待体验。至于Sora能否真正引发行业变革甚至像一些媒体危言耸听宣称的“颠覆世界，消灭XX”，其实也还是未知数。

史上最强AI视频工具，到底有何突破？

Sora的最大突破在于能够根据文本描述生成一段长达60秒的视频内容，此前，世界记录的保持者为Runway的Gen-2，最高能创作时长为16秒的视频。但Sora并不是一个纯粹的视频生成工具。

（图源：Sora）

在OpenAI公开的技术性报告中，Sora的真实身份被揭晓：底层是一个扩散Transformer模型，相较于传统的基于二维模型的文生视频产品而言，Sora具有对现实世界物理规律的感知，对于如何生成一段「逼真」的视频，有深刻的自主意识。

OpenAI在Sora的官方网站中放出了多条演示视频，其中一段两只海盗船在咖啡杯中翻涌的视频，展现出Sora对液体的状态、船只的物理形态、运动轨迹的判断多维度的理解。

（图源：Sora）

此外，Sora还能产生多个角色、特定类型运动以及主体背景丰富细节等多种复杂场景的视频，即便用户没有描述这些特定场景的细节，Sora依然能够理解并准确生成。比如说，当你需要一个描述为「晚宴」的视频内容时，Sora并不会止步于饕客们将美食一扫而光的过程与结果，而是会将每一个动作所留下来的痕迹得以保留：咬了一口的汉堡，就会有咬过的痕迹。

事实上，Sora的成功离不开OpenAI公司前两款产品的经验积累，那就是2021年初、2022年末分别推出的图像生成工具DALL.E与自然语言大模型工具ChatGPT，通过它们，Sora获得了对文字描述的理解与图像数据处理的能力。

（图源：Sora）

更重要的是，OpenAI为Sora引入了视觉块嵌入式代码，即pathces，你也可以将其理解为LLM里的tokens，这些pathces就像是一个又一个包含了时间、空间信息的积木块，Sora能够更快速地从中找到所需的素材，为创作者生成视频。此外，这些pathces也能帮助Sora完成高速的自主学习。

Sora还能接受图片和视频输入，生成新的创意视频，又或是根据描述生成多达五个分镜头，包含人物表情特写、动作特写、场景等。这只是目前为止我们能看到的Sora具备的能力，正如前面

Sora太炸裂了！生成视频以假乱真，人类如何辨真假？

史上最强AI视频工具，到底有何突破？