转载:https://www.toutiao.com/article/7337214193391649289/
原创2024-02-19 15:38·雷科技就在前几天,OpenAI发布了文生视频工具Sora,尽管这并非行业首创,但作为AGI的“开宗立派”者的旗舰产品,Sora依然震撼了科技产业。除了引爆科技圈热议外,媒体、文娱等等相关产业均对Sora高度关注,更有消息称“开工第一天,所有VC都在开会讨论Sora”。
Sora从技术上迎来了全面革新,比如说,它能实现长达1分钟的视频内容创作,也能根据需要制作长镜头内容,还能根据不同角色的情感给出不同的镜头语言。如果最终发布的产品的能力,真如视频Demo这般强大,Sora将对流水线制作模式的影视团队带来一些冲击。
马斯克也在个人社交平台当中锐评道:“gg humans(人类愿赌服输)”。
(图源:X)
不过,Sora仍在测试阶段,距离其真正投入使用还有一段时间。鉴于AIGC行业存在“Demo过度”的情况(比如Google Gemini发布会的演示就被揭露造假了),因此Sora发布版到底表现如何还有待体验。至于Sora能否真正引发行业变革甚至像一些媒体危言耸听宣称的“颠覆世界,消灭XX”,其实也还是未知数。
史上最强AI视频工具,到底有何突破?
Sora的最大突破在于能够根据文本描述生成一段长达60秒的视频内容,此前,世界记录的保持者为Runway的Gen-2,最高能创作时长为16秒的视频。但Sora并不是一个纯粹的视频生成工具。
(图源:Sora)
在OpenAI公开的技术性报告中,Sora的真实身份被揭晓:底层是一个扩散Transformer模型,相较于传统的基于二维模型的文生视频产品而言,Sora具有对现实世界物理规律的感知,对于如何生成一段「逼真」的视频,有深刻的自主意识。
OpenAI在Sora的官方网站中放出了多条演示视频,其中一段两只海盗船在咖啡杯中翻涌的视频,展现出Sora对液体的状态、船只的物理形态、运动轨迹的判断多维度的理解。
(图源:Sora)
此外,Sora还能产生多个角色、特定类型运动以及主体背景丰富细节等多种复杂场景的视频,即便用户没有描述这些特定场景的细节,Sora依然能够理解并准确生成。比如说,当你需要一个描述为「晚宴」的视频内容时,Sora并不会止步于饕客们将美食一扫而光的过程与结果,而是会将每一个动作所留下来的痕迹得以保留:咬了一口的汉堡,就会有咬过的痕迹。
事实上,Sora的成功离不开OpenAI公司前两款产品的经验积累,那就是2021年初、2022年末分别推出的图像生成工具DALL.E与自然语言大模型工具ChatGPT,通过它们,Sora获得了对文字描述的理解与图像数据处理的能力。
(图源:Sora)
更重要的是,OpenAI为Sora引入了视觉块嵌入式代码,即pathces,你也可以将其理解为LLM里的tokens,这些pathces就像是一个又一个包含了时间、空间信息的积木块,Sora能够更快速地从中找到所需的素材,为创作者生成视频。此外,这些pathces也能帮助Sora完成高速的自主学习。
Sora还能接受图片和视频输入,生成新的创意视频,又或是根据描述生成多达五个分镜头,包含人物表情特写、动作特写、场景等。这只是目前为止我们能看到的Sora具备的能力,正如前面