多知网2月16日消息,OpenAI今日发布文生视频模型产品Sora。据官网介绍,Sora是一种人工智能模型,可以根据文本指令快速创建逼真的60秒视频,同时保持视觉质量并遵守用户的提示。
据介绍,研发团队正在教人工智能理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界互动的问题。
据介绍,Sora能够生成具有多个角色、特定类型的动作以及主题和背景细节精确的复杂场景。该模型不仅了解用户在提示中要求什么,还了解这些东西在物理世界中的存在方式。
Sora对语言有深刻的理解,使其能够准确地解释提示,并生成表达充满活力的情感的引人注目的角色。Sora还可以在一个生成的视频中创建多个镜头,准确地保留角色和视觉风格。
不过,OpenAI也指出,Sora还有进步的空间。目前,它可能难以准确地模拟复杂场景的物理,也可能无法理解因果关系的具体实例。例如在Sora生成的视频里,一个人可能咬了一口饼干,但之后,饼干上可能没有咬痕。此外,该模型还可能混淆提示的空间细节,例如,混淆左和右,并且可能难以精确描述随时间发生的事件,例如跟随特定的摄像机轨迹。
OpenAI还授予一个专家团队访问权限,该团队负责评估Sora的安全性,然后将其纳入公司的产品中。作为推出该产品的准备工作的一部分,OpenAI表示正在开发工具,以帮助检测视频是由Sora生成的。团队也允许一些视觉艺术家、设计师和电影制作人访问,以获得关于如何推进该模型以对创意专业人士最有帮助的反馈。
在视频生成领域,此前已经出现了Runway和Pika等知名选手,均可以生成逼真视频。随着Sora的出现,或将搅动视频生成领域的风云。