近日,YouTube 频道 WVFRM Podcast 在其节目中,邀请了 OpenAI 旗下文生视频模型 Sora 的核心团队成员参与访谈。
三名成员包括 Bill Peebles、Tim Brooks 和 Aditya Ramesh,均为 Sora 项目负责人。
这三名负责人谈到了 Sora 何时可供用户使用的问题,其称目前 Sora 仍处于反馈获取阶段,“还不是一个产品,短期之内不会向公众开放。”
对于什么时候把它变成一个产品,我们目前甚至没有任何时间表。我们正处于获取反馈阶段。我们肯定会改进它,但我们应该如何改进它是一个悬而未决的问题。
谈及 Sora 的原理时,负责人表示,其工作原理是分析大量视频数据、学习生成逼真的视频,工作方法融合了 GPT 等大语言模型及 DALL-E 等扩散模型的技术,架构类似于“介于两者之间”—— 架构上更像 GPT,训练方式类似于 DALL-E。
而对于 Sora 的训练数据来源问题,负责人则称不能透露太多细节,仅表示是基于公开可用的数据、OpenAI 授权数据的组合进行训练的。
Sora 能够根据文本快速生成相对高质量的视频,但业内人士认为,目前这类 AI 工具仍存在局限性,无法完全取代人类创作者的工作。
“很多人说好莱坞完了,” 电影概念艺术家和插画师 Reid Southen 表示,“但我并不这么认为。好莱坞的制作流程非常复杂,这些视频也存在很多问题,尤其是时间一致性和额外肢体等瑕疵。”