2月16日凌晨,OpenAI在官网发布了创新性文生视频模型——Sora。
从OpenAI在官网展示的Sora生成视频的效果来看,在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好!
特别是可以生成最长1分钟的视频!超过Gen-2、SVD-XT、Pika等主流产品,一出手就是王炸。
2023年9月21日,OpenAI发布了文生图模型DALL·E 3,加上现在的Sora以及之前的语音模型Whisper,ChatGPT已经具备了文本、图像、视频、音频4大多模态功能,AGI离我们还远吗?
Sora简单介绍
目前,文生视频领域因为帧间依赖处理、训练数据、算力资源、过拟合等原因,一直无法生成高质量的长视频。
而Sora最大技术突破是,可以在保持质量的前提下,生成1分钟的视频,在业内非常罕见。这也再次展示了OpenAI在大模型领域超强的技术研发能力。
Sora是一种扩散模型,主要通过静态噪音的视频开始生成视频,然后再通过多个步骤去除噪音,逐渐转换视频。
Sora与ChatGPT一样采用的是Transformer架构,并使用了DALL-E 3中的重述技术,是一种为视觉训练数据生成高精准描述性的字幕。所以,Sora在生成视频过程中精准还原用户的文本提示语义。
功能方面,除了文本生成视频之外,Sora还能根据图像生成视频,并能准确地对图像内容进行动画处理。也能提取视频中的元素,对其进行扩展或填充缺失的帧,功能非常全面。
稍晚一些OpenAI会发布Sora论文,「1ai」为大家带来更深度的技术解读。