巴黎矿业大学和以色列理工学院的研究人员联合推出了一款创新视频模型——Slicedit。这款模型能够在不改变视频背景的情况下,对视频中的主要对象进行修改。例如,可以将冲浪者变成钢铁侠,或将转球的男孩变成NBA巨星库里等。
Slicedit模型结合了文生图像的扩散模型和对视频时空切片的预处理。尽管修改后的视频可能会出现一些模糊和扭曲,但对于不熟悉专业视频编辑软件的业余人员来说,Slicedit提供了一种快速完成视频内容修改的方法,类似于视频版的Photoshop。这使得它非常适合用来制作搞笑视频,用于鬼畜、抖音、快手等平台。
Slicedit通过以下几个关键技术克服了视频编辑中的难题:
空间时间切片:从视频的三维空间中提取的二维平面,可以是固定时间点上的视频帧,或者是特定方向上跨越时间的连续帧组合。这使得模型能够处理视频中的动态元素,同时保持背景和其他非目标区域的稳定和完整性。
扩展注意力:Slicedit改进了传统的注意力机制,使其能够处理时间序列数据。模型在处理当前帧时,不仅考虑当前帧的信息,还会考虑与之相邻的帧,从而捕捉视频帧之间的动态变化。
DDPM反演:Slicedit采用了一种反推的去噪过程,从目标数据开始,找到一组噪声向量,这些向量在经过DDPM的生成过程后能够重建原始数据。这涉及到将输入视频帧转换为噪声空间,并进行条件去噪,以符合用户的编辑标准。
研究人员表示,他们计划很快开源Slicedit模型,以便更多的开发人员可以构建自己的视频编辑器。
这项技术的发展可能会对视频编辑领域产生重大影响,使得视频编辑变得更加容易和可访问,同时也为内容创作者提供了更多创新的可能性。
论文地址:https://arxiv.org/pdf/2405.12211