智谱清影是智谱ai最新推出的AI视频生成工具,智谱清影支持文本生成视频和图像生成视频两种模式,能够快速生成6秒,分辨率高达1440x960的视频内容,仅需30秒的时间。
智谱清影基于多模态大模型技术底座构建,其核心视频生成模型为CogVideoX,采用了新型DiT架构,可以更高效地压缩视频信息,并融合文本、时间和空间三个维度。此外,智谱清影还具备较高的可控性,用户可以通过语言控制生成的视频内容。
清影功能
文生视频:用户输入文本描述或脚本,AI根据这些文本信息生成视频内容。
图生视频:用户上传一张或多张静态图像,AI分析图像内容后生成动态视频。
添加背景音乐:支持为生成的视频添加背景音乐,包括安静、轻松欢快、伤感、史诗、搞怪等类型。
快速生成: 与市场上其他同类产品相比,清影能够显著缩短生成视频的时间。用户仅需等待约30秒,就能获得一段6秒的视频,推理时间从以往的分钟级压缩到了秒级,大大提高了效率。
高可控性: 清影通过优化技术和自研的端到端视频理解模型,提升了对用户指令的遵循能力,使得生成的视频更贴近用户的创意意图。用户通过详细描述场景、镜头语言和细节,可以得到满意的结果,减少了“试错”次数。
风格多样: 用户可以选择不同的风格进行创作,包括但不限于卡通3D、黑白、油画和电影感等,满足个性化和创意表达的需求。
全民可用: 清影智能体对所有用户开放,无论是普通用户还是开发者,都能轻松使用。企业和开发者还可以通过API调用,集成文生视频和图生视频能力到自己的应用中。
自带配乐: 清影还提供配乐功能,用户生成的视频可以自动配上音乐,简化了视频创作流程,使得即便是没有专业技能的用户也能快速产出有声有色的视频内容。
技术基础: 清影背后的技术支撑是智谱AI自研的视频生成大模型CogVideoX,该模型采用了类似于Sora的DiT结构,能够融合文本、时间和空间信息,优化后的模型推理速度比前代提升了6倍。
智谱清影技术特点:
快速生成:仅需30秒即可完成6秒视频的生成。
高效的指令遵循能力:即使是复杂的prompt,清影也能准确理解并执行。
内容连贯性:生成的视频能够较好地还原物理世界中的运动过程。
画面调度灵活性:例如,镜头能够流畅地跟随画面中的三只狗狗移动。
智谱清影行业应用:
广告制作
电影剪辑
短视频制作
创意内容创作