最近,又有一款名为Hotshot 的全新的文本转视频 AI 生成器让人眼前一亮,从官方晒出的视频效果,相当惊艳!
据了解,这款新的 Hotshot 模型最长能够生成长达10秒、720p 的视频,并且在创作风格上非常灵活,可以展现不同的动画风格,比如像漫画书一样的动画或是转描风格的视频。其亮点可总结如下:
- 文本转视频生成 :用户可以输入文本,生成可达10秒的720p 视频,支持快速和便捷的创作过程。
- 无水印视频输出 :免费用户生成的视频没有水印,这为创作者提供了更多自由度。
- 多样化视频风格 :Hotshot 可以生成多种风格的视频,包括漫画风格和动态影像,满足不同创作需求。
- 高适应性与扩展性 :该模型具备扩展至更长视频时长和更高分辨率的潜力,未来还可能支持音频生成。
- 强大的技术基础 :Hotshot 基于600百万视频片段进行训练,使用了大量 GPU,实现了高效的视频生成。
该AI视频生成模型目前已经进入了公开的 “早期预览” 阶段,用户可以在 Hotshot 的官方网站上免费体验这个模型,不过需要注意的是,每天的生成次数被限制在两个视频,且生成的视频是没有水印的。
Hotshot 背后团队四个月完成模型训练
Hotshot 的初创公司于2023年成立,由 Aakash Sastry、John Mullan 和 Duncan Crawbuck 三位创始人共同打造。
Sastry 在社交媒体 X 上表示:“在过去的十年里,首次有可能为客户构建强大而新颖的视频应用。” 这款新的 Hotshot 模型是他们实现这一目标的基础,他们表示这是一个开始,未来将有更多惊喜呈现给大家。之前,Hotshot 以一款免费的消费者 AI 照片创建和编辑应用走红,但现在他们将重心转向了这一新的文本转视频 AI 模型。
据 Sastry 透露,Hotshot 团队在短短四个月内就完成了这个模型的训练,这可不是一件简单的事!他们使用了6亿个视频片段,依靠数千个 GPU 进行训练,过程中的技术挑战可想而知,甚至有时候机器的故障让人头疼不已。
为了保证模型的顺利训练,他们的团队成员几乎全天候监控着训练进程。Sastry 也表示,他们正在探索更长的视频时长和更高的分辨率,未来或许还会加入音频元素。
在他看来,AI 生成内容可能会在未来12个月内成为数字媒体的主流,尤其是在 YouTube 视频制作方面,创作者将能够完全控制生成过程,从文本到视频,甚至音频。