Mochi 1是Genmo公司推出的开源 AI 视频生成模型,可将文本提示转换为高质量视频。它是根据 Apache 2.0 许可发布的,代表了 AI 视频技术民主化的重要里程碑,支持个人和商业用途的免费使用。模型目前提供480p的基础版本,计划在年底前推出支持720p的高清版本Mochi 1 HD,提供更高保真度和更流畅的动作。Mochi 1的模型权重和架构在Hugging Face平台上找到,Genmo提供了一个托管的游乐场,用户可以免费试用Mochi 1的功能。Mochi 1 的特别之处在于它的 100 亿(10B)参数架构,使其成为有史以来发布的最大的开源视频生成模型。该模型在两个关键领域表现出色:提示遵守和运动质量,为开源 AI 视频生成的可能性设定了新的基准。作为一种免费且易于使用的工具,Mochi 1 打破了传统上使许多创作者和开发者无法获得高级 AI 视频生成功能的障碍。
Mochi 1功能
- 高保真度动作生成:Mochi 1 在动作生成方面取得了显著进步,能生成流畅的视频,模拟物理原理如流体动力学、毛发和头发模拟,以及连贯、流畅的人类动作,开始跨越恐怖谷。
- 强大的提示遵循能力:Mochi 1 能非常准确地遵循用户提供的提示,生成符合预期的视频内容。通过文本和视觉标记联合构建视频,类似于 Stable Diffusion 3,流式架构通过更大的隐藏维度,参数数量几乎是文本流的四倍。
- 开源架构:Mochi 1 的模型权重和源代码根据 Apache 2.0 开源许可证发布,可以自由下载和使用,支持个人或商业用途。
- 高效率:Mochi 1 使用了 Genmo 自己的非对称扩散变压器(Asymmetric Diffusion Transformer,简称 AsymmDiT)架构,架构通过简化文本处理以专注于视觉效果来有效地处理用户提示和压缩视频令牌。
- 托管游乐场:Genmo 提供了一个新的托管游乐场,用户可以免费试用 Mochi 1 的功能,体验视频生成的过程。
- 高参数量:Mochi 1 使用了 100 亿参数的扩散模型,用于训练模型更加准确的变量数量。
官网链接:https://mochi1.me