-
MAGI-1:图生视频模型,Sand Al 开源的首个自回归视频生成模型
MAGI-1 是 Sand AI开源的全球首个自回归视频生成大模型,采用自回归架构,通过逐块预测视频序列生成流畅自然的视频,支持无限扩展和一镜到底的长视频生成。模型原生分辨率可达 1440x2568,生成的视频动作流畅且细节逼真,具备可控生成能力,可通过分块提示实现平滑场景转换和细粒度控制。 MAGI-1功能 高效视频生成:MAGI-1能在短时间内生成高质量视频片段,例如生成5秒视频仅需3秒,生成…- 1.4k
-
阿里万相视频生成大模型宣布开源:8.2GB 显存就能跑,测试超越 Sora
阿里云2 月 25 日宣布旗下视觉生成基座模型万相 2.1(Wan)开源。 此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。 据介绍,14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在评测集 VBe…- 2.8k
-
字节跳动进军视频AI 豆包视频生成大模型发布
豆包视频生成模型发布现场。江佳玲摄 人民网深圳9月24日电(江佳玲)9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,现场发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。 据介绍,此前视频生成模型大多只能完成简单指令。新款豆包视频生成模型能让视频在大动态与运镜中自由切换,拥有变焦、环绕、目标跟随等多镜头语言能力,而且具备专业级光影布局和色…- 9.2k
-
阿里通义将发布AI视频生成大模型,支持文生视频、图生视频
阿里通义将在 2024 云栖大会(9 月 19 日至 9 月 21 日)期间发布视频生成大模型,目前通义App 频道和通义万相 PC 端已上线“视频生成”入口,仅支持用户预约,但未开放使用。 页面内容显示,全新发布的视频生成大模型是由通义实验室自主研发,包含“文生视频”和“图生视频”两种创作模式。 预约成功后,阿里通义会在用户获得使用资格时进行通知,并赠送给用户 66 灵感值(有效期 30 天)。…- 5.3k
-
商汤科技推出Vimi视频生成大模型 C端应用Vimi相机开放内测
在2024年世界人工智能大会(WAIC)上,商汤科技推出的可控人物视频生成大模型——Vimi。Vimi模型利用商汤先进的大模型技术,能够通过单张照片生成与目标动作一致的人物视频,实现精准的表情和肢体控制。该模型支持多种驱动方式,包括视频、动画、声音和文字,具有多年积累的面部跟踪技术和对细节的精确控制能力,能够生成高一致性、光影和谐的视频内容。 Vimi的稳定性尤为突出,能够生成长达1分钟以上的单镜…- 12.1k
-
一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi
商汤科技在世界人工智能大会(WAIC)上发布了首个“可控”人物视频生成大模型 Vimi,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。 与图片表情控制类技术只能控制头部表情动作不同,商汤称 Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服…- 3.3k
-
号称效果对标 Sora:快手视频生成大模型“可灵”开放邀测
快手“可灵”视频生成大模型正式上线。官方表示,可灵大模型为快手 AI 团队自研,其采用 Sora 相似的技术路线,号称结合多项自研技术创新、效果对标 Sora。 据介绍,可灵大模型具备如下优势: 可生成大幅度的合理运动 可模拟物理世界特性 具备强大概念组合能力、想象力 生成视频分辨率为 1080p,时长 2 分钟(帧率 30fps),支持自由调整宽高比 从快手方面获悉,可灵大模型已在快影 App …- 10.3k