谷歌推出多模态 VLOGGER AI：让静态肖像图动起来“说话”

谷歌近日在 GitHub 页面发布博文，介绍了 VLOGGER AI模型，用户只需要输入一张肖像照片和一段音频内容，该模型可以让这些人物“动起来”，富有面部表情地朗读音频内容。

VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型，使用 MENTOR 数据库进行训练，该数据库中包含超过 80 万名人物肖像，以及累计超过 2200 小时的影片，从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。

谷歌推出多模态 VLOGGER AI：让静态肖像图动起来“说话”

研究人员表示：“和此前的多模态相比，VLOGGER 的优势在于不需要对每个人进行训练，不依赖于人脸检测和裁剪，可以生成完整的图像（而不仅仅是人脸或嘴唇），并且考虑了广泛的场景（例如可见躯干或不同的主体身份），这些对于正确合成交流的人类至关重要”。

Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步，之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。

VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等，也可剪辑既有的影片，如果对影片中的表情不满意就能加以调整。

附上论文参考

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

谷歌推出多模态 VLOGGER AI：让静态肖像图动起来“说话”

开发者再分享 OpenAI Sora 生成的短视频：树叶大象、彩虹瀑布等

迪拜AI配音公司Camb.AI种子融资400万美元，高还原度即时配音服务

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

开发者再分享 OpenAI Sora 生成的短视频：树叶大象、彩虹瀑布等

迪拜AI配音公司Camb.AI种子融资400万美元，高还原度即时配音服务

谷歌 DeepMind 推出 Genie 模型：110 亿个参数，基于图片和提示词生成 2D 游戏

谷歌 Eureka AI模型提前曝光 卓越的文本写作能力引关注

谷歌发布 NeuralGCM 天气预报 AI 模型：运行成本更低、预测更准

Reddit 被曝屏蔽多个搜索引擎和 AI 爬虫，官方称与谷歌合作无关

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

谷歌 Eureka AI模型提前曝光卓越的文本写作能力引关注