苹果推出全能视觉模型4M-21 可处理21种不同模态

苹果和瑞士洛桑联邦理工学院（EPFL）的研究人员联合开发了一种任意到任意模态的单一模型，可以在数十种高度多样化的模态上进行训练，并对大规模多模态数据集和文本语料库进行协同训练。该模型被命名为4M-21，它在21种不同的模态下进行训练，比现有的模型至少完成3倍以上的任务，并且不会损失性能。

该研究采用了4M 预训练方案，通过扩大模型和数据集的规模、增加训练模型所涉及的模态类型和数量，并且在多个数据集上进行联合训练，可以提升模型的性能和适应性。研究人员使用不同的 tokenization 方法来离散具有不同特征的模态，如全局图像嵌入、人体姿态和语义实例。在架构选择上，该研究采用基于 Transformer 的4M 编码器 - 解码器架构，并添加额外的模态嵌入以适应新模态。

苹果推出全能视觉模型4M-21 可处理21种不同模态

该模型不仅可以开箱即用地执行一系列常见的视觉任务，如 DIODE 表面法线和深度估计、COCO 语义和实例分割、3DPW3D 人体姿态估计等，还能够生成任意训练模态、支持几种方法来执行细粒度和多模态生成，以及可以通过使用其他模态作为查询来检索 RGB 图像或其他模态。此外，研究人员还在 NYUv2、Hypersim 语义分割和 ARKitScenes 上进行了多模态传输实验。

其重要的功能特点包括:

任意到任意模态:从现有最佳任意到任意模型的7种模态增加到21种不同模态，实现跨模态检索、可控生成和强大的开箱即用性能。

多样性支持:添加对更多结构化数据的支持，例如人体姿态、SAM 实例、元数据等等。

Tokenization:使用特定于模态的方法研究不同模态的离散 tokenization，例如全局图像嵌入、人体姿态和语义实例。

扩展:将模型大小扩展至3B 参数，将数据集扩展至0.5B 样本。

协同训练:同时在视觉和语言上协同训练。

论文地址:https://arxiv.org/pdf/2406.09406

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

苹果推出全能视觉模型4M-21 可处理21种不同模态

昆仑万维天工开放平台面向OpenAl API用户推出“一键搬家计划”

LG Uplus正式发布小型生成式AI模型ixi-GEN 可本地微调

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

昆仑万维天工开放平台面向OpenAl API用户推出“一键搬家计划”

LG Uplus正式发布小型生成式AI模型ixi-GEN 可本地微调

苹果与新闻出版机构谈判，寻求利用其内容开发生成式 AI 系统

苹果或推出AI应用商店 预计在6月的WWDC上发布

苹果WWDC2024定档：6月10日举行 iOS 18生成式AI将发布

iPhone AI 大升级：消息称苹果即将与 OpenAI 达成协议，iOS 18 用上 ChatGPT

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

苹果或推出AI应用商店预计在6月的WWDC上发布