苹果推出全能视觉模型4M-21 可处理21种不同模态

苹果和瑞士洛桑联邦理工学院(EPFL)的研究人员联合开发了一种任意到任意模态的单一模型,可以在数十种高度多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。该模型被命名为4M-21,它在21种不同的模态下进行训练,比现有的模型至少完成3倍以上的任务,并且不会损失性能。

苹果推出全能视觉模型4M-21 可处理21种不同模态

该研究采用了4M 预训练方案,通过扩大模型和数据集的规模、增加训练模型所涉及的模态类型和数量,并且在多个数据集上进行联合训练,可以提升模型的性能和适应性。研究人员使用不同的 tokenization 方法来离散具有不同特征的模态,如全局图像嵌入、人体姿态和语义实例。在架构选择上,该研究采用基于 Transformer 的4M 编码器 - 解码器架构,并添加额外的模态嵌入以适应新模态。

苹果推出全能视觉模型4M-21 可处理21种不同模态

该模型不仅可以开箱即用地执行一系列常见的视觉任务,如 DIODE 表面法线和深度估计、COCO 语义和实例分割、3DPW3D 人体姿态估计等,还能够生成任意训练模态、支持几种方法来执行细粒度和多模态生成,以及可以通过使用其他模态作为查询来检索 RGB 图像或其他模态。此外,研究人员还在 NYUv2、Hypersim 语义分割和 ARKitScenes 上进行了多模态传输实验。

其重要的功能特点包括:

任意到任意模态:从现有最佳任意到任意模型的7种模态增加到21种不同模态,实现跨模态检索、可控生成和强大的开箱即用性能。

多样性支持:添加对更多结构化数据的支持,例如人体姿态、SAM 实例、元数据等等。

Tokenization:使用特定于模态的方法研究不同模态的离散 tokenization,例如全局图像嵌入、人体姿态和语义实例。

扩展:将模型大小扩展至3B 参数,将数据集扩展至0.5B 样本。

协同训练:同时在视觉和语言上协同训练。

  • 论文地址:https://arxiv.org/pdf/2406.09406
声明:内容均采集自公开的网站等各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

昆仑万维天工开放平台面向OpenAl API用户推出“一键搬家计划”

2024-6-26 8:52:50

资讯

LG Uplus正式发布小型生成式AI模型ixi-GEN 可本地微调

2024-6-26 8:55:50

搜索