-
苹果推出全能视觉模型4M-21 可处理21种不同模态
苹果和瑞士洛桑联邦理工学院(EPFL)的研究人员联合开发了一种任意到任意模态的单一模型,可以在数十种高度多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。该模型被命名为4M-21,它在21种不同的模态下进行训练,比现有的模型至少完成3倍以上的任务,并且不会损失性能。 该研究采用了4M 预训练方案,通过扩大模型和数据集的规模、增加训练模型所涉及的模态类型和数量,并且在多个数据集…- 2.9k
-
Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景
据 Meta 公司官方新闻稿,该公司开发了一款名为“SceneScript”的视觉模型,该模型号称能够使用可编程语言来快速“建立”场景,实时推断房间几何形状,并将相关数据转换为建筑学层面的近似值。 图源 Meta 公司官方新闻稿 Meta 声称,相关方法能够高效且轻量地建立室内 3D 模型,号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”,并且相关形状数据具有“可解释性”,用户可以轻松阅…- 1.5k
❯
搜索
扫码打开当前页
返回顶部
幸运之星即将降临……
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠
-
¥優惠使用時效:无法使用使用時效:
之前
使用時效:预期有效优惠编号:×
没有优惠可用!