-
中文互联网语料 AI 资源平台发布:27 个数据集、总量 2.7T
1 月 11 日消息,中国网络空间安全协会于 1 月 9 日发布公告,面向社会发布中文互联网语料资源平台,支持行业领域、内容模态、体量规模等多种标签分类,便于用户下载与使用。 该协会表示在中央网信办指导下,会同国家互联网应急中心,在前期发布中文互联网基础语料 1.0 的基础上,依托专委会建立的语料共建共享机制,汇聚一批新的高质量可信数据,经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处…- 3.6k
-
我国首个通用具身智能机器人数据集发布,含两百多个不同任务的多类场景
据央视新闻报道,日前,国家地方共建具身智能机器人创新中心与北京大学计算机学院,联合推出我国首个通用的具身智能机器人训练开源数据集。该数据集对多种形态的机器人本体进行数据采集,包含了两百多个不同任务的多类场景。 记者在创新中心机器人数据采集场看到,工程师通过操作机械臂,可以在虚拟的世界里捕捉机器人完成动作数据。机器人通过远程的遥控设备,可以进行动作学习和抓取;这边的工程师通过穿着全身动捕服饰,可以教…- 2.8k
-
全球首个:智元机器人宣布开源 AgiBot World 百万真机数据集,大幅超越谷歌 Open X-Embodiment
12 月 30 日消息,智元机器人今天宣布推出全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。 智元机器人表示:“这一里程碑式的开源项目,标志着具身智能领域‘ImageNet 时刻’已到来。” 智元机器人将按计划在 HuggingFace、Github 以及 agibot-world.com 项目主页上分批上传数据,附地址如下: Huggin…- 3.8k
-
哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI训练提供合法数据
12 月 13 日消息,据 TechCrunch 12 日报道,哈佛大学与谷歌宣布,联合发布 100 万本公共领域书籍作为 AI 训练数据集。 图源 Pexels AI 训练所需的数据成本高昂,但却更适合资金充裕的科技公司。因此,哈佛大学计划发布一个包含约 100 万本公共领域书籍的数据集,这些书籍覆盖多种类型、语言和作者,包括已不再受版权保护的经典作家如狄更斯、但丁和莎士比亚等,因这些作品的版权…- 3.3k
-
武汉大学联合中国移动九天人工智能团队开源音视频说话人识别数据集 VoxBlink2
武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2。该数据集包含9904382个高质量音频片段及其相应的视频片段,来自YouTube上的111284名用户,是目前最大的公开可用的音视频说话人识别数据集。数据集的发布旨在丰富开源语音语料库,支持训练声纹大模型。 VoxBlink2数据集通过以下步骤进行数据挖掘: 候选…- 8.9k
-
全球最大甲骨文“数据集”开源
“数字甲骨共创中心”今日正式开源全球最大的甲骨文多模态数据集,共包含一万片甲骨的拓片、摹本,甲骨单字对应位置、对应字头、对应释文以及辞例分组、释读顺序等数据。 据介绍,所有研究者都能基于该数据集研发甲骨文检测、识别、摹本生成、字形匹配和释读等算法,加速甲骨文研究智能化进程。 数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯 SSV 数字文化实验室、腾讯优图实验室、中国社会科学院甲骨学…- 4.6k