中文互联网语料 AI 资源平台发布：27 个数据集、总量 2.7T

1 月 11 日消息，中国网络空间安全协会于 1 月 9 日发布公告，面向社会发布中文互联网语料资源平台，支持行业领域、内容模态、体量规模等多种标签分类，便于用户下载与使用。

该协会表示在中央网信办指导下，会同国家互联网应急中心，在前期发布中文互联网基础语料 1.0 的基础上，依托专委会建立的语料共建共享机制，汇聚一批新的高质量可信数据，经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理措施，形成并对社会发布中文互联网基础语料 2.0，规模 120GB，数据 3800 万条。

注：目前平台共入驻 27 个语料数据集，数据总量约 2.7T，主要分三类：

一是中国网络空间安全协会会同国家互联网应急中心等建设的中文互联网基础语料；
二是人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料；
三是中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位贡献的优质中文基础语料样本。

用户登录中国网络空间安全协会网站（https://www.cybersac.cn/newhome），点击“中文互联网语料资源平台”链接，通过注册、认证等程序，即可下载相关语料。

网安协会人工智能安全治理专委会负责人表示，数据是发展人工智能的基础关键资源，中文互联网基础语料 2.0 是各界协同共建高质量中文语料的又一重要成果，专委会将持续加强中文互联网基础语料建设，为人工智能技术创新和产业发展提供有力支撑和保障。

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

中文互联网语料 AI 资源平台发布：27 个数据集、总量 2.7T

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

“废片”也值钱：谷歌、OpenAI 被曝购买创作者未发布视频素材，以训练 AI 模型

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

“废片”也值钱：谷歌、OpenAI 被曝购买创作者未发布视频素材，以训练 AI 模型

新的 AI 技术使得研究人员能够监测建筑物的健康状况

阿斯利康与 AI 生物制药公司 Absci 签署价值 2.47 亿美元的协议：合作开发抗癌药物

JetBrains 推出新 AI 编码助手，结合多个大型语言模型以实现供应商中立

日企正开发 AI系统，帮客服应对客户辱骂等问题

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注