-
英伟达发布 6.3 万亿 Token 大型 AI训练数据库 Nemotron-CC
据英伟达1 月 13 日官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文 AI训练数据库,总计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。 目前,业界各类 AI 模型的具体性能主要取决于相应模型的训练数据。然而现有公开数据库在规模和质量上往往存在局限性,英伟达称 Nemotron-…- 1.8k
-
X 平台修改隐私政策,11 月 15 日起第三方公司可将用户内容用于训练 AI 模型
近日,社交平台X更新隐私政策,11月15日起,将允许X平台使用用户数据训练AI模型,除非用户选择退出,引发用户不满。此前,Adobe、谷歌等公司也在条款中引入类似内容,引起AI训练与隐私、版权等冲突的争议,相关法律问题仍在讨论中。 改变:用户数据将被用于AI训练 近日,X平台更新隐私政策,新增条款允许其与第三方共享用户数据以训练AI,除非用户选择退出。但平台并未提供明确的退出选项,且提醒用户即使内…- 5.3k
-
"弱智吧"成最受欢迎中文AI训练数据库,语料投喂大数据登上中科院研究论文
“弱智吧”是百度贴吧的一个子论坛。在这个论坛中,用户会创作含双关语、多义词、因果倒置和谐音词等或令人拍案叫绝或“烧脑”的内容。一些内容设有逻辑陷阱,即使对人类来说也是挑战。 今年4月,中国科学院研究团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中,使用“弱智吧标题+GPT-4回答”微调…- 4.3k
-
Adobe 更新服务条款,澄清不会将用户作品用于 AI 训练
过去几周,Adobe 因更新服务条款而引发用户强烈批评,本周二,该公司公布了修订后的服务条款,明确强调其不会利用用户存储在本地或云端的内容来训练 AI模型。 更新后的条款中,关于 Adobe 访问用户内容的部分新增了几个细分类别,其中之一专门针对生成式 AI。条款明确指出,Adobe 的软件“不会使用您的本地或云端内容训练生成式 AI 模型”。不过有一个例外:如果您将作品提交到 Adobe Sto…- 4.5k
-
破局 AI 数据中心用电荒,美国政府正探索兴建核电站
美国能源部长詹妮弗・格兰霍姆(Jennifer Granholm)近日接受 Axios 采访时,表示正积极探索核电站解决方案,以缓解 AI 数据中心的用电需求。 格兰霍姆表示美国发展 AI 本身并不是问题,AI 可以帮助人类解决很多问题。但问题的关键在于 AI 的快速发展已经超出国家电网的承载能力,现有电网无法支撑 AI 数据中心的快速扩张。 从报道中获悉,美国能源部(DOE)一直在与微软、谷歌和…- 2.2k