-
研究:训练数据含 0.001% 的错误信息足以“毒害”医学 AI模型
1月14日消息,纽约大学的一项研究揭示了大型语言模型(LLM)在医学信息训练中的潜在风险。研究表明,即使训练数据中仅含有 0.001% 的错误信息,也可能导致模型输出不准确的医学答案。 数据“投毒”是一个相对简单的概念。LLM 通常通过大量文本进行训练,这些文本大多来自互联网。通过在训练数据中注入特定信息,可以使模型在生成答案时将这些信息视为事实。这种方法甚至不需要直接访问 LLM 本身,只需将目…- 693
-
微软澄清:不会使用用户的 Word 和 Excel 数据来训练 AI模型
众所周知,微软 Office 拥有“连接体验(Connected Experiences)”功能,该功能可以分析用户创建的内容,以提供设计建议、编辑建议、数据见解等。 然而1AI注意到,网络安全博客 Cyberciti.biz 的博主 @nixCraft 称,微软的“连接体验”功能会自动抓取用户在 Word 和 Excel 文档中的数据,用于训练公司的 AI 模型。更令人担忧的是,该功能默认开启,…- 1.8k
-
AI行业面临"数据墙"挑战:2028年高质量训练数据或将耗尽
近期,AI大模型训练数据短缺问题再次成为媒体关注焦点。《经济学人》杂志最新发布的文章《AI公司很快将耗尽大部分互联网数据》引发业界广泛讨论。文章指出,随着互联网高质量数据枯竭,AI领域正面临"数据墙"挑战。 研究公司Epoch AI预测,到2028年互联网上所有高质量文本数据将被用尽,机器学习数据集可能在2026年前就会耗尽所有"高质量语言数据"。这种&qu…- 5.2k
-
OpenAI 首席技术官:不确定 Sora 的训练数据来自哪里
OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora,然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详,无法明确说明 Sora 的训练数据来源。 在采访中,记者直接询问 Murati 关于 Sora 训练数据来源时,她仅以含糊的官方话术搪塞:“我们使用的是公开可用数据和许可数据。” 当记者追问具体来源是否包含 YouTube 视频时,Murati…- 1.9k
-
ChatGPT等模型:到2026年,将消耗尽高质量训练数据
《麻省理工技术评论》曾在官网发表文章表示,随着ChatGPT等大模型的持续火热,对训练数据的需求越来越大。大模型就像是一个“网络黑洞”不断地吸收,最终会导致没有足够的数据进行训练。 而知名AI研究机构Epochai直接针对数据训练问题发表了一篇论文,并指出,到2026年,大模型将消耗尽高质量数据;到2030年—2050年,将消耗尽所有低质量数据; 到2030年—2060年,将消耗尽所有图像训练数据…- 2.4k