训练数据

研究：训练数据含 0.001% 的错误信息足以“毒害”医学 AI模型

1月14日消息，纽约大学的一项研究揭示了大型语言模型（LLM）在医学信息训练中的潜在风险。研究表明，即使训练数据中仅含有 0.001% 的错误信息，也可能导致模型输出不准确的医学答案。数据“投毒”是一个相对简单的概念。LLM 通常通过大量文本进行训练，这些文本大多来自互联网。通过在训练数据中注入特定信息，可以使模型在生成答案时将这些信息视为事实。这种方法甚至不需要直接访问 LLM 本身，只需将目…
资讯
- 1.8k
3 个月前
微软澄清：不会使用用户的 Word 和 Excel 数据来训练 AI模型

众所周知，微软 Office 拥有“连接体验（Connected Experiences）”功能，该功能可以分析用户创建的内容，以提供设计建议、编辑建议、数据见解等。然而1AI注意到，网络安全博客 Cyberciti.biz 的博主 @nixCraft 称，微软的“连接体验”功能会自动抓取用户在 Word 和 Excel 文档中的数据，用于训练公司的 AI 模型。更令人担忧的是，该功能默认开启，…
资讯
- 2.9k
5 个月前
AI行业面临"数据墙"挑战：2028年高质量训练数据或将耗尽

近期，AI大模型训练数据短缺问题再次成为媒体关注焦点。《经济学人》杂志最新发布的文章《AI公司很快将耗尽大部分互联网数据》引发业界广泛讨论。文章指出，随着互联网高质量数据枯竭，AI领域正面临"数据墙"挑战。研究公司Epoch AI预测，到2028年互联网上所有高质量文本数据将被用尽，机器学习数据集可能在2026年前就会耗尽所有"高质量语言数据"。这种&qu…
资讯
- 7.1k
8 个月前
OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，无法明确说明 Sora 的训练数据来源。在采访中，记者直接询问 Murati 关于 Sora 训练数据来源时，她仅以含糊的官方话术搪塞：“我们使用的是公开可用数据和许可数据。” 当记者追问具体来源是否包含 YouTube 视频时，Murati…
资讯
- 2.3k
1 年前
ChatGPT等模型：到2026年，将消耗尽高质量训练数据

《麻省理工技术评论》曾在官网发表文章表示，随着ChatGPT等大模型的持续火热，对训练数据的需求越来越大。大模型就像是一个“网络黑洞”不断地吸收，最终会导致没有足够的数据进行训练。而知名AI研究机构Epochai直接针对数据训练问题发表了一篇论文，并指出，到2026年，大模型将消耗尽高质量数据;到2030年—2050年，将消耗尽所有低质量数据; 到2030年—2060年，将消耗尽所有图像训练数据…
资讯
- 2.7k
1 年前

搜索

训练数据

研究：训练数据含 0.001% 的错误信息足以“毒害”医学 AI模型

微软澄清：不会使用用户的 Word 和 Excel 数据来训练 AI模型

AI行业面临"数据墙"挑战：2028年高质量训练数据或将耗尽

OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

ChatGPT等模型：到2026年，将消耗尽高质量训练数据

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

训练数据

研究：训练数据含 0.001% 的错误信息足以“毒害”医学 AI模型

微软澄清：不会使用用户的 Word 和 Excel 数据来训练 AI模型

AI行业面临"数据墙"挑战：2028年高质量训练数据或将耗尽

OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

ChatGPT等模型：到2026年，将消耗尽高质量训练数据

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注