Nature惊人内幕：无数论文被偷偷高价出售喂AI 作者毫不知情

你可曾想过，你的研究论文可能已经薅去训练AI了。没错，许多学术出版商正在将他们的成果 “打包出售” 给开发 AI 模型的科技公司，毫无疑问，这一举动在科研界引发了不小的波澜，尤其是当作者们对此一无所知的时候。专家们表示，如果你的尚未被某个大型语言模型（LLM）使用，那么它很可能也会在不久的将来被 “利用”。

近期，英国的学术出版商泰勒与弗朗西斯（Taylor & Francis）与微软达成了一项价值1000万美元的交易，允许这家科技巨头使用他们的研究数据来提升 AI 系统的能力。而早在六月，美国出版商威利(Wiley)也与某家公司达成了一项交易，获得2300万美元的收益，作为他们的内容被用来训练生成式 AI 模型的回报。

如果一篇论文在网上可以找到，无论是开放获取还是付费墙后面的内容，都很可能已经被喂进了某个大型语言模型。华盛顿大学的 AI 研究员 Lucy Lu Wang 表示:“一旦一篇论文被用于训练模型，就无法在模型训练后将其移除。”

大型语言模型需要大量的数据来训练，这些数据通常是从互联网上抓取的。通过分析数以亿计的语言片段，这些模型能够学习并生成流畅的文本。学术论文由于其信息密度高且篇幅长，成为了 LLM 开发者非常宝贵的 “宝藏”。这样的数据帮助 AI 在科学领域做出更好的推理。

近来，购买高质量数据集的趋势正在上升，许多知名媒体和平台也开始纷纷与 AI 开发者合作，出售他们的内容。考虑到如果不达成协议，很多作品可能会被无声无息地抓取，未来这种合作只会越来越普遍。

然而，有些 AI 开发者，如大型人工智能网络（Large-scale Artificial Intelligence Network），选择保持其数据集的开放性，但许多开发生成式 AI 的公司却对训练数据保持神秘，“我们对他们的训练数据一无所知。” 专家们认为，像 arXiv 这样的开放源代码平台和 PubMed 等数据库无疑是 AI 公司抓取的热门目标。

想要证明某篇论文是否出现在某个 LLM 的训练集中并不简单。研究人员可以用论文中不寻常的句子来测试模型输出是否与原文匹配，但这并不能完全证明该论文没有被使用，因为开发者可以对模型进行调整，以避免直接输出训练数据。

Nature惊人内幕：无数论文被偷偷高价出售喂AI 作者毫不知情

即便证明了某个 LLM 使用了特定文本，接下来又会发生什么?出版商们声称，未获得授权使用受版权保护的文本便构成侵权，但也有反对意见认为，LLM 并不是在复制文本，而是通过分析信息内容来生成新的文本。

目前在美国，一起关于版权的诉讼正在进行，这可能成为一个具有里程碑意义的案例。《纽约时报》正在起诉微软和 ChatGPT 的开发者 OpenAI，指控他们在未获得许可的情况下使用其新闻内容来训练模型。

许多学者对他们的作品被纳入 LLM 的训练数据表示欢迎，尤其是当这些模型能提升研究的准确性时。不过，这并不是每个职业的研究者都能泰然处之，许多人感到自身工作受到威胁。

现阶段个别科研作者在出版商做出出售决定时几乎没有发言权，而对于已经公开的文章，如何分配信用以及是否被使用都缺乏明确的机制。一些研究者对此表示挫败:“我们希望有 AI 模型的帮助，但也希望有一个公平的机制，现在我们还没有找到这样的解决方案。”

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

Nature惊人内幕：无数论文被偷偷高价出售喂AI 作者毫不知情

苹果Mac 在“具有AI功能”的PC出货量中占据主导地位

Pindrop推AI音频伪造检测工具Pulse Inspect，准确率达99%

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

苹果Mac 在“具有AI功能”的PC出货量中占据主导地位

Pindrop推AI音频伪造检测工具Pulse Inspect， 准确率达99%

谷歌向印度BharatGPT投资400万美元 支持130多种语言

谷歌取消与AI数据公司Appen的合同，曾帮助训练Bard等产品

英伟达 H100 AI GPU 短缺缓解，交货时间从 3-4 个月降至 2-3 个月

震惊AI界！Llama 3.1泄露：4050亿参数的开源巨兽来袭！

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

Pindrop推AI音频伪造检测工具Pulse Inspect，准确率达99%

谷歌向印度BharatGPT投资400万美元支持130多种语言