科技巨头被曝未经授权用 YouTube 内容训练 AI，苹果、英伟达在列

据 Wired 报道，包括苹果在内的一些科技巨头未经 YouTube 视频创作者同意，就使用了他们视频的字幕文件来训练人工智能模型。

此次事件影响到的创作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脱口秀主持人斯蒂芬・科尔伯特、约翰・奥利弗和吉米・坎摩尔等。这些被用于训练 AI 的字幕文件相当于视频的文本转录内容。

调查记者披露，一些世界上最富有的科技公司一直在利用来自成千上万个 YouTube 视频的素材来训练 AI，而这违反了 YouTube 禁止从平台上未经许可抓取内容的规定。据悉，超过 17.3 万个来自 4.8 万个频道的 YouTube 视频字幕文件被用来训练人工智能模型，其中就包括苹果、英伟达、Salesforce 等硅谷巨头。

据报道，下载这些字幕文件的是一个名为 EleutherAI 的非盈利组织，他们声称其目的是帮助开发者训练 AI 模型。虽然 EleutherAI 的初衷可能是为小型开发者和学术研究者提供训练材料，但该数据集也被苹果等科技巨头使用。

根据 EleutherAI 发布的一篇研究论文，这份数据集是他们发布的名为“The Pile”的大型数据集的一部分。“The Pile”中的大部分数据集都是公开的，任何拥有足够存储空间和计算能力的人都可以访问。除了科技巨头之外，一些学者和开发者也使用了该数据集。然而，苹果、英伟达和 Salesforce 等市值数百亿甚至数千亿美元的公司也在他们的研究论文和帖子中提到了他们如何使用该数据集来训练 AI 模型。

有文件显示，苹果在 4 月份发布了备受关注的 OpenELM 模型几周之前，就使用了“The Pile”进行训练。而 OpenELM 模型的发布恰逢苹果宣布将在 iPhone 和 Macbook 中加入新的 AI 功能。

需要注意的是，苹果自己并没有下载这些数据，而是由 EleutherAI 完成的。因此，从技术层面来说，是 EleutherAI 违反了 YouTube 的使用条款。

尽管苹果和其他公司可能使用了公开的数据集，但此事件凸显了从网络上抓取数据来训练 AI 系统所带来的法律风险。此前就曾出现过 AI 系统在回答小众话题时抄袭整段文本的案例，当公司使用第三方编译的数据集时，只会增加未经许可使用素材的风险。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

科技巨头被曝未经授权用 YouTube 内容训练 AI，苹果、英伟达在列

英国监管机构出手，正调查微软与 Inflection AI 相关交易

能给后院鸟儿起名，智能喂食器用 AI 技术识别鸟类个体

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

英国监管机构出手，正调查微软与 Inflection AI 相关交易

能给后院鸟儿起名，智能喂食器用 AI 技术识别鸟类个体

苹果、英伟达等科技公司被曝未经许可使用YouTube视频训练AI

苹果澄清：YouTube字幕数据未用于Apple Intelligence，OpenELM仅作研究用途

苹果高管：Mac是可以买到最好的AI电脑

消息称苹果挖走大量谷歌顶尖人才，建立神秘人工智能实验室

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注