一位 YouTube 主播上周五向美国加利福尼亚州北区地方法院递交集体诉讼文件,指控 OpenAI 公司在未告知通知视频所有者或向其提供补偿的情况下,擅自抓取数百万个 YouTube视频脚本,用于训练 AI生成模型。
该主播名为大卫・米莱特(David Millette),来自美国马萨诸塞州,指控 OpenAI 公司抓取其和其他主播创作者的视频,用于训练 AI 模型,涉及的产品包括 ChatGPT、Sora 等等。
集体诉讼文件认为 OpenAI 收集这些数据,并得到了“丰厚的回报”,但这种做法违反了版权法和 YouTube 的服务条款。
米莱特目前委托 Bursor & Fisher 律师事务所推进该集体诉讼,原告要求陪审团进行审判,并要求所有数据可能被卷入 OpenAI 培训的 YouTube 用户和创作者赔偿超过 500 万美元(当前约 3568.3 万元人民币)。
众所周知,生成式 AI 模型并没有真正的智能。它们通过处理大量的数据样本(比如电影、录音、论文等)来学习数据出现的可能性及其模式。很多模型的训练数据来源于网络上的公共网站和数据集。尽管企业声称他们的数据抓取符合 “合理使用” 的原则,但许多版权持有者对此表示不同意,并通过诉讼来停止这种做法。
视频转录内容如今成为了一种重要的训练数据,尤其是随着其他数据来源的枯竭。根据 Originality.AI 的数据,目前全球超过35% 的顶级网站已经封锁了 OpenAI 的网络爬虫。此外,麻省理工学院的数据来源倡议的研究显示,约25% 的高质量数据来源已被限制使用,导致 AI 模型的训练数据变得更加紧张。
值得一提的是,OpenAI 的 Whisper 模型专门用于转录视频音频以收集更多训练数据。根据《纽约时报》的报道,OpenAI 团队在转录了超过一百万小时的 YouTube 视频后,利用这些转录文本来训练他们的 GPT-4模型。这引发了内部讨论,认为这可能违反了 YouTube 的规定。