据《连线》杂志报道,包括苹果、英伟达、Anthropic和Salesforce在内的多家科技巨头被发现未经许可使用数千个YouTube视频来训练他们的人工智能模型,引发了严重的版权和伦理争议。
报道披露,这些公司将各种YouTube视频的字幕整合入其AI训练数据集中。受影响的创作者范围广泛,包括知名博主MKBHD、MrBeast、Jacksepticeye,脱口秀演员斯蒂芬・科尔伯特、约翰・奥利弗和吉米・坎摩尔,以及麻省理工学院、可汗学院、哈佛大学等教育频道,还有华尔街日报、NPR等主流媒体。
图源备注:图片由AI生成,图片授权服务商Midjourney
这些数据实际上是由一个名为Eleuther AI的非营利组织下载并整理的。该组织将这些内容作为他们发布的「The Pile」大数据集的一部分,原本意在为小型开发者和学者提供训练材料。然而,这些数据集随后被各大科技公司所利用。
值得注意的是,苹果等公司并未直接从YouTube下载这些数据,而是使用了Eleuther AI整理的数据集。从技术层面来说,直接违反YouTube使用条款的是Eleuther AI,而非这些科技公司。
这一事件引发了关于AI训练数据来源的合法性和伦理性的讨论。它突显了在快速发展的AI领域中,数据版权和使用许可的重要性,以及现有法律法规在面对这些新兴技术挑战时的不足。同时,这也为创作者、平台和AI公司之间的权益平衡带来了新的思考。