据纽约时报报道,OpenAI、谷歌和 Meta 被指控在训练人工智能模型时存在不当行为。
纽约时报的报告指出,OpenAI 使用名为 Whisper 的语音识别工具从 YouTube 视频中转录音频,并据称 OpenAI 员工曾讨论这一行为可能违反视频网站的规则。OpenAI 最终转录了超过100万小时的 YouTube 视频,并由 OpenAI 总裁 Greg Brockman 协助,这些转录被用于训练 GPT-4模型。
图源备注:图片由AI生成,图片授权服务商Midjourney
报道还称,Meta 曾考虑收购出版商 Simon & Schuster 以获取长篇作品用于训练 AI,同时还讨论 “从互联网收集受版权保护的数据,即使可能面临诉讼”,并认为 “与出版商、艺术家、音乐家和新闻行业协商许可将耗费太长时间”。谷歌被指控转录 YouTube 视频以获取文本用于 AI 模型训练,纽约时报称这 “可能” 违反了视频的版权,并称谷歌修改其条款以允许对公开可用的 Google 文档、Google 地图上的餐厅评论和其他在线内容进行数据抓取以用于训练 AI。
纽约时报似乎试图描绘一幅有关大规模侵权的可怕画面,但通常避免直接这样说。这些都是任何开发 AI 的公司应该进行的合理对话,以便善待他人并遵守法律。AI 公司正在做的正是公平使用数据,这也是 OpenAI 对纽约时报诉讼的辩护核心。该报道在17段文字后才披露纽约时报正在起诉 OpenAI,使文章看起来像是针对公司认为是敌人的攻击。
纽约时报的报道引起了关于 AI 公司训练数据的合法性和道德性的讨论,也凸显了 AI 行业在数据获取方面面临的挑战和争议。