没有授权也没关系，多家 AI 公司绕过网络标准抓取新闻出版商网站内容

据路透社上周六报道，专注于“内容许可”领域的初创公司 TollBit 近日向新闻出版商发出警告称，多家人工智能公司正在规避出版商用来阻止抓取内容的常见网络标准，并将抓取的内容用于训练生成式 AI 系统。

这一消息是在 AI 搜索初创公司 Perplexity 与媒体《福布斯》之间就同一网络标准公开争执的背景下发出的。当前，科技和媒体公司之间正在就生成式 AI 时代的内容价值展开更广泛的辩论。

Tollbit 将自己定位为内容匮乏的 AI公司与愿意与他们达成重大许可协议的出版商之间的“媒人”。

《福布斯》曾指责 Perplexity 在 AI 生成的摘要中剽窃其报道内容，然而前者并未标注消息来源，也没有获得《福布斯》的许可。

另外，《连线》（Wired）杂志上周也发表了一篇调查报道并指出，Perpexity 可能绕过了（新闻出版商设置的）“机器人排除协议（Robots Exclusion Protocol）”或其他阻止网络爬虫的程序。

没有授权也没关系，多家 AI 公司绕过网络标准抓取新闻出版商网站内容

图源 Pexels

自称代表 2000 多家美国出版商的贸易组织“新闻媒体联盟”也对这一行为表示担忧 ——AI 公司对出版商设置的“禁止抓取”机制或“robots.txt”等工具置若罔闻。该组织主席 Danielle Coffey 表示，“如果 AI 公司无法停止大规模抓取的话，我们就无法通过有价值的内容获利，也无法为记者们支付报酬。”

Tollbit 表示，Perplexity 并不是唯一无视出版商网站“禁止抓取”机制的违规者。根据其分析，“大量”AI 平台绕过了这一机制，而该机制为 AI 平台抓取自家内容设置了一份“白名单”—— 指示其网站哪些部分可以被抓取。

“这意味着，来自多个来源（而不仅仅是一家公司）的 AI 平台正在选择绕过 robots.txt 协议来从网站中检索内容，”TollBit 写道，“我们获取的出版商日志越多，这种模式出现的次数就越多。”

包括《纽约时报》在内的一些出版商已就这些侵权行为起诉 AI 公司。其他出版商则与人工智能公司签署了许可协议，AI 公司们也愿意为内容付费，尽管双方往往对材料的价值存在分歧。许多 AI 开发者认为，他们免费获取内容并未违反任何法律。

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

没有授权也没关系，多家 AI 公司绕过网络标准抓取新闻出版商网站内容

聊天机器人胡说八道？牛津研究人员利用语义熵来识破 AI“幻觉”

F1 计划与亚马逊联合推出人工智能“Statbot”数据机器人，提供个性化观赛体验

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

聊天机器人胡说八道？牛津研究人员利用语义熵来识破 AI“幻觉”

F1 计划与亚马逊联合推出人工智能“Statbot”数据机器人，提供个性化观赛体验

智能搜索引擎Perplexity整合“美版大众点评”Yelp数据，提供餐厅建议

OpenAI计划建立数据市场，训出GPT-5短缺20万亿 token

人人都是“专家”，Perplexity AI 推出 Pages：将网络搜索转换为报告 / 文章 / 指南

软银宣布与 Perplexity AI搜索引擎达成战略合作：其用户可免费试用一年 Pro 订阅，价值 29500 日元

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注