Meta 部署新网络爬虫机器人，为其 AI 模型收集大量数据

近日，Meta 悄悄地发布了一款新的网络爬虫，用于搜索互联网并收集大量数据，为其人工智能模型提供支持。

据三家追踪网络抓取器的公司称，Meta 新网络爬虫机器人 Meta External Agent 于上月推出，类似于 OpenAI 的 GPTBot，可以抓取网络上的人工智能训练数据，例如新闻文章中的文本或在线讨论组中的对话。

根据使用档案历史记录显示，Meta 确实在 7 月底更新了一个面向开发者的公司网站，其中一个标签显示了新爬虫的存在，但 Meta 至今还没有公开宣布其新爬虫机器人。

Meta 的 Llama 是最大的 llm 之一，虽然该公司没有透露最新版本的模型 Llama 3 使用的训练数据，但其初始版本的模型使用了由 Common Crawl 等其他来源收集的大型数据集。

今年早些时候，Meta 的联合创始人、首席执行官马克・扎克伯格 (Mark Zuckerberg) 在一次财报电话会议上曾吹嘘说，公司的社交平台已经积累了一套用于人工智能训练的数据集，甚至“超过了 Common Crawl”。

新爬虫的存在表明 Meta 庞大的数据库可能已经不够用了，因为该公司继续致力于更新 Llama 和扩展 Meta AI，通常需要新的和高质量的培训数据来不断改进功能。

来自 Dark Visitors 的数据显示，全球近 25% 的最受欢迎的网站现在已屏蔽了 GPTBot，但只有 2% 的网站屏蔽了 Meta 的新爬虫机器人。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

Meta 部署新网络爬虫机器人，为其 AI 模型收集大量数据

百度、商汤、智谱前三，IDC 首次发布大模型平台及应用市场份额报告

美国一市长候选人欲用 ChatGPT 治理城市，遭 OpenAI 封号

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

百度、商汤、智谱前三，IDC 首次发布大模型平台及应用市场份额报告

美国一市长候选人欲用 ChatGPT 治理城市，遭 OpenAI 封号

纽约时报指责OpenAI、谷歌和Meta绕过法律边界进行AI训练数据

麻省理工推出两款名为“PRISM”的AI模型 可更早检测出胰腺癌

Meta 新建两座数据中心集群：内含超 4.9 万块英伟达 H100 GPU，专门训练 Llama3

震惊AI界！Llama 3.1泄露：4050亿参数的开源巨兽来袭！

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

麻省理工推出两款名为“PRISM”的AI模型可更早检测出胰腺癌