美国时间周三,谷歌发布了一款可以自主浏览网站的智能体(A.I. agent)。这种实验性工具能够浏览电子表格、购物网站以及其他在线服务,然后代表用户执行操作。
目前,聊天机器人可以回答问题、写诗或生成图像。未来,它们还可能独立完成在线购物等任务,并操作电子表格等工具。
谷歌此次推出的智能体原型名为 Mariner。多家科技公司正在开发类似的智能体,包括 OpenAI 和 Anthropic 等初创企业,它们也已发布了能自主使用软件、网站以及其他在线工具的类似原型。
谷歌最新发布的 Mariner 基于当天同步亮相的 Gemini 2.0 人工智能模型。Gemini 是谷歌众多人工智能产品及研究项目的核心技术。同名聊天机器人和能够直接回答用户问题的人工智能搜索工具 AI Overviews 均采用了 Gemini 的不同版本。
“用户只需在浏览器中输入请求,Mariner 即可代表他们采取相应行动,”谷歌项目经理贾克林・康泽尔曼(Jaclyn Konzelmann)在接受采访时说道。
Gemini 是一种被称为神经网络的数学系统,通过分析海量数据来学习新技能。例如,通过识别从互联网收集的文章和书籍中的模式,神经网络可以实现自动文本生成。
最新版 Gemini 能够从多种数据类型中学习,包括文本、图像和声音。这其中可能包含展示人们如何使用电子表格、购物网站及其他在线服务的图片。基于 Gemini 所学到的知识,Mariner 能够代替用户操作这些服务。
“它知道需要按下哪个按钮才能完成操作,”谷歌核心人工智能实验室负责人德米斯・哈萨比斯(Demis Hassabis)在采访中说道。“它能够在现实中执行任务。”
康泽尔曼补充道,Mariner 设计初衷是与用户协作完成任务。例如,当用户在浏览器中浏览商品时,Mariner 可以将物品加入购物车,但购买操作需由用户亲自完成。
谷歌首席执行官桑达尔・皮查伊(Sundar Pichai)在一篇博客中表示,这些技术进步“让我们更接近实现通用助手的人工智能愿景”。
作为谷歌主流浏览器 Chrome 的扩展功能,Mariner 成为公司人工智能战略的重要组成部分。然而,这一计划可能会遭遇障碍。因谷歌搜索引擎被裁定为非法垄断,美国司法部已要求联邦法院强制谷歌出售或拆分 Chrome 浏览器。
此外,这项技术本身也面临挑战。康泽尔曼承认,Mariner 与其他聊天机器人一样,会因其基于数据模式运行而犯错。虽然生成文本时的错误有时不易察觉,但当系统尝试使用网站或执行操作时,错误可能更加明显。
“它目前能做到完全准确吗?还不能,”康泽尔曼坦言。“这仍然是一项实验性技术。”
目前,谷歌已向少量外部测试人员开放 Mariner,但尚未公布全面发布的计划。
同日,谷歌还展示了新版 Project Astra,这款智能手机助手不仅能响应用户的图像、文本输入,还支持语音指令。与 OpenAI 今年早些时候推出的技术类似,Astra 在功能上超越了苹果 Siri 等传统数字助理。
新版 Project Astra 同样尚未公开发布。