当地时间 10 月 22 日,Anthropic 推出了升级版的 Claude 3.5 Sonnet 以及新的 Claude 3.5 Haiku 模型,升级版 Claude 3.5 Sonnet 不仅编程能力更强,还带来全新功能 computer use(计算机使用),支持像人类一样操作计算机,可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的交互方式。
升级版 Claude 3.5 Sonnet 现已可以使用,computer use 测试版也已开放使用。
进化后的 Claude 3.5 Sonnet 在各个方面得到了全面显著的提升,尤其是业界领先的编码能力。
Anthropic 首席科学官 Jared Kaplan 表示:“我认为我们将进入一个新时代,模型可以像人一样使用所有的工具来完成任务。”
升级版 Claude 3.5 Sonnet 的发布标志着 Anthropic 在商业 AI 模型领域的一项重要进展。该模型旨在超越传统的聊天框,成为真正的“AI代理”。
所谓的“AI 代理”是指能够像人类一样使用软件并执行其他计算机任务的 AI 模型。有些 AI 代理,如 Cognition AI 的 Devin,专门用于编程。而 Anthropic 则将其 AI 代理定位为一个多面手,声称它可以浏览网页并使用任何网站或应用程序。用户可以根据自己的需求来使用 AI 代理,无论是编程等技术任务,还是旅行规划等简单任务。
在 Wired 描述的一个演示中,Claude 被要求规划一次与朋友一起在日出时观看金门大桥的旅行。AI 打开了一个网页浏览器,在谷歌上搜索了一个好的观景点和其他细节,并将行程添加到日历应用程序中。虽然令人印象深刻,但 Wired 指出,Claude 没有考虑到其他有用的细节,比如如何到达那里。
在另一个演示中,Claude 被要求创建一个简单的网站,它使用微软的 Visual Studio Code 来完成这项任务,甚至打开了一个本地服务器来测试它刚刚创建的网站。虽然在创建过程中出现了一个小错误,但当给予提示后,其纠正了代码。
尽管这些 AI 模型看起来很有前景,但它们仍然存在可靠性的问题,尤其是在编写代码方面,Anthropic 的模型也不例外。据 TechCrunch 报道,即使在简单的测试中,如预订航班和修改预订,Claude 3.5 Sonnet 也只成功完成了不到一半的任务。
除了技术上的不完善,AI 代理还带来了明显的安全风险。用户是否愿意让这些不稳定且有时难以预测的技术访问个人电脑文件并使用网络浏览器,仍是一个值得深思的问题。
Anthropic 对此表示,通过逐步开放这种有限、相对更安全的 AI 模型,能够帮助提升 AI 代理的安全性。他们在声明中写道:“我们认为,与其等到更强大的模型出现,不如让现有较为安全的模型接触电脑,这样我们可以开始观察并应对潜在问题,在提升使用水平的同时逐步增强安全措施。”