OpenAI推出了 Operator,这是一款可以无缝集成到 Web 浏览器的工具,可以自动执行任务。从填写表格到订购杂货,Operator 承诺通过点击、输入和滚动直接与网站交互,简化重复的在线活动。
Operator 是围绕一种名为“计算机使用代理 (CUA)”的新模型设计的,它将 GPT-4o 的视觉识别与高级推理能力相结合,使其能够充当虚拟的“浏览器中的人”。然而,尽管它有很多创新,但行业专家认为仍有改进的空间。
专业咨询公司Lab49的人工智能、数据和分析主管 Yiannis Antoniou分享了他对 Operator 在代理人工智能系统竞争格局中的意义和定位的见解。
通过熟悉的界面使用 Agentic AI
拥有 20 多年为金融服务公司设计 AI 系统经验的 Antoniou 表示:“OpenAI 宣布推出 Operator,这是其进军代理 AI 战争的最新尝试,这既令人着迷又不完整。”
“显然,Operator 受到了 Anthropic Claude 于 10 月份推出的计算机使用系统的影响,它通过消除对复杂基础设施的需求并专注于熟悉的界面(即浏览器)来简化体验。”
通过设计 Operator 在用户已经了解的环境(即网络浏览器)内运行,OpenAI 避免了对定制 API 或集成的需求。
“通过利用世界上最受欢迎的界面,OpenAI 增强了用户体验并立即引起了公众的兴趣。这种以浏览器为中心的方法为广泛采用创造了巨大的潜力,尽管 Anthropic 具有先发优势,但一直难以实现这一目标。”
与一些在应用上感觉技术性或小众的竞争系统不同,Operator 以浏览器为中心的框架降低了进入门槛,这是 OpenAI 努力实现人工智能民主化的一步。
对可用性和安全性的独特见解
Operator 的一大特点是强调适应性和安全性,并通过人机交互协议来实现。Antoniou 承认这些周到的可用性功能,但指出还需要做更多的工作。
“从架构上看,Operator 的浏览器集成与 Claude 的系统非常相似。两者都涉及截取用户浏览器的屏幕截图并将其发送以供分析,以及通过虚拟按键和鼠标移动来控制屏幕。然而,Operator 引入了周到的可用性功能。
“针对特定网站的自定义指令等功能增加了个性化,并且强调针对未经授权的操作(例如购买、发送电子邮件或申请工作)的人为保护措施,表明 OpenAI 意识到了恶意网站带来的潜在安全风险,但显然还需要做更多的工作才能使该系统在各种场景中广泛安全。”
OpenAI 为 Operator 实施了多层安全框架,包括安全输入的接管模式、重大操作前的用户确认以及用于检测对抗行为的监控系统。此外,用户可以直接在工具内删除浏览数据并管理隐私设置。
不过,安东尼奥强调,这些措施仍在不断发展——特别是当操作员遇到复杂或敏感的任务时。
OpenAI Operator 进一步实现人工智能民主化
Antoniou 还认为 Operator 的发布是消费者 AI 领域的关键时刻,尽管该领域仍处于早期阶段。
“总体而言,这是为日常用户构建代理系统的首次尝试,该系统的设计围绕着他们如何自然地与技术互动。随着系统的发展(功能不断增加,安全控制也越来越强大),这个限量版(每月 200 美元)将作为试验场。
“一旦成熟并扩展到较低的订阅层和免费版本,Operator 有可能开启面向消费者的代理时代,进一步使人工智能民主化并将其嵌入到日常生活中。”
Operator 最初是为专业用户设计的,价格较高,为 OpenAI 提供了向早期采用者学习并完善其功能的机会。
安东尼奥指出,虽然每月 200 美元的费用对于大多数用户来说可能还不足以证明该系统的价值,但对使 Operator 更加强大和易于访问的投资可能会为 OpenAI 带来长期显著的竞争优势。
“它值得每月 200 美元吗?也许现在还不值得。但随着系统的发展,OpenAI 的护城河将不断扩大,竞争对手将更难赶上。现在,挑战又回到了 Anthropic 和谷歌身上——这两家公司在利基或以工程为重点的产品方面都展示了类似的能力——如何做出反应并保持竞争力,”他总结道。
随着 OpenAI 不断对 Operator 进行微调,彻底改变人们与技术互动方式的潜力也逐渐显现。从与 Instacart、DoorDash 和 Uber 等公司的合作到公共部门的使用案例,Operator 旨在平衡创新与信任和安全。
虽然早期的限制和定价可能会阻碍其广泛采用,但这些障碍可能只是暂时的,因为 OpenAI 致力于随着时间的推移提高可用性和可访问性。