OpenAI Operator开启浏览器AI代理时代

OpenAI推出了 Operator，这是一款可以无缝集成到 Web 浏览器的工具，可以自动执行任务。从填写表格到订购杂货，Operator 承诺通过点击、输入和滚动直接与网站交互，简化重复的在线活动。

Operator 是围绕一种名为“计算机使用代理 (CUA)”的新模型设计的，它将 GPT-4o 的视觉识别与高级推理能力相结合，使其能够充当虚拟的“浏览器中的人”。然而，尽管它有很多创新，但行业专家认为仍有改进的空间。

专业咨询公司Lab49的人工智能、数据和分析主管 Yiannis Antoniou分享了他对 Operator 在代理人工智能系统竞争格局中的意义和定位的见解。

拥有 20 多年为金融服务公司设计 AI 系统经验的 Antoniou 表示：“OpenAI 宣布推出 Operator，这是其进军代理 AI 战争的最新尝试，这既令人着迷又不完整。”

“显然，Operator 受到了 Anthropic Claude 于 10 月份推出的计算机使用系统的影响，它通过消除对复杂基础设施的需求并专注于熟悉的界面（即浏览器）来简化体验。”

通过设计 Operator 在用户已经了解的环境（即网络浏览器）内运行，OpenAI 避免了对定制 API 或集成的需求。

“通过利用世界上最受欢迎的界面，OpenAI 增强了用户体验并立即引起了公众的兴趣。这种以浏览器为中心的方法为广泛采用创造了巨大的潜力，尽管 Anthropic 具有先发优势，但一直难以实现这一目标。”

与一些在应用上感觉技术性或小众的竞争系统不同，Operator 以浏览器为中心的框架降低了进入门槛，这是 OpenAI 努力实现人工智能民主化的一步。

Operator 的一大特点是强调适应性和安全性，并通过人机交互协议来实现。Antoniou 承认这些周到的可用性功能，但指出还需要做更多的工作。

“从架构上看，Operator 的浏览器集成与 Claude 的系统非常相似。两者都涉及截取用户浏览器的屏幕截图并将其发送以供分析，以及通过虚拟按键和鼠标移动来控制屏幕。然而，Operator 引入了周到的可用性功能。

“针对特定网站的自定义指令等功能增加了个性化，并且强调针对未经授权的操作（例如购买、发送电子邮件或申请工作）的人为保护措施，表明 OpenAI 意识到了恶意网站带来的潜在安全风险，但显然还需要做更多的工作才能使该系统在各种场景中广泛安全。”

OpenAI 为 Operator 实施了多层安全框架，包括安全输入的接管模式、重大操作前的用户确认以及用于检测对抗行为的监控系统。此外，用户可以直接在工具内删除浏览数据并管理隐私设置。

不过，安东尼奥强调，这些措施仍在不断发展——特别是当操作员遇到复杂或敏感的任务时。

Antoniou 还认为 Operator 的发布是消费者 AI 领域的关键时刻，尽管该领域仍处于早期阶段。

“总体而言，这是为日常用户构建代理系统的首次尝试，该系统的设计围绕着他们如何自然地与技术互动。随着系统的发展（功能不断增加，安全控制也越来越强大），这个限量版（每月 200 美元）将作为试验场。

“一旦成熟并扩展到较低的订阅层和免费版本，Operator 有可能开启面向消费者的代理时代，进一步使人工智能民主化并将其嵌入到日常生活中。”

Operator 最初是为专业用户设计的，价格较高，为 OpenAI 提供了向早期采用者学习并完善其功能的机会。

安东尼奥指出，虽然每月 200 美元的费用对于大多数用户来说可能还不足以证明该系统的价值，但对使 Operator 更加强大和易于访问的投资可能会为 OpenAI 带来长期显著的竞争优势。

“它值得每月 200 美元吗？也许现在还不值得。但随着系统的发展，OpenAI 的护城河将不断扩大，竞争对手将更难赶上。现在，挑战又回到了 Anthropic 和谷歌身上——这两家公司在利基或以工程为重点的产品方面都展示了类似的能力——如何做出反应并保持竞争力，”他总结道。

随着 OpenAI 不断对 Operator 进行微调，彻底改变人们与技术互动方式的潜力也逐渐显现。从与 Instacart、DoorDash 和 Uber 等公司的合作到公共部门的使用案例，Operator 旨在平衡创新与信任和安全。

虽然早期的限制和定价可能会阻碍其广泛采用，但这些障碍可能只是暂时的，因为 OpenAI 致力于随着时间的推移提高可用性和可访问性。