可联网自主完成任务!OpenAI发布智能体Operator,给AI Agent又添了把火!

2025-02-24


图片
AI Agent现在究竟有多火?2025刚开年,OpenAI已迫不及待入局。
今天凌晨,Sam Altman在毫无预告的情况下开启直播,正式发布了OpenAI首款智能体产品:Operator(预览版)
图片

Operator是一个具备人类般计算机操作能力的AI智能体,它依托于OpenAI最新研发的Computer-Using Agent(CUA)模型。这一模型无需依赖特定的API接口,而是通过观察屏幕并模拟虚拟鼠标和键盘的操作来执行任务。这种独特的设计赋予了Operator极高的灵活性,使其能够轻松适配任何为人类设计的软件界面。

在技术实现层面,CUA模型采用了一个精心构建的感知-推理-行动循环机制。其工作原理如下:

每次执行完操作后,Operator会重新捕捉屏幕画面,并将屏幕截图添加到模型的上下文中。随后,利用GPT-4o的视觉能力,它能够准确理解界面上的内容。接着,依靠强化学习的推理能力(即chain-of-thought),Operator会制定出下一步的行动计划。最后,通过模拟虚拟鼠标和键盘,它能够精确地执行点击、滚动或输入等界面操作,直至任务完成或需要用户进行进一步的输入。

图片
也就是说,无论订餐、买票、网上购物、还是预约清洁工,只需下达一句指令,Operator都能自动在后台替你完成。
只不过目前的预览版尚未全面开放,仅供每月付费200美元的美国Pro用户体验,地址在:https://operator.chatgpt.com/。
1
Operator实例展示:灵活智能的多任务助手
直播中,OpenAI团队展示了几个令人印象深刻的Operator使用场景:
场景一:智能餐厅预订
当用户输入"在Beretta订一个今晚7点的双人餐位"后,Operator立即启动了一个远程浏览器会话。有趣的是,系统显示出了类似人类的地理感知能力——当OpenTable默认显示弗吉尼亚的结果时,它立即根据用户设定的旧金山位置信息自动进行了更正。发现7点没有空位后,Operator又主动提议7:45的替代时间,并在确认前征求用户意见,展示了灵活的决策能力。
场景二:智能购物助理
在购物演示中,Operator展现了强大的多模态理解能力。它可以直接识别手写购物清单图片,精确提取出"鸡蛋、菠菜、蘑菇、鸡腿肉、辣酱"等信息,并在Instacart上自动搜索对应商品。系统采用了一个清晰的工作流程:首先理解每个商品的具体需求,然后搜索最相关的商品,做出合理的数量和规格选择。当用户通过"take control"功能手动增加鸡蛋数量时,Operator也能够理解并继续完成剩余订单。
场景三:多任务并行处理
Operator最令人瞩目的特性在于其多任务并行处理能力,它能够同时执行多项任务,比如一边在StubHub上搜索勇士队的比赛门票,一边处理网球场的预订、寻找清洁服务以及通过DoorDash订餐。这种能力归功于其远程浏览器架构,使得每个任务都能在独立的会话环境中运行,互不干扰。在预订门票的过程中,Operator还展现出了精细的判断力,能够区分不同座位区域的优劣,例如识别出374美元的第一排座位相较于260美元的普通座位更具价值。此外,当进行支付等敏感操作时,系统会自动切换至隐私模式,从而确保用户信息的安全无虞。
1
性能表现
CUA在各项基准测试中表现不俗:WebArena(测试网页导航能力)上达到58.1%的成功率,在网页任务评测WebVoyager上达到87%的高分。虽然在操作系统导航测试OSWorld上的38.1%成功率与人类水平(72.4%)仍有差距,但已超越了其他公开发布的结果。官方表示,这些数据证明CUA在网页任务处理上已达到实用水平,但在复杂的操作系统交互方面仍需改进。
图片
1
多层保护机制确保安全
安全性是Operator的另一大注重点。为确保实际操作可控,Operator构建了全面的多层保护体系,包括:
  • 用户确认机制:关键操作前必须获得用户批准
  • 实时监控:自动检测和预防可疑行为
  • 网站限制:预设黑名单,阻止访问违规网站
  • 隐私保护:敏感操作自动切换隐私模式
  • 用户控制:"take control"功能确保用户可随时接管操作权限
1
“2025是AI Agents之年”

目前,Operator的功能还存在一定的局限性:它不支持涉及银行交易等高风险操作,同时访问部分敏感网站时需要用户进行实时监控。在地域覆盖上,它仅限于为美国的Pro用户提供服务,而欧洲等地区的用户可能需要等待更长的时间。然而,OpenAI已经制定了详尽的扩展规划:预计在两周内向开发者开放CUA模型API,并计划未来将其整合到ChatGPT中,以实现更广泛的可用性。

为了提升用户体验,OpenAI已经与OpenTable、Allrecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Target等众多知名品牌建立了合作关系,共同挖掘AI Agent在不同垂直领域的应用潜力,旨在推动AI Agent领域迈入一个全新的发展阶段。在Operator发布之后,OpenAI总裁Greg Brockman也迅速表态:“2025年,无疑是AI Agents大放异彩的一年。”

图片

在Operator推出的同时,AI Agent领域的竞争也愈发白热化。

OpenAI今年的首步战略部署条理清晰:一方面,它与多个头部第三方平台携手合作,确保在高频使用场景下为用户提供卓越体验;另一方面,通过开放API并与ChatGPT整合,既激发了开发者构建应用的热情,又通过超级应用门户触及了广大用户。将使用权暂限于Pro用户群体,既保证了产品的稳定性,又试探了其他用户的付费潜力——这一切都是在为未来的Agent经济商业化探索铺路。


分享