重磅:OpenAI发布首款 AI 智能体Operator,掀起2025年AI Agent竞赛序幕

2025-02-24

图片

2025年伊始,OpenAI就为AI领域带来了新年第一份重磅消息。

1月24日凌晨,Sam Altman在毫无预告的情况下开启直播,正式发布了OpenAI首款智能体产品:Operator(预览版)。这款产品的推出,预示着AI Agent时代的大幕正式拉开。

图片


Operator是一款具备人类般计算机操作能力的AI智能体,它依托于OpenAI最新研发的Computer-Using Agent(简称CUA)模型。该模型通过观察屏幕并利用虚拟鼠标和键盘来完成各项任务,无需依赖特定的API接口。

这种创新的设计理念让Operator能够轻松适配任何为人类设计的软件界面,从而提供了前所未有的灵活性。

从技术实现的角度来看,CUA模型内置了一个精密的感知-推理-行动循环机制。

在执行每次操作后,Operator会重新捕获屏幕图像,并将这些屏幕截图整合到模型的上下文中。随后,它利用GPT-4o的视觉能力来精确解析界面内容,再借助强化学习的推理能力来规划下一步的行动策略。

最后,Operator会利用虚拟鼠标和键盘,精确地执行点击、滚动或输入等界面操作,直至任务圆满完成或需要用户进行额外的确认。

图片

这意味着,无论是订餐、买票、网上购物,还是预约清洁工,用户只需下达一句简单的指令,Operator就能在后台自动完成全部操作。

目前的预览版仅向每月付费200美元的美国Pro用户开放体验,感兴趣的用户可以通过https://operator.chatgpt.com/访问。

Operator实例展示:灵活智能多任务助手

在产品发布会的直播环节中,OpenAI团队展示了几个令人印象深刻的应用场景。

场景一:智能餐厅预订

第一个场景是智能餐厅预订。当用户输入"在Beretta订一个今晚7点的双人餐位"后,Operator立即启动了远程浏览器会话。

系统展现出了类似人类的地理感知能力,当OpenTable默认显示弗吉尼亚的搜索结果时,它立即根据用户预设的旧金山位置信息进行了更正。

更令人惊喜的是,当发现7点没有空位后,Operator主动提供了7:45的替代方案,并在确认前征求用户意见,展示出了灵活的决策能力。

场景二:智能购物助理

在智能购物场景中,Operator展现了强大的多模态理解能力。

它能够直接识别手写购物清单图片,精确提取出"鸡蛋、菠菜、蘑菇、鸡腿肉、辣酱"等信息,并在Instacart上自动搜索对应商品。

系统不仅能够理解每个商品的具体需求,还能做出合理的数量和规格选择。

当用户通过"take control"功能手动增加鸡蛋数量时,Operator也能够理解并继续完成剩余订单。

场景三:多任务并行处理

Operator最让人惊叹的能力是其多任务并行处理能力。

在一次演示中,它同时执行了多项任务:在StubHub上搜索勇士队的比赛门票,处理网球场的预订事宜,寻找清洁服务,还完成了DoorDash的订餐操作。

这种强大的并行处理能力得益于其独特的远程浏览器架构,每个任务都在一个独立的会话环境中运行,从而确保了它们之间的互不干扰。

在门票预订的过程中,Operator展现出了其精细的判断力,能够准确分析不同座位区域的性价比,比如它识别出374美元的第一排座位实际上比260美元的普通座位更具价值。

而在进行支付等敏感操作时,系统会智能地切换到隐私模式,以确保用户的信息安全无虞。

从性能上来看,CUA在各种基准测试中均展现出了强大的实力。

在WebArena网页导航能力测试中,它取得了58.1%的成功率;在WebVoyager网页任务评测中,更是获得了高达87%的优异成绩。

虽然在OSWorld操作系统导航测试中,它的成功率(38.1%)与人类水平(72.4%)相比还存在一定的差距,但已经超越了其他已公开发布的成果。

这些数据充分表明,CUA在网页任务处理方面已经达到了实用化的水平,但在复杂的操作系统交互方面,还需要进行进一步的优化和提升。

图片

为确保系统安全无虞且尽在掌控之中,Operator精心打造了一个全方位、多层次的防护体系。

任何关键性操作均需用户事先授权,系统不间断地监控并有效阻击可疑举动,同时预设黑名单以屏蔽违规网站访问,敏感操作则自动激活隐私模式,而“掌控权回归”功能更是让用户能够随时收回操作权限。

当前,Operator的功能尚存局限,例如暂不支持银行交易等高风险活动,部分敏感网站仍需用户亲自监督。

此外,其服务范围仅覆盖美国Pro用户,欧洲等地区用户或许还需耐心等待。

但OpenAI已明确其扩展蓝图:两周内将向开发者解锁CUA模型API,并计划后续将其融入ChatGPT,实现更广泛的普及。

为提升用户体验,OpenAI已与OpenTable、Allrecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Target等众多品牌携手,共同挖掘AI Agent在不同行业的应用价值。

这一系列战略部署正引领AI Agent领域迈向一个崭新的发展阶段。

OpenAI总裁Greg Brockman在Operator发布之际便预言:

“2025年,将是AI Agents大放异彩的一年。”

图片


在Operator问世的同一时期,AI Agent领域的角逐也日益白热化。

OpenAI今年的首步战略部署意味深长:

一方面,它积极与各大第三方主流平台携手,旨在高频使用场景中带来卓越体验;

另一方面,它采取API开放与ChatGPT整合的双重策略,既激发开发者创建应用的热情,又借助超级应用门户触及广大用户。

通过将使用权仅限于Pro用户群体,OpenAI在保障产品稳定性的同时,也在试探非Pro用户的付费潜力,这一切均为未来Agent经济的商业化征途铺平道路。

2025年的AI版图,无疑是各路英雄竞相角逐的舞台。

Operator的面世,标志着AI Agent之战的号角已经吹响。

在这场科技浪潮中,我们既要怀揣对AI未来的美好憧憬,也要时刻保持理性。

毕竟,技术的根本宗旨始终在于更好地服务于人类,而非取代人类。

这一理念,很可能是OpenAI在Operator设计过程中始终坚守的核心原则。

图片



分享