Operator是一个具备人类般计算机操作能力的AI智能体,它依托于OpenAI最新研发的Computer-Using Agent(CUA)模型。这一模型无需依赖特定的API接口,而是通过观察屏幕并模拟虚拟鼠标和键盘的操作来执行任务。这种独特的设计赋予了Operator极高的灵活性,使其能够轻松适配任何为人类设计的软件界面。
在技术实现层面,CUA模型采用了一个精心构建的感知-推理-行动循环机制。其工作原理如下:
每次执行完操作后,Operator会重新捕捉屏幕画面,并将屏幕截图添加到模型的上下文中。随后,利用GPT-4o的视觉能力,它能够准确理解界面上的内容。接着,依靠强化学习的推理能力(即chain-of-thought),Operator会制定出下一步的行动计划。最后,通过模拟虚拟鼠标和键盘,它能够精确地执行点击、滚动或输入等界面操作,直至任务完成或需要用户进行进一步的输入。
目前,Operator的功能还存在一定的局限性:它不支持涉及银行交易等高风险操作,同时访问部分敏感网站时需要用户进行实时监控。在地域覆盖上,它仅限于为美国的Pro用户提供服务,而欧洲等地区的用户可能需要等待更长的时间。然而,OpenAI已经制定了详尽的扩展规划:预计在两周内向开发者开放CUA模型API,并计划未来将其整合到ChatGPT中,以实现更广泛的可用性。
为了提升用户体验,OpenAI已经与OpenTable、Allrecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Target等众多知名品牌建立了合作关系,共同挖掘AI Agent在不同垂直领域的应用潜力,旨在推动AI Agent领域迈入一个全新的发展阶段。在Operator发布之后,OpenAI总裁Greg Brockman也迅速表态:“2025年,无疑是AI Agents大放异彩的一年。”
在Operator推出的同时,AI Agent领域的竞争也愈发白热化。
OpenAI今年的首步战略部署条理清晰:一方面,它与多个头部第三方平台携手合作,确保在高频使用场景下为用户提供卓越体验;另一方面,通过开放API并与ChatGPT整合,既激发了开发者构建应用的热情,又通过超级应用门户触及了广大用户。将使用权暂限于Pro用户群体,既保证了产品的稳定性,又试探了其他用户的付费潜力——这一切都是在为未来的Agent经济商业化探索铺路。