AI Trends HUB

可联网自主完成任务！OpenAI发布智能体Operator，给AI Agent又添了把火！

2025-02-24

AI Agent现在究竟有多火？2025刚开年，OpenAI已迫不及待入局。

今天凌晨，Sam Altman在毫无预告的情况下开启直播，正式发布了OpenAI首款智能体产品：Operator（预览版）。

Operator是一个具备人类般计算机操作能力的AI智能体，它依托于OpenAI最新研发的Computer-Using Agent（CUA）模型。这一模型无需依赖特定的API接口，而是通过观察屏幕并模拟虚拟鼠标和键盘的操作来执行任务。这种独特的设计赋予了Operator极高的灵活性，使其能够轻松适配任何为人类设计的软件界面。

在技术实现层面，CUA模型采用了一个精心构建的感知-推理-行动循环机制。其工作原理如下：

每次执行完操作后，Operator会重新捕捉屏幕画面，并将屏幕截图添加到模型的上下文中。随后，利用GPT-4o的视觉能力，它能够准确理解界面上的内容。接着，依靠强化学习的推理能力（即chain-of-thought），Operator会制定出下一步的行动计划。最后，通过模拟虚拟鼠标和键盘，它能够精确地执行点击、滚动或输入等界面操作，直至任务完成或需要用户进行进一步的输入。

也就是说，无论订餐、买票、网上购物、还是预约清洁工，只需下达一句指令，Operator都能自动在后台替你完成。

只不过目前的预览版尚未全面开放，仅供每月付费200美元的美国Pro用户体验，地址在：https://operator.chatgpt.com/。

Operator实例展示：灵活智能的多任务助手

直播中，OpenAI团队展示了几个令人印象深刻的Operator使用场景：

场景一：智能餐厅预订

当用户输入"在Beretta订一个今晚7点的双人餐位"后，Operator立即启动了一个远程浏览器会话。有趣的是，系统显示出了类似人类的地理感知能力——当OpenTable默认显示弗吉尼亚的结果时，它立即根据用户设定的旧金山位置信息自动进行了更正。发现7点没有空位后，Operator又主动提议7:45的替代时间，并在确认前征求用户意见，展示了灵活的决策能力。

场景二：智能购物助理

在购物演示中，Operator展现了强大的多模态理解能力。它可以直接识别手写购物清单图片，精确提取出"鸡蛋、菠菜、蘑菇、鸡腿肉、辣酱"等信息，并在Instacart上自动搜索对应商品。系统采用了一个清晰的工作流程：首先理解每个商品的具体需求，然后搜索最相关的商品，做出合理的数量和规格选择。当用户通过"take control"功能手动增加鸡蛋数量时，Operator也能够理解并继续完成剩余订单。

场景三：多任务并行处理

Operator最令人瞩目的特性在于其多任务并行处理能力，它能够同时执行多项任务，比如一边在StubHub上搜索勇士队的比赛门票，一边处理网球场的预订、寻找清洁服务以及通过DoorDash订餐。这种能力归功于其远程浏览器架构，使得每个任务都能在独立的会话环境中运行，互不干扰。在预订门票的过程中，Operator还展现出了精细的判断力，能够区分不同座位区域的优劣，例如识别出374美元的第一排座位相较于260美元的普通座位更具价值。此外，当进行支付等敏感操作时，系统会自动切换至隐私模式，从而确保用户信息的安全无虞。

性能表现

CUA在各项基准测试中表现不俗：WebArena（测试网页导航能力）上达到58.1%的成功率，在网页任务评测WebVoyager上达到87%的高分。虽然在操作系统导航测试OSWorld上的38.1%成功率与人类水平（72.4%）仍有差距，但已超越了其他公开发布的结果。官方表示，这些数据证明CUA在网页任务处理上已达到实用水平，但在复杂的操作系统交互方面仍需改进。

多层保护机制确保安全

安全性是Operator的另一大注重点。为确保实际操作可控，Operator构建了全面的多层保护体系，包括：

用户确认机制：关键操作前必须获得用户批准
实时监控：自动检测和预防可疑行为
网站限制：预设黑名单，阻止访问违规网站
隐私保护：敏感操作自动切换隐私模式
用户控制："take control"功能确保用户可随时接管操作权限

“2025是AI Agents之年”

目前，Operator的功能还存在一定的局限性：它不支持涉及银行交易等高风险操作，同时访问部分敏感网站时需要用户进行实时监控。在地域覆盖上，它仅限于为美国的Pro用户提供服务，而欧洲等地区的用户可能需要等待更长的时间。然而，OpenAI已经制定了详尽的扩展规划：预计在两周内向开发者开放CUA模型API，并计划未来将其整合到ChatGPT中，以实现更广泛的可用性。

为了提升用户体验，OpenAI已经与OpenTable、Allrecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Target等众多知名品牌建立了合作关系，共同挖掘AI Agent在不同垂直领域的应用潜力，旨在推动AI Agent领域迈入一个全新的发展阶段。在Operator发布之后，OpenAI总裁Greg Brockman也迅速表态：“2025年，无疑是AI Agents大放异彩的一年。”

在Operator推出的同时，AI Agent领域的竞争也愈发白热化。

OpenAI今年的首步战略部署条理清晰：一方面，它与多个头部第三方平台携手合作，确保在高频使用场景下为用户提供卓越体验；另一方面，通过开放API并与ChatGPT整合，既激发了开发者构建应用的热情，又通过超级应用门户触及了广大用户。将使用权暂限于Pro用户群体，既保证了产品的稳定性，又试探了其他用户的付费潜力——这一切都是在为未来的Agent经济商业化探索铺路。