OpenAI发布首个AI智能体!自动帮你订餐购物,直播翻车,使用前需要知道这些细节

2025-02-15


OpenAI CEO Sam Altman 宣布了两个重磅消息。
一个是 ChatGPT 用户不仅将获得 o3-mini 的免费试用机会,Plus 付费订阅会员还将享有更多使用额度。
图片
另一个则是备受期待的首个智能体产品——Operator 研究预览版正式亮相。好消息是,它能帮你自动网购了,但坏消息是,它可能比较容易「翻车」。
图片
OpenAI 总裁 Greg Brockman 在 X 平台发文称:「Operator–一种能够使用自己的浏览器为你执行任务的智能体。2025 年将是智能体之年。

图片
OpenAI 让 AI 学会「用电脑」了?这是迈向 AGI 的第一步
作为 OpenAI 首款真正模拟人类操作网页浏览器的 AI 助手,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。
用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。
图片

这项新功能将首先面向订阅了200美元Pro计划的美国用户开放,并随后逐步向Plus、Team和Enterprise级别的用户推广。

预计该API将在接下来的数周内面世。

用户可以通过operator.chatgpt.com访问这项新服务,而OpenAI也有意在未来将其整合进ChatGPT中。不过,值得注意的是,就在今天凌晨,ChatGPT又一次出现了崩溃。

图片
简单来说,当用户启用 Operator 时,系统会弹出一个小窗口,展示专用 Web 浏览器的操作界面,并实时说明正在执行的任务。在此期间,允许用户随时接管控制。
技术层面,Operator 采用远程云端浏览器执行任务,无需依赖网站 API。
它通过截图识别界面元素,规划后续动作,形成「观察-计划-执行」的闭环,直至完成任务。系统支持多任务并行处理,运行效率高,且能保持登录状态。
图片

OpenAI 已经与DoorDash、Instacart、Priceline、StubHub以及Uber等公司携手合作。

Instacart的首席产品官Daniel Danker强调:“OpenAI的Operator是一项革命性的技术,它极大地简化了订购杂货等流程。”

与此同时,OpenAI也按照惯例举办了一场发布会。在这场发布会上,Sam Altman携手Yash Kumar、Casey Chu和Reiichiro Nakano共同介绍并演示了Operator。

演示内容涵盖了多个实际应用场景,例如通过OpenTable为Beretta餐厅预订双人座位,在原本7点的时段不可用后,成功改订为7点45分。

图片
使用 Instacart 购物系统识别购物清单——鸡蛋、菠菜、蘑菇、鸡腿、薯片,并中途接管添加更多鸡蛋等商品。
图片
在 StubHub 上试图搜索并选购预算 500 美元以下的勇士队比赛门票;预约清洁服务;以及计划通过 DoorDash 点餐,订购烧烤披萨等。
图片

理想总是令人憧憬,但现实却往往显得严峻,Operator 目前面临的最大挑战在于其稳定性不足。

在演示初期,一切还算顺畅,然而随着演示的深入,却频繁遭遇“失误”,甚至出现了无法成功加载相关网页的情况。

或许是为了确保演示能够顺利进行,演示人员输入的提示词变得越来越冗长。

X平台上的知名博主@rowancheung也提前体验了Operator,并分享了他的观察。

他指出,尽管Operator是在ChatGPT中运行,但其功能却截然不同,主要专注于网页操作(如点击、滚动、输入),而非生成长篇文本。目前,该系统仍存在一些限制,比如部分网站会阻止AI的访问,且合作伙伴的集成也有限。

图片

他强调,为了最大化Operator的效果,需要采用特定的使用方法,正如GPT-4需要配合CoT提示一样。但目前,对Operator的最佳使用策略的研究仍处于初级阶段。

尽管如此,他依然对Operator的前景持乐观态度,认为这项技术有望帮助人们自动化处理繁琐的工作,从而释放出更多时间专注于更有价值的事务。

此前曾有报道指出,Operator在执行任务时所使用的截图内容存在被恶意利用的风险,可能引发“提示注入攻击”,构成严重的安全隐患。

因此,确保Operator的安全使用成为了当务之急。

据官方博客介绍,OpenAI采取了多重保护措施来防范滥用并确保用户对Operator的完全控制。

其中包括:接管模式,即在Operator需要在浏览器中输入敏感信息(如登录凭证或支付信息)时,要求用户进行接管操作,且Operator不会收集或截图用户输入的信息;用户确认机制,即在进行任何重大操作(如提交订单或发送电子邮件)之前,Operator都会请求用户的批准;任务限制策略,即Operator经过训练可以拒绝执行某些敏感任务,如银行交易或需要高风险决策的任务(如对工作申请做出决定);以及监视模式,即在访问特别敏感的网站(如电子邮件或金融服务)时,Operator会对其行为进行密切监督,以便用户能够及时发现任何潜在错误。

此外,OpenAI还为Operator实施了全面的隐私和安全保护措施。在隐私管理方面,用户可以选择退出模型训练、一键删除浏览数据和历史对话,并注销所有网站。

为防范恶意网站的攻击,系统建立了多层防御体系,包括检测并忽略提示注入、实时监控可疑行为以及建立威胁识别管道。

同时,Operator还配备了审核系统来拒绝有害请求和不当内容,并对违规行为发出警告或撤销访问权限。

「体验报告」公布,Operator 背后的 CUA 技术有多强?

Computer-Using Agent(CUA)是Operator的核心技术支持,它融合了GPT-4o的视觉识别技术和强化学习的高级推理能力。

CUA经过训练,已经掌握了与图形用户界面(GUI)进行交互的技能,可以像人类一样对屏幕上的按钮、菜单和文本框进行操作,而且无需依赖于特定的操作系统或网络API。

据悉,其创新之处在于采用了一种通用的界面方法,使得AI能够像人类一样灵活地操作各种软件工具,成功突破了传统AI在应对众多细分应用场景时所面临的困境。

图片
不过 OpenAI 坦言 CUA 还有许多需要改进的地方,比如目前就没法保证在所有场景下都能稳定运行。
OpenAI 在 Operator 中部署的 CUA 系统展示了不同场景下的性能表现。比如它在基础网页操作和重复性任务方面表现出色,如搜索筛选、创建购物清单和音乐播放列表等任务的成功率达到 10/10。
在电商网站搜索商品时也保持 9/10 的高成功率。但在处理复杂的房产搜索等任务时,成功率降至 3/10。
图片

测试结果显示,提示词的质量对任务成功率有着显著的影响。例如,在场地预订任务中,当添加了具体的时间和操作指引后,成功率从3/10大幅提升至8/10。

然而,系统在处理不熟悉的UI界面和进行文本编辑时表现不佳,经常出现试错和低效操作。特别是在文本编辑任务中,成功率仅为4/10。

为了更准确地量化Operator的性能指标,发布会上的演示人员还提到了OS World测试和Web Arena测试。

OS World测试主要用于评估AI智能体在Linux等操作系统上的导航能力。在这个测试中,Operator的得分为38.1%,高于其他公开系统,但仍低于人类水平(72.4%)。

而Web Arena测试则是用于评估AI智能体在电商网站、社交论坛等网站上的导航能力。在这个测试中,Operator的得分为58.1%,同样超过了其他公开的AI系统,但还未达到人类水平。

图片

在安全方面,演示环节重点介绍了三个核心的安全考量方向。

首要的是确保系统能够拒绝执行任何有害任务,为此采用了审核模型和后续检测手段,并屏蔽了特定存在风险的网站。

其次,针对模型可能存在的错误,系统在执行购买、预订等关键性操作之前,必须获得用户的明确确认。同时,系统对高风险任务如银行交易进行了限制,并在访问敏感网站时启用了观察模式。

特别是针对网站可能发起的对抗性攻击(如提示注入、越狱攻击和钓鱼行为),系统设计了谨慎的导航机制来识别并忽略这些恶意的提示注入。此外,系统还实时监控模型以检测可疑内容,并建立了一套检测管道来迅速识别可疑的访问模式。

最后,系统还配备了注入监控器(类似于防病毒软件的功能),它实时监控模型并检测可疑内容,一旦发现可疑行为,便会立即暂停执行。

由于无法提前预见到所有的安全隐患,OpenAI决定从小规模的部署开始,通过不断地收集用户反馈来逐步完善其安全机制。

图片

ChatGPT的崛起已经充分证明,伟大的产品往往源自于无数次“不完美”的尝试与探索。

OpenAI也坦诚地表示,目前由CUA支持的Operator仍然是一项早期技术,虽然在某些特定场景中已经展现出了其实用性,但仍然需要通过用户的反馈来不断地进行改进和完善。

他们计划提升系统对于不熟悉界面的适应能力,增强文本编辑的精确度,优化对不同提示词的理解能力,并进一步扩大能够可靠完成的任务范围。

Altman在月初的博客文章中曾提到,OpenAI对于构建通用人工智能(AGI)已经充满了信心,并预测到2025年,第一批AI智能体将“融入劳动力市场”。

图片

昨日,智谱也宣布推出了GLM-PC。

这是基于智谱的多模态大模型CogAgent所打造的,是全球首个面向公众、只需回车即可使用的电脑智能体(agent)。它能够像人类一样“观察”和“操作”电脑,帮助用户高效地完成各类电脑任务。

可以预见的是,这些智能体在未来将拥有强大的自主决策和任务执行能力,能够胜任复杂任务,甚至在某些领域取代人类的工作,从而从根本上改变企业的生产方式和产出。

在OpenAI的五级AGI(通用人工智能)路线图中,智能体正处于L3级别,其特点在于不仅能进行思考,还能代表用户采取行动,执行复杂任务。

如此看来,Operator不仅是OpenAI在智能体领域迈出的第一步,也是向AGI迈进的重要一步。


分享