AI Trends HUB

OpenAI发布首个AI智能体！自动帮你订餐购物，直播翻车，使用前需要知道这些细节

2025-02-15

OpenAI CEO Sam Altman 宣布了两个重磅消息。
一个是 ChatGPT 用户不仅将获得 o3-mini 的免费试用机会，Plus 付费订阅会员还将享有更多使用额度。
另一个则是备受期待的首个智能体产品——Operator 研究预览版正式亮相。好消息是，它能帮你自动网购了，但坏消息是，它可能比较容易「翻车」。
OpenAI 总裁 Greg Brockman 在 X 平台发文称：「Operator–一种能够使用自己的浏览器为你执行任务的智能体。2025 年将是智能体之年。」

OpenAI 让 AI 学会「用电脑」了？这是迈向 AGI 的第一步
作为 OpenAI 首款真正模拟人类操作网页浏览器的 AI 助手，Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。
用户可以在多个类别中选择不同的自动化任务，涵盖购物、配送、餐饮和旅行等领域。

这项新功能将首先面向订阅了200美元Pro计划的美国用户开放，并随后逐步向Plus、Team和Enterprise级别的用户推广。
预计该API将在接下来的数周内面世。
用户可以通过operator.chatgpt.com访问这项新服务，而OpenAI也有意在未来将其整合进ChatGPT中。不过，值得注意的是，就在今天凌晨，ChatGPT又一次出现了崩溃。
简单来说，当用户启用 Operator 时，系统会弹出一个小窗口，展示专用 Web 浏览器的操作界面，并实时说明正在执行的任务。在此期间，允许用户随时接管控制。
技术层面，Operator 采用远程云端浏览器执行任务，无需依赖网站 API。
它通过截图识别界面元素，规划后续动作，形成「观察-计划-执行」的闭环，直至完成任务。系统支持多任务并行处理，运行效率高，且能保持登录状态。
OpenAI 已经与DoorDash、Instacart、Priceline、StubHub以及Uber等公司携手合作。
Instacart的首席产品官Daniel Danker强调：“OpenAI的Operator是一项革命性的技术，它极大地简化了订购杂货等流程。”
与此同时，OpenAI也按照惯例举办了一场发布会。在这场发布会上，Sam Altman携手Yash Kumar、Casey Chu和Reiichiro Nakano共同介绍并演示了Operator。
演示内容涵盖了多个实际应用场景，例如通过OpenTable为Beretta餐厅预订双人座位，在原本7点的时段不可用后，成功改订为7点45分。
使用 Instacart 购物系统识别购物清单——鸡蛋、菠菜、蘑菇、鸡腿、薯片，并中途接管添加更多鸡蛋等商品。
在 StubHub 上试图搜索并选购预算 500 美元以下的勇士队比赛门票；预约清洁服务；以及计划通过 DoorDash 点餐，订购烧烤披萨等。
理想总是令人憧憬，但现实却往往显得严峻，Operator 目前面临的最大挑战在于其稳定性不足。
在演示初期，一切还算顺畅，然而随着演示的深入，却频繁遭遇“失误”，甚至出现了无法成功加载相关网页的情况。
或许是为了确保演示能够顺利进行，演示人员输入的提示词变得越来越冗长。
X平台上的知名博主@rowancheung也提前体验了Operator，并分享了他的观察。
他指出，尽管Operator是在ChatGPT中运行，但其功能却截然不同，主要专注于网页操作（如点击、滚动、输入），而非生成长篇文本。目前，该系统仍存在一些限制，比如部分网站会阻止AI的访问，且合作伙伴的集成也有限。
他强调，为了最大化Operator的效果，需要采用特定的使用方法，正如GPT-4需要配合CoT提示一样。但目前，对Operator的最佳使用策略的研究仍处于初级阶段。
尽管如此，他依然对Operator的前景持乐观态度，认为这项技术有望帮助人们自动化处理繁琐的工作，从而释放出更多时间专注于更有价值的事务。
此前曾有报道指出，Operator在执行任务时所使用的截图内容存在被恶意利用的风险，可能引发“提示注入攻击”，构成严重的安全隐患。
因此，确保Operator的安全使用成为了当务之急。
据官方博客介绍，OpenAI采取了多重保护措施来防范滥用并确保用户对Operator的完全控制。
其中包括：接管模式，即在Operator需要在浏览器中输入敏感信息（如登录凭证或支付信息）时，要求用户进行接管操作，且Operator不会收集或截图用户输入的信息；用户确认机制，即在进行任何重大操作（如提交订单或发送电子邮件）之前，Operator都会请求用户的批准；任务限制策略，即Operator经过训练可以拒绝执行某些敏感任务，如银行交易或需要高风险决策的任务（如对工作申请做出决定）；以及监视模式，即在访问特别敏感的网站（如电子邮件或金融服务）时，Operator会对其行为进行密切监督，以便用户能够及时发现任何潜在错误。
此外，OpenAI还为Operator实施了全面的隐私和安全保护措施。在隐私管理方面，用户可以选择退出模型训练、一键删除浏览数据和历史对话，并注销所有网站。
为防范恶意网站的攻击，系统建立了多层防御体系，包括检测并忽略提示注入、实时监控可疑行为以及建立威胁识别管道。
同时，Operator还配备了审核系统来拒绝有害请求和不当内容，并对违规行为发出警告或撤销访问权限。
「体验报告」公布，Operator 背后的 CUA 技术有多强？
Computer-Using Agent（CUA）是Operator的核心技术支持，它融合了GPT-4o的视觉识别技术和强化学习的高级推理能力。
CUA经过训练，已经掌握了与图形用户界面（GUI）进行交互的技能，可以像人类一样对屏幕上的按钮、菜单和文本框进行操作，而且无需依赖于特定的操作系统或网络API。
据悉，其创新之处在于采用了一种通用的界面方法，使得AI能够像人类一样灵活地操作各种软件工具，成功突破了传统AI在应对众多细分应用场景时所面临的困境。
不过 OpenAI 坦言 CUA 还有许多需要改进的地方，比如目前就没法保证在所有场景下都能稳定运行。
OpenAI 在 Operator 中部署的 CUA 系统展示了不同场景下的性能表现。比如它在基础网页操作和重复性任务方面表现出色，如搜索筛选、创建购物清单和音乐播放列表等任务的成功率达到 10/10。
在电商网站搜索商品时也保持 9/10 的高成功率。但在处理复杂的房产搜索等任务时，成功率降至 3/10。
测试结果显示，提示词的质量对任务成功率有着显著的影响。例如，在场地预订任务中，当添加了具体的时间和操作指引后，成功率从3/10大幅提升至8/10。
然而，系统在处理不熟悉的UI界面和进行文本编辑时表现不佳，经常出现试错和低效操作。特别是在文本编辑任务中，成功率仅为4/10。
为了更准确地量化Operator的性能指标，发布会上的演示人员还提到了OS World测试和Web Arena测试。
OS World测试主要用于评估AI智能体在Linux等操作系统上的导航能力。在这个测试中，Operator的得分为38.1%，高于其他公开系统，但仍低于人类水平（72.4%）。
而Web Arena测试则是用于评估AI智能体在电商网站、社交论坛等网站上的导航能力。在这个测试中，Operator的得分为58.1%，同样超过了其他公开的AI系统，但还未达到人类水平。
在安全方面，演示环节重点介绍了三个核心的安全考量方向。
首要的是确保系统能够拒绝执行任何有害任务，为此采用了审核模型和后续检测手段，并屏蔽了特定存在风险的网站。
其次，针对模型可能存在的错误，系统在执行购买、预订等关键性操作之前，必须获得用户的明确确认。同时，系统对高风险任务如银行交易进行了限制，并在访问敏感网站时启用了观察模式。
特别是针对网站可能发起的对抗性攻击（如提示注入、越狱攻击和钓鱼行为），系统设计了谨慎的导航机制来识别并忽略这些恶意的提示注入。此外，系统还实时监控模型以检测可疑内容，并建立了一套检测管道来迅速识别可疑的访问模式。
最后，系统还配备了注入监控器（类似于防病毒软件的功能），它实时监控模型并检测可疑内容，一旦发现可疑行为，便会立即暂停执行。
由于无法提前预见到所有的安全隐患，OpenAI决定从小规模的部署开始，通过不断地收集用户反馈来逐步完善其安全机制。
ChatGPT的崛起已经充分证明，伟大的产品往往源自于无数次“不完美”的尝试与探索。
OpenAI也坦诚地表示，目前由CUA支持的Operator仍然是一项早期技术，虽然在某些特定场景中已经展现出了其实用性，但仍然需要通过用户的反馈来不断地进行改进和完善。
他们计划提升系统对于不熟悉界面的适应能力，增强文本编辑的精确度，优化对不同提示词的理解能力，并进一步扩大能够可靠完成的任务范围。
Altman在月初的博客文章中曾提到，OpenAI对于构建通用人工智能（AGI）已经充满了信心，并预测到2025年，第一批AI智能体将“融入劳动力市场”。
昨日，智谱也宣布推出了GLM-PC。
这是基于智谱的多模态大模型CogAgent所打造的，是全球首个面向公众、只需回车即可使用的电脑智能体（agent）。它能够像人类一样“观察”和“操作”电脑，帮助用户高效地完成各类电脑任务。
可以预见的是，这些智能体在未来将拥有强大的自主决策和任务执行能力，能够胜任复杂任务，甚至在某些领域取代人类的工作，从而从根本上改变企业的生产方式和产出。
在OpenAI的五级AGI（通用人工智能）路线图中，智能体正处于L3级别，其特点在于不仅能进行思考，还能代表用户采取行动，执行复杂任务。
如此看来，Operator不仅是OpenAI在智能体领域迈出的第一步，也是向AGI迈进的重要一步。