这项新功能将首先面向订阅了200美元Pro计划的美国用户开放,并随后逐步向Plus、Team和Enterprise级别的用户推广。
预计该API将在接下来的数周内面世。
用户可以通过operator.chatgpt.com访问这项新服务,而OpenAI也有意在未来将其整合进ChatGPT中。不过,值得注意的是,就在今天凌晨,ChatGPT又一次出现了崩溃。
OpenAI 已经与DoorDash、Instacart、Priceline、StubHub以及Uber等公司携手合作。
Instacart的首席产品官Daniel Danker强调:“OpenAI的Operator是一项革命性的技术,它极大地简化了订购杂货等流程。”
与此同时,OpenAI也按照惯例举办了一场发布会。在这场发布会上,Sam Altman携手Yash Kumar、Casey Chu和Reiichiro Nakano共同介绍并演示了Operator。
演示内容涵盖了多个实际应用场景,例如通过OpenTable为Beretta餐厅预订双人座位,在原本7点的时段不可用后,成功改订为7点45分。
理想总是令人憧憬,但现实却往往显得严峻,Operator 目前面临的最大挑战在于其稳定性不足。
在演示初期,一切还算顺畅,然而随着演示的深入,却频繁遭遇“失误”,甚至出现了无法成功加载相关网页的情况。
或许是为了确保演示能够顺利进行,演示人员输入的提示词变得越来越冗长。
X平台上的知名博主@rowancheung也提前体验了Operator,并分享了他的观察。
他指出,尽管Operator是在ChatGPT中运行,但其功能却截然不同,主要专注于网页操作(如点击、滚动、输入),而非生成长篇文本。目前,该系统仍存在一些限制,比如部分网站会阻止AI的访问,且合作伙伴的集成也有限。
他强调,为了最大化Operator的效果,需要采用特定的使用方法,正如GPT-4需要配合CoT提示一样。但目前,对Operator的最佳使用策略的研究仍处于初级阶段。
尽管如此,他依然对Operator的前景持乐观态度,认为这项技术有望帮助人们自动化处理繁琐的工作,从而释放出更多时间专注于更有价值的事务。
此前曾有报道指出,Operator在执行任务时所使用的截图内容存在被恶意利用的风险,可能引发“提示注入攻击”,构成严重的安全隐患。
因此,确保Operator的安全使用成为了当务之急。
据官方博客介绍,OpenAI采取了多重保护措施来防范滥用并确保用户对Operator的完全控制。
其中包括:接管模式,即在Operator需要在浏览器中输入敏感信息(如登录凭证或支付信息)时,要求用户进行接管操作,且Operator不会收集或截图用户输入的信息;用户确认机制,即在进行任何重大操作(如提交订单或发送电子邮件)之前,Operator都会请求用户的批准;任务限制策略,即Operator经过训练可以拒绝执行某些敏感任务,如银行交易或需要高风险决策的任务(如对工作申请做出决定);以及监视模式,即在访问特别敏感的网站(如电子邮件或金融服务)时,Operator会对其行为进行密切监督,以便用户能够及时发现任何潜在错误。
此外,OpenAI还为Operator实施了全面的隐私和安全保护措施。在隐私管理方面,用户可以选择退出模型训练、一键删除浏览数据和历史对话,并注销所有网站。
为防范恶意网站的攻击,系统建立了多层防御体系,包括检测并忽略提示注入、实时监控可疑行为以及建立威胁识别管道。
同时,Operator还配备了审核系统来拒绝有害请求和不当内容,并对违规行为发出警告或撤销访问权限。
Computer-Using Agent(CUA)是Operator的核心技术支持,它融合了GPT-4o的视觉识别技术和强化学习的高级推理能力。
CUA经过训练,已经掌握了与图形用户界面(GUI)进行交互的技能,可以像人类一样对屏幕上的按钮、菜单和文本框进行操作,而且无需依赖于特定的操作系统或网络API。
据悉,其创新之处在于采用了一种通用的界面方法,使得AI能够像人类一样灵活地操作各种软件工具,成功突破了传统AI在应对众多细分应用场景时所面临的困境。
测试结果显示,提示词的质量对任务成功率有着显著的影响。例如,在场地预订任务中,当添加了具体的时间和操作指引后,成功率从3/10大幅提升至8/10。
然而,系统在处理不熟悉的UI界面和进行文本编辑时表现不佳,经常出现试错和低效操作。特别是在文本编辑任务中,成功率仅为4/10。
为了更准确地量化Operator的性能指标,发布会上的演示人员还提到了OS World测试和Web Arena测试。
OS World测试主要用于评估AI智能体在Linux等操作系统上的导航能力。在这个测试中,Operator的得分为38.1%,高于其他公开系统,但仍低于人类水平(72.4%)。
而Web Arena测试则是用于评估AI智能体在电商网站、社交论坛等网站上的导航能力。在这个测试中,Operator的得分为58.1%,同样超过了其他公开的AI系统,但还未达到人类水平。
在安全方面,演示环节重点介绍了三个核心的安全考量方向。
首要的是确保系统能够拒绝执行任何有害任务,为此采用了审核模型和后续检测手段,并屏蔽了特定存在风险的网站。
其次,针对模型可能存在的错误,系统在执行购买、预订等关键性操作之前,必须获得用户的明确确认。同时,系统对高风险任务如银行交易进行了限制,并在访问敏感网站时启用了观察模式。
特别是针对网站可能发起的对抗性攻击(如提示注入、越狱攻击和钓鱼行为),系统设计了谨慎的导航机制来识别并忽略这些恶意的提示注入。此外,系统还实时监控模型以检测可疑内容,并建立了一套检测管道来迅速识别可疑的访问模式。
最后,系统还配备了注入监控器(类似于防病毒软件的功能),它实时监控模型并检测可疑内容,一旦发现可疑行为,便会立即暂停执行。
由于无法提前预见到所有的安全隐患,OpenAI决定从小规模的部署开始,通过不断地收集用户反馈来逐步完善其安全机制。
ChatGPT的崛起已经充分证明,伟大的产品往往源自于无数次“不完美”的尝试与探索。
OpenAI也坦诚地表示,目前由CUA支持的Operator仍然是一项早期技术,虽然在某些特定场景中已经展现出了其实用性,但仍然需要通过用户的反馈来不断地进行改进和完善。
他们计划提升系统对于不熟悉界面的适应能力,增强文本编辑的精确度,优化对不同提示词的理解能力,并进一步扩大能够可靠完成的任务范围。
Altman在月初的博客文章中曾提到,OpenAI对于构建通用人工智能(AGI)已经充满了信心,并预测到2025年,第一批AI智能体将“融入劳动力市场”。
昨日,智谱也宣布推出了GLM-PC。
这是基于智谱的多模态大模型CogAgent所打造的,是全球首个面向公众、只需回车即可使用的电脑智能体(agent)。它能够像人类一样“观察”和“操作”电脑,帮助用户高效地完成各类电脑任务。
可以预见的是,这些智能体在未来将拥有强大的自主决策和任务执行能力,能够胜任复杂任务,甚至在某些领域取代人类的工作,从而从根本上改变企业的生产方式和产出。
在OpenAI的五级AGI(通用人工智能)路线图中,智能体正处于L3级别,其特点在于不仅能进行思考,还能代表用户采取行动,执行复杂任务。
如此看来,Operator不仅是OpenAI在智能体领域迈出的第一步,也是向AGI迈进的重要一步。