OpenAI全新发布o1模型 - 我们正式迈入了下一个时代。

2025-02-24


大半夜的,OpenAI抽象了整整快半年的新模型。

在没有任何预告下,正式登场。
图片
正式版名称不叫草莓,草莓只是内部的一个代号。他们的正式名字,叫:
图片
为什么取名叫o1,OpenAI是这么说的:
For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.
翻译过来是:
对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1,并将这一系列命名为 OpenAI o1。
这次模型的强悍,甚至让OpenAI不惜推掉了过去GPT系列的命名,重新起了一个o系列。
炸了,真的炸了。
我现在,头皮发麻,真的,这次OpenAI o1发布,也标志着,AI行业,正式进入了一个全新的纪元。
“我们通往AGI的路上,已经没有任何阻碍。”
在逻辑和推理能力上,我直接先放图,你们就知道,这玩意有多离谱。
图片
AIME 2024,一个高水平的数学竞赛,GPT4o准确率为13.4%,而这次的o1 预览版,是56.7%,还未发布的o1正式版,是83.3%。
代码竞赛,GPT4o准确率为11.0%,o1 预览版为62%,o1正式版,是89%。
而最牛逼的博士级科学问题 (GPQA Diamond),GPT4o是56.1,人类专家水平是69.7,o1达到了恐怖的78%。
图片
我让Claude翻译了一下o1的图,丑是丑了点,但是能看的懂每项数据意思就行。
图片

这就是所谓的全面超越,尤其在针对化学、物理和生物学专业知识的基准测试GPQA-diamond中,o1模型的表现完全超越了人类博士专家,成为有史以来第一个达到这一成就的模型。

o1之所以能取得如此卓越的成就,关键在于其采用了Self-play RL技术。对于不了解这一技术的读者,可以参考我之前的预测文章来深入了解。

通过Self-play RL,o1学会了如何锻炼其思维链条并完善所使用的策略。它具备了自我纠错的能力,能够将复杂的步骤分解为更简单的部分,并在当前方法失效时尝试不同的解决方案。这些能力正是我们人类最核心的思考方式——慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼在其著作《思考,快与慢》中详细阐述了人类的两种思考方式。其中,快思考是快速、自动、直觉性的反应,而无需过多思考;而慢思考则需要我们付出努力,进行逻辑性的、有意识的思考。

现在,o1已经迈出了坚实的一步,拥有了人类慢思考的特质。在回答问题之前,它会进行反复的思考、拆解、理解和推理,然后给出最终的答案。这种增强的推理能力在处理科学、编程、数学等复杂问题时极具价值。

例如,o1可以被医疗研究人员用于注释细胞测序数据,被物理学家用于生成量子光学所需的复杂数学公式,以及被各领域的开发人员用于构建和执行多步骤工作流等。o1无疑是一个全新的数据驱动引擎,其未来的进化速度将令人震撼。

写到此处,我不禁感到有些沮丧。与一年后的o1相比,我可能真的变得微不足道了。目前,o1模型已经逐步向所有ChatGPT Plus和Team用户开放,未来也有可能会向免费用户开放。

图片

现在存在两个版本的模型:o1预览版和o1-mini。o1-mini以其更快的处理速度、更小的体积以及更亲民的价格脱颖而出,尤其在数学和代码推理方面表现出色。然而,它在世界知识方面相对欠缺,因此更适合那些需要推理能力但不需要广泛世界知识的应用场景。

在使用限制上,o1预览版每周提供30条对话机会,而o1-mini则更为慷慨,每周提供50条。值得注意的是,这里的限制不再是以前按小时计算,而是直接以周为单位,这也从侧面反映了o1模型的昂贵成本。

对于开发者而言,目前只有已经支付了1000美元、达到等级5的开发者才能使用这些模型,并且每分钟的使用次数被限制在20次以内。这些限制看起来都相当严格。

尽管在功能上有所阉割,但考虑到这是早期版本,我们仍然可以理解这些限制。

图片
API的价格上,o1预览版每百万输入15美元,每百万输出60美元,这个推理成本...
图片
o1-mini会便宜一些,每百万输入3美元,每百万输出12美元。
图片
输出成本都是推理成本的4倍,对比一下GPT4o,分别是5美元和15美元。
图片
o1-mini还是勉强有一些经济效应的,不过还是开始,后面等着OpenAI打骨折。
既然说o1已经对Plus用户开放,我就直接去我的号上看了眼,还不错,拿到了。
图片

当然,我会立即尝试这个新的模型。

目前,这个模型似乎还不支持之前所有的功能,比如图片理解、图片生成、代码解释器以及网页搜索等,它现在只是一个可以进行对话的基础模型。

我首先向它提出了一个曾经非常棘手的问题:

“农夫需要将狼、羊和白菜都安全地带过河,但他每次只能带一样东西。而且,狼和羊不能单独留在河边,否则狼会吃掉羊;同样,羊和白菜也不能单独相处,否则羊会吃掉白菜。请问农夫应该如何安排,才能确保所有东西都安全过河?”

图片

在6秒的思考后,o1给出了一个近乎完美的回答,展现出了其高效与准确性。

再提及之前曾困扰众多大模型的复杂调休问题,问题描述如下:

“这是2024年中国从9月9日(星期一)至10月13日的放假及调休安排:上6天班后休息3天,再上3天班休息2天,接着上5天班休息1天,然后上2天班休息7天,最后上5天班再休息1天。请问,在这个期间,我因为放假比原本应休的周末多休了几天?”

面对这一挑战,o1在深思熟虑了整整30秒后,给出了一个精确无误的答案,其准确度令人叹为观止,甚至精确到了每一天。

图片
图片
无敌,真的无敌。
再来一个更难的,就是曾经姜萍那个比赛的奥数题:
图片
别问我题目什么意思,我看不懂,我是废物,这题曾经屠杀所有的大模型,这次,我们让o1也来试一下看看。
图片
在o1思考了整整1分多钟之后,他给出了答案。
...
图片

面对全新的挑战,我感到有些困惑。

在我个人尝试的过程中,我发现,针对以GPT为代表的快速思考大模型时代所形成的一些思考习惯,如逐步推理等,在o1模型上似乎已不再适用,甚至可能产生负面影响。

OpenAI给出的最佳实践建议是:

保持提示简洁明了:o1模型擅长理解和响应简短且清晰的指令,无需过多的指导或说明。

避免使用思路链提示:由于o1模型能够在内部进行推理,因此无需提示它“逐步思考”或“解释推理过程”。

使用分隔符提高清晰度:为了更清楚地指示输入的不同部分,可以使用三重引号、XML标签或章节标题等分隔符,帮助模型更好地理解和解释各部分内容。

限制检索增强生成中的附加上下文:在提供附加上下文或文档时,应仅包含最相关的信息,以避免模型响应过度复杂化。

此外,我想谈谈关于思考时长的问题。

目前o1模型的思考时间为一分钟,但如果是真正的通用人工智能(AGI),思考时间的延长可能会带来更为惊人的成果。

当AGI能够证明数学定理、研发癌症药物或进行天体研究时,每一次的思考都可能持续几小时、几天甚至几周。而最终的结果,可能会让所有人感到震惊和难以置信。

现在,我们无法想象未来的AI将会是一个怎样的存在。

在我看来,o1模型的未来远不止于成为一个普通的ChatGPT。它将成为我们迈向下一个时代最伟大的基石。

“我们通往AGI的路上,已经没有任何阻碍。”这句话,我现在毫不犹豫地坚信着。

星光璀璨的下一个时代,在今天,已经正式到来了。


分享