AI Trends HUB

OpenAI全新发布o1模型 - 我们正式迈入了下一个时代。

2025-02-24

大半夜的，OpenAI抽象了整整快半年的新模型。

在没有任何预告下，正式登场。

正式版名称不叫草莓，草莓只是内部的一个代号。他们的正式名字，叫：

为什么取名叫o1，OpenAI是这么说的：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻译过来是：

对于复杂推理任务来说，这是一个重要的进展，代表了人工智能能力的新水平。鉴于此，我们将计数器重置为 1，并将这一系列命名为 OpenAI o1。

这次模型的强悍，甚至让OpenAI不惜推掉了过去GPT系列的命名，重新起了一个o系列。

炸了，真的炸了。

我现在，头皮发麻，真的，这次OpenAI o1发布，也标志着，AI行业，正式进入了一个全新的纪元。

“我们通往AGI的路上，已经没有任何阻碍。”

在逻辑和推理能力上，我直接先放图，你们就知道，这玩意有多离谱。

AIME 2024，一个高水平的数学竞赛，GPT4o准确率为13.4%，而这次的o1 预览版，是56.7%，还未发布的o1正式版，是83.3%。

代码竞赛，GPT4o准确率为11.0%，o1 预览版为62%，o1正式版，是89%。

而最牛逼的博士级科学问题 (GPQA Diamond)，GPT4o是56.1，人类专家水平是69.7，o1达到了恐怖的78%。

我让Claude翻译了一下o1的图，丑是丑了点，但是能看的懂每项数据意思就行。

这就是所谓的全面超越，尤其在针对化学、物理和生物学专业知识的基准测试GPQA-diamond中，o1模型的表现完全超越了人类博士专家，成为有史以来第一个达到这一成就的模型。

o1之所以能取得如此卓越的成就，关键在于其采用了Self-play RL技术。对于不了解这一技术的读者，可以参考我之前的预测文章来深入了解。

通过Self-play RL，o1学会了如何锻炼其思维链条并完善所使用的策略。它具备了自我纠错的能力，能够将复杂的步骤分解为更简单的部分，并在当前方法失效时尝试不同的解决方案。这些能力正是我们人类最核心的思考方式——慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼在其著作《思考，快与慢》中详细阐述了人类的两种思考方式。其中，快思考是快速、自动、直觉性的反应，而无需过多思考；而慢思考则需要我们付出努力，进行逻辑性的、有意识的思考。

现在，o1已经迈出了坚实的一步，拥有了人类慢思考的特质。在回答问题之前，它会进行反复的思考、拆解、理解和推理，然后给出最终的答案。这种增强的推理能力在处理科学、编程、数学等复杂问题时极具价值。

例如，o1可以被医疗研究人员用于注释细胞测序数据，被物理学家用于生成量子光学所需的复杂数学公式，以及被各领域的开发人员用于构建和执行多步骤工作流等。o1无疑是一个全新的数据驱动引擎，其未来的进化速度将令人震撼。

写到此处，我不禁感到有些沮丧。与一年后的o1相比，我可能真的变得微不足道了。目前，o1模型已经逐步向所有ChatGPT Plus和Team用户开放，未来也有可能会向免费用户开放。

现在存在两个版本的模型：o1预览版和o1-mini。o1-mini以其更快的处理速度、更小的体积以及更亲民的价格脱颖而出，尤其在数学和代码推理方面表现出色。然而，它在世界知识方面相对欠缺，因此更适合那些需要推理能力但不需要广泛世界知识的应用场景。

在使用限制上，o1预览版每周提供30条对话机会，而o1-mini则更为慷慨，每周提供50条。值得注意的是，这里的限制不再是以前按小时计算，而是直接以周为单位，这也从侧面反映了o1模型的昂贵成本。

对于开发者而言，目前只有已经支付了1000美元、达到等级5的开发者才能使用这些模型，并且每分钟的使用次数被限制在20次以内。这些限制看起来都相当严格。

尽管在功能上有所阉割，但考虑到这是早期版本，我们仍然可以理解这些限制。

API的价格上，o1预览版每百万输入15美元，每百万输出60美元，这个推理成本...

o1-mini会便宜一些，每百万输入3美元，每百万输出12美元。

输出成本都是推理成本的4倍，对比一下GPT4o，分别是5美元和15美元。

o1-mini还是勉强有一些经济效应的，不过还是开始，后面等着OpenAI打骨折。

既然说o1已经对Plus用户开放，我就直接去我的号上看了眼，还不错，拿到了。

当然，我会立即尝试这个新的模型。

目前，这个模型似乎还不支持之前所有的功能，比如图片理解、图片生成、代码解释器以及网页搜索等，它现在只是一个可以进行对话的基础模型。

我首先向它提出了一个曾经非常棘手的问题：

“农夫需要将狼、羊和白菜都安全地带过河，但他每次只能带一样东西。而且，狼和羊不能单独留在河边，否则狼会吃掉羊；同样，羊和白菜也不能单独相处，否则羊会吃掉白菜。请问农夫应该如何安排，才能确保所有东西都安全过河？”

在6秒的思考后，o1给出了一个近乎完美的回答，展现出了其高效与准确性。

再提及之前曾困扰众多大模型的复杂调休问题，问题描述如下：

“这是2024年中国从9月9日（星期一）至10月13日的放假及调休安排：上6天班后休息3天，再上3天班休息2天，接着上5天班休息1天，然后上2天班休息7天，最后上5天班再休息1天。请问，在这个期间，我因为放假比原本应休的周末多休了几天？”

面对这一挑战，o1在深思熟虑了整整30秒后，给出了一个精确无误的答案，其准确度令人叹为观止，甚至精确到了每一天。

无敌，真的无敌。

再来一个更难的，就是曾经姜萍那个比赛的奥数题：

别问我题目什么意思，我看不懂，我是废物，这题曾经屠杀所有的大模型，这次，我们让o1也来试一下看看。

在o1思考了整整1分多钟之后，他给出了答案。

...

面对全新的挑战，我感到有些困惑。

在我个人尝试的过程中，我发现，针对以GPT为代表的快速思考大模型时代所形成的一些思考习惯，如逐步推理等，在o1模型上似乎已不再适用，甚至可能产生负面影响。

OpenAI给出的最佳实践建议是：

保持提示简洁明了：o1模型擅长理解和响应简短且清晰的指令，无需过多的指导或说明。

避免使用思路链提示：由于o1模型能够在内部进行推理，因此无需提示它“逐步思考”或“解释推理过程”。

使用分隔符提高清晰度：为了更清楚地指示输入的不同部分，可以使用三重引号、XML标签或章节标题等分隔符，帮助模型更好地理解和解释各部分内容。

限制检索增强生成中的附加上下文：在提供附加上下文或文档时，应仅包含最相关的信息，以避免模型响应过度复杂化。

此外，我想谈谈关于思考时长的问题。

目前o1模型的思考时间为一分钟，但如果是真正的通用人工智能（AGI），思考时间的延长可能会带来更为惊人的成果。

当AGI能够证明数学定理、研发癌症药物或进行天体研究时，每一次的思考都可能持续几小时、几天甚至几周。而最终的结果，可能会让所有人感到震惊和难以置信。

现在，我们无法想象未来的AI将会是一个怎样的存在。

在我看来，o1模型的未来远不止于成为一个普通的ChatGPT。它将成为我们迈向下一个时代最伟大的基石。

“我们通往AGI的路上，已经没有任何阻碍。”这句话，我现在毫不犹豫地坚信着。

星光璀璨的下一个时代，在今天，已经正式到来了。