OpenAI已经正式推出了新模型o3-mini,该模型现已在ChatGPT和API中上线。
对于Pro用户,他们可以无限制地使用o3-mini。而Plus和Team用户的使用速率限制将是o1-mini的3倍。免费版的ChatGPT用户虽然也可以免费体验o3-mini,但会有使用次数的限制。
值得一提的是,o3-mini具备了网络搜索功能,并且能够展示其完整的深度思考过程。不过,令人遗憾的是,o3-mini目前并不支持视觉推理功能。
o3-mini是OpenAI推出的首款小型推理模型,它集成了多项满足开发者需求的特性,如函数调用、结构化输出以及开发者消息功能,使得模型能够无需额外调整即可直接投入实际应用。
与OpenAI的o1-mini和o1-preview模型一样,o3-mini也支持流式传输功能。
此外,开发者还可以根据实际应用场景的需求,在低、中、高三种推理强度之间灵活切换:
当面对复杂难题时,可以选择高推理强度,让模型进行更深入的思考;而当面对对延迟敏感的问题时,则可以选择低推理强度,以确保响应速度。
在性能表现上,OpenAI对o3-mini进行了针对STEM(科学、技术、工程和数学)推理的优化。在数学、编码和科学领域,中等推理强度的o3-mini性能与OpenAI的o1模型相当,但响应速度更快。专家评估指出,o3-mini给出的答案相比OpenAI的o1-mini更为准确、清晰,且推理能力更强。
在美国数学竞赛(AIME 2024)中,o3-mini在低推理强度时的表现与o1-mini相近,中等推理强度时与o1相当,而在高推理强度时则超越了o1-mini和o1;在博士水平的科学问题测试中,o3-mini在不同推理强度下的表现同样出色。
在研究级数学测试中,o3-mini凭借其高强度的推理能力,展现出了比前代模型更优越的表现。在竞赛编程领域,随着推理强度的提升,o3-mini的Elo评分也稳步上升,全面超越了o1-mini,并且在中等推理强度下,其表现与o1相当。
在软件工程测试中,o3-mini更是脱颖而出,成为了表现最佳的模型。
此外,在响应速度方面,o3-mini的平均响应时间为7.7秒,相较于o1-mini的10.16秒,快了整整24%。
在OpenAI发布新模型之后,网友上来就是灵魂发问,这个会比Deepseek的R1更好吗?
感谢新增网络搜索功能,非常喜欢这个。
功能建议:请在ChatGPT中增设一个选项,使用户能够选择DeepSeek R1作为运算模型,这一功能可以参照Perplexity AI的设计。非常感谢!
虽然不支持视觉功能,o3仍然遛的起飞。
经过对o3-mini的评估,我至今对它感到非常满意。我很高兴它现在能够在我庞大的代码库中展示其思考推理的过程。我注意到了DeepSeek所带来的积极影响,这真的很棒,仅凭一些简单的功能就能极大地提升用户体验,帮助用户保持投入并激发新的思考。
o3-mini高推理模式,Plus用户每周只有50条消息?
到目前为止,我对o3-mini的印象相当不错。虽然它本有可能表现得更加出色,但实事求是地说,o3-mini的表现已经非常令人满意了。