最全:OpenAI 12 天发布会全梳理

2025-02-24


图片

AI正在像当年的互联网一样,改写所有行业。未来可能很多人、很多行业,要么被AI取代,要么被用AI的人取代。我们要了解AI,拥抱 AI。           

                                                                --任泽平

Day 1:o1模型正式版与ChatGPT Pro

在发布会的第一天,OpenAI以一个全新的模型和订阅服务吸引了所有人目光。


o1模型正式版:o1模型是OpenAI迄今为止最先进的多模态AI模型,它在性能和效率上做出了重大改进:


错误率下降34%:相比之前的模型,o1模型在处理复杂问题时显著减少了错误率,特别是在编程和数学计算方面表现优异。


推理与逻辑能力提升:在国际数学奥林匹克资格考试中,其解决问题的能力大幅提高,能解决高达 83% 的问题,相比之下,前一版本 GPT-4O 仅能解决 13%。


响应时间显著改善:对于简单问题的回答速度比 O1-preview 快了约 60%。以查询 “罗马帝国在公元 2 世纪的统治者及其成就” 为例,O1 用时仅需 18 秒,而 O1-preview 则需要 34 秒,极大地提升了用户获取信息的效率。


多模态图像识别功能解锁:O1 正式版全面解锁了多模态图像识别功能,它使 O1 能够对图像进行更复杂的分析和处理,比如转录手写笔记、测算物体的相对大小、以及对特定图纸进行深入的解读和推理。


ChatGPT Pro:为满足高端用户的需求,OpenAI推出了新的高级订阅服务——ChatGPT Pro:


月费200美元,提供无限制访问o1旗舰模型。订阅该服务的用户将可以无限制地访问 OpenAI O1 及其所有衍生工具,如 O1-mini、GPT-4O 和 Advanced Voice 语音模式。


特别是 O1 Pro 模式,它利用更多的计算资源,在处理数学、科学、编码等复杂问题时表现更为出色,为专业用户创建了一个更加高效的工作环境。


Day 2:强化微调技术


第二天,OpenAI推出了一项针对企业和开发者的技术突破——强化微调(Reinforcement Fine-Tuning)。


强化微调是什么?

通过巧妙地结合强化学习算法,使模型在特定领域的任务中能够展现出超越原有基础模型的卓越性能。


具体来说,在训练过程中,首先使用监督微调方法对模型进行预热,让模型对特定领域的知识有初步的了解。


然后,采用在线强化学习算法(如 PPO 算法)对模型进行进一步优化,模型根据给定的问题自动采样大量的推理路径,并根据真实答案来获取奖励或惩罚信号。通过不断的迭代优化,模型逐渐学会了在特定领域中高效推理和准确回答问题的能力。


为了实现更精准的优化,OpenAI 还引入了评分器的概念,评分器能够根据参考答案对模型的回应进行精确评分,从而为强化学习算法提供有效的反馈信号,促使模型性能不断提升。


应用前景:OpenAI 首次将强化学习这一高级算法向外部开发者开放,极大地拓宽了 AI 技术的应用边界。在法律、金融、医疗等对精确性和专业知识要求较高的领域具有巨大的应用潜力。


Day 3:Sora视频生成工具


视频生成是AI发展的重要方向,而第三天发布的Sora工具正是OpenAI在这一领域的最新尝试。


强大的视频生成能力:能够生成包含多个角色、特定动作类型,且主体与背景细节精确的复杂场景。不仅能够精准理解用户在提示中所提出的要求,还能深入把握这些元素在现实世界中的呈现方式,生成的视频在质量、细节和一致性方面都表现出色。


故事板功能:Sora 引入了故事板功能,这是一个创作辅助的有力工具。用户可以通过分镜头创作自己的故事,按照时间戳来选择期望在视频中生成的各个帧,以此创建视频。


高级视频编辑功能:除了基础的视频生成和故事板功能外,Sora 还提供了一系列高级视频编辑功能,相当于为视频添加了特效。其中包括:Re-cut(重新剪切)、Remix(重新组合)、Blend(融合)、Style Presets(风格预设)。


Day 4:Canvas协作平台


Canvas 是OpenAI推出的一款全新创作工具,为用户提供更高效、更智能的协作体验。


智能写作助手:Canvas 作为 AI 版的 Google Docs,具备智能写作助手的功能。它能够为用户提供编辑意见,帮助用户优化文章的结构、语法和表达。


代码协作功能:Canvas 内置了 webassembly python 模拟器,创造了一个几乎无延迟的编程环境,为程序员提供了便捷的代码协作平台。它不仅能够理解代码的意图,还能提供相关的代码示例和解释,帮助程序员更快地编写和调试代码。


定制化 AI 智能体:Canvas 上线了定制化 AI 智能体的能力,用户可以根据自己的需求创建和训练特定的 AI 智能体,使其能够完成一系列复杂的操作。


Day 5:ChatGPT集成到Apple生态系统


第五天,OpenAI宣布将ChatGPT集成到苹果的Apple Intelligence中,这是AI技术与硬件生态结合的一个重要尝试。


ChatGPT 与 Siri 的协同:OpenAI 与苹果的合作实现了 ChatGPT 和 Siri 的深度整合。当用户使用 Siri 时,Siri 能够判断某个任务是否更适合由 ChatGPT 来处理,如果是,则会将任务移交给ChatGPT 进行处理。


写作工具的增强:此次合作还增强了苹果设备上的写作工具。用户可以直接使用 ChatGPT 从头开始撰写各种文档,如工作报告、学术论文、小说等。ChatGPT 不仅能够生成文档的初稿,还能根据用户的要求对文档进行细化和总结,帮助用户提高写作效率和质量。


这一更新将ChatGPT融入了苹果用户的日常工作流,使AI不再只是独立的工具,而是成为智能生态系统的一部分。


Day 6:高级语音与视频功能


语音和视频是人机交互的重要方式。第六天,OpenAI展示了全新的语音与视频功能。


实时视频通话与交互:OpenAI 的高级视频语音模式早在 5 月 13 日的 gpt-4o 演示中就已出现,此次正式实装。该模式允许工作人员与 gpt-4o 进行视频通话,gpt-4o 不仅能够看到实时的手机屏幕内容,还能根据相机里的实时画面和用户聊天或解答问题。


语音功能升级:新的语音合成技术让AI的语音更加接近人类,语调和情感表达更加真实;支持多语言交互,适合跨文化交流场景,为教育、客服等领域提供专业的语音解决方案。


视频功能增强:通过结合语音与视频,用户可以使用ChatGPT制作带有语音解说的视频内容,这为在线教育、企业演示等场景提供了极大的便利。


Day 7:Projects对话管理模块


在第七天的发布中,OpenAI推出了名为“Projects”的新功能模块,为用户管理对话内容提供了一种高效方式。


“Projects” 项目功能:允许用户创建特定项目,并为每个项目创建一个独立的工作空间。用户可以上传与该项目相关的文件,设置自定义指令,然后将所有与该项目相关的对话集中在一个地方,方便用户对项目进行管理和跟踪。


Projects的亮点:用户可以为不同对话设置分类,例如工作项目、学习笔记或个人灵感,支持上传私有文件,让对话更加有针对性,用户可以设定全局指导方针,让AI的回答更贴近需求。


Day 8: ChatGPT搜索功能升级


ChatGPT 搜索升级:用户可以在对话中直接进行搜索,并且搜索结果支持多模态输出。搜索结果的呈现形式更加丰富,包含地图、图片、列表,甚至视频等。


ChatGPT 搜索功能免费开放:OpenAI 宣布将 ChatGPT 的搜索功能向全体用户免费开放,此前该功能仅限 Plus 会员和 Team 用户使用。这一举措使所有人都能使用 SearchGPT 集成到 ChatGPT 中的实时搜索内容功能,对传统搜索引擎构成了一定威胁。


Day 9:开发者工具更新


提供新的API和强化微调方法,帮助开发者更高效地构建AI应用。


推出 OpenAI o1 和多项开发者工具:正式推出 OpenAI o1 模型,它是 o1-preview 的继任者,在处理复杂多步骤任务方面精度更高,在简化客户支持、优化供应链决策和预测复杂财务趋势等领域展现出巨大潜力。


o1 模型关键功能:包括函数调用,可无缝连接到外部数据和 api;结构化输出,能生成遵守自定义 json 架构的响应;开发人员消息,可定义模型的语气、样式等行为指导;视觉功能,能够对图像进行推理;更低延迟,其使用的推理令牌比 o1-preview 平均少 60%;以及 'reasoning_effort'api 参数,可控制模型在回答前的思考时间。


实时 api 更新:引入了 webrtc 集成,简化了实时语音应用的构建和扩展,提供流畅且响应迅速的交互体验。同时,gpt-4o 音频降价 60%,gpt-4omini 以以前音频速率的十分之一支持,且音频代币价格降低,降低了成本,提升了语音质量和输入效率。


首选项微调与新 sdk 推出:首选项微调技术可教模型区分首选输出和非首选输出,适用于主观任务,能提高模型性能。此外,还推出了 go 和 java 两个新的官方 sdk,扩展了开发者生态,方便开发者使用 OpenAI 的模型构建更智能、更高效的应用程序。


Day 10:1-800-CHATGPT服务


开启通过电话直接与ChatGPT互动的新渠道,适合需要语音支持的用户。


ChatGPT 进入电话与 WhatsApp:ChatGPT 拓展了应用场景,无需注册即可进入电话与WhatsApp,使 AI 互动变得更加简单便捷,进一步拓宽了用户群,让更多用户能够更轻松地使用 ChatGPT 来获取信息和进行交流。


Day 11:应用集成


与各类应用程序的深度集成,拓展了ChatGPT的适用场景。


mac 整合与权限扩展:OpenAI 与苹果的合作进一步深化,实现了与 mac 的更紧密整合。此次整合给予了 gpt 更多 mac 工具的调用权限,使 gpt 能够与 mac 系统的各种应用程序和功能进行更深度的交互和协作。例如,gpt 可以直接调用 mac 的文件管理系统,读取和处理相关的文件;也可以与 mac 的办公软件、设计软件等进行集成,为用户提供更加智能化的创作和工作体验。


Day 12:o3模型预览与安全研究


终极王炸OPEN AI o3模型预览版发布。


卓越的推理和解决问题能力:o3 与 o3-mini 是 OpenAI 专为提升推理能力、编程水平和解决问题的能力而设计的新一代模型。它们在生成答案时会进行更深入的内部推理,这种自我反省的能力使得 o3 能够更有效地解决复杂问题,如编程挑战和数学计算。例如,在面对一些复杂的编程问题时,o3 不仅能够生成准确的代码,还能提供详细的解释,帮助用户理解其逻辑和流程,从而更好地掌握编程知识和技巧。


早期基准测试结果:早期的基准测试结果显示,o3 的表现远超以往的模型,尤其在开发者所需的编程能力上展现了非凡的实力。它能够快速理解编程问题的需求,生成高质量的代码解决方案,并且在代码的准确性、可读性和可维护性方面都表现出色。这一优势使得 o3 成为开发者的得力助手,能够大大提高开发效率和质量。


使用成本与应用前景:目前,o3 与 o3-mini 的使用成本相对较高,但随着技术的不断发展和优化,预计未来使用成本会逐渐降低。其在各领域的应用前景广阔,特别是在科研、教育、软件开发等对知识和技能要求较高的领域,o3 与 o3-mini 有望为专业人士提供更强大的支持,推动相关领域的发展和创新。


OpenAI 发布会所推出的创新成果,正以前所未有的深度与广度改写着当今社会的发展轨迹,从多个关键维度重塑未来、变革生产方式。AI 技术为未来勾勒出一幅超乎想象的智能蓝图。o1 正式版、o3 与 o3-mini,展现出的卓越推理与问题解决能力,预示着智能体将逐渐成为人类探索知识边界的亲密伙伴。未来的学习与创造不再受限于个体智力天花板与知识积累速度。不管怎么样,AI正在悄然但坚定地重塑时代格局。


分享