栏目:最新快讯 | 关键词:最新快讯、全球动态、人工智能快讯 | 类型:客观新闻

2026年6月第一周,海外AI视频生成领域迎来密集更新。OpenAI正式将Sora的公测范围从Plus用户扩展至所有ChatGPT付费订阅者,并开放了API接口;Runway则发布了备受期待的Gen-4版本,主打"角色一致性"和"世界记忆"功能;Google DeepMind的Veo 2也在本周向Google Cloud企业客户开放预览。三大巨头的同步动作,标志着海外AI视频赛道正式进入"多模态混战"阶段。
事件背景方面,2025年是AI视频生成的"爆发年"。OpenAI在2月首次展示Sora,以其60秒连贯视频震惊业界;Runway随后推出Gen-3,在创意社区中积累了大量用户;Google的Veo系列则依托YouTube生态,在内容理解上具有独特优势。进入2026年,竞争焦点从"谁能生成更长的视频"转向"谁能提供更完整的创作工作流"和"谁能在商业场景中真正可用"。
OpenAI Sora的本次更新是战略性的。公测扩容意味着Sora从"技术演示"正式转型为"商业产品"。API接口的开放更是关键一步——开发者现在可以将Sora的视频生成能力集成到自己的应用和工作流中。据OpenAI官方文档,Sora API支持文本、图像和视频三种输入模态,输出分辨率最高可达1080p,时长最长为60秒。定价方面,视频生成按计算量计费,标准质量视频约为每分钟0.5美元,高质量视频约为每分钟2美元。这一价格策略被业内解读为"用低价换市场",旨在快速建立开发者生态。
Runway Gen-4的发布则代表了另一条技术路线。新版本的核心卖点是"角色一致性"(Character Consistency)和"世界记忆"(World Memory)。前者允许用户上传角色参考图,Gen-4会在不同场景、不同镜头角度下保持角色的外貌、服装和气质一致;后者则让系统"记住"已生成视频中的场景设定、物体位置和物理规则,在续拍或补拍时自动保持一致。Runway CEO Cristóbal Valenzuela在发布会上演示了一个案例:一位穿着红色风衣的女性角色,在雨天街道、咖啡馆内和屋顶天台三个场景中保持了完全一致的形象,且场景间的光影逻辑和天气设定连贯统一。
Google DeepMind Veo 2的企业预览则凸显了"生态整合"优势。Veo 2不仅是一个独立的视频生成模型,更与Google的Workspace、YouTube和Ads平台深度打通。例如,YouTube创作者可以直接在YouTube Studio中调用Veo 2生成视频片段,用于填补素材空缺或制作预告片;Google Ads广告主则可以通过自然语言描述自动生成产品展示视频。据Google Cloud官方博客,Veo 2在理解复杂物理运动和相机语言方面表现突出,在内部评测中,其视频质量得分比Veo 1提升了35%。
各方反应复杂。开发者社区对Sora API的开放普遍欢迎,已有多个第三方工具在48小时内宣布集成Sora。但部分独立创作者对Runway Gen-4的订阅涨价表示不满——新功能仅限Pro及以上套餐(月费76美元),较之前的标准套餐(月费35美元)涨幅明显。企业客户方面,广告公司和影视制作公司对Veo 2的YouTube整合表现出兴趣,但担忧Google会优先服务自家生态,对第三方平台的支持有限。
影响分析显示,海外AI视频赛道的"多模态混战"将加速行业整合。技术层面,视频生成模型正在从"单一模态输入"向"多模态协同理解"演进,这要求模型具备更强的世界知识和推理能力。商业层面,API开放和生态整合成为两大竞争策略,OpenAI走"平台化"路线,Runway走"专业化"路线,Google走"生态化"路线。市场层面,据PitchBook 2026年Q1数据,AI视频生成领域的风险投资在2025年达到28亿美元后,2026年Q1已出现回落,资本更倾向于投向已有成熟产品和用户基础的企业。
未来展望,2026年下半年海外AI视频赛道将呈现三个趋势。首先是"实时生成"技术的突破,预计将有产品支持"边写边生成"的实时视频流,应用于直播、虚拟会议等场景。其次是"物理世界模拟"的深化,下一代模型将更准确地模拟重力、流体、光影等物理现象,使得AI生成视频可用于工程预演和科学可视化。第三是"全球监管协调",随着欧盟《AI法案》和美国各州AI立法的推进,视频生成工具的透明度、水印标识和内容审核要求将日趋严格,这可能重塑竞争格局。
信源:OpenAI官方博客、Runway Gen-4发布会、Google Cloud博客、PitchBook 2026年Q1报告、The Verge