栏目:最新快讯 | 关键词:最新快讯、多模态、大模型 | 类型:客观新闻

2026年5月30日,国产大模型厂商DeepSeek在GitHub平台正式推出自研多模态大模型,并同步公开《用视觉原语思考(Thinking with Visual Primitives)》技术报告。该模型以V4-Flash为语言主干,搭载自研ViT视觉编码器,支持任意分辨率输入,凭借创新技术框架攻克了多模态模型空间推理的痛点。
在正式发布前夕,DeepSeek多模态团队负责人陈晓康于4月29日官宣,旗下旗舰聊天机器人图像识别功能进入灰度测试阶段。从首批试用反馈来看,该功能可支持用户自由上传图片,完成深度内容理解与分析,不仅能精准识别复杂人物、环境构图及各类摄影细节,生成高还原度的图像描述文本;开启"思考模式"后,还能依托文物视觉特征,精准推导其艺术风格与对应的历史背景。
几乎同时,小米正式开源其MiMo-VL-7B系列多模态大模型,包含经过四阶段预训练的SFT模型和采用混合策略强化学习(MORL)的RL模型。该系列在视觉语言理解、GUI任务和逻辑推理等多项基准测试中均达到开源模型最优水平。技术架构方面,MiMo-VL-7B采用三大核心设计:原生分辨率ViT编码器保留视觉细节、高效MLP投影器实现跨模态对齐、专为复杂推理优化的"MiMo-7B"语言模型底座。
在国际市场,智谱AI于5月12日发布GLM-5V-Turbo原生多模态模型,自研CogViT视觉编码器,采用多模态多Token预测(MMTP),实现视觉理解与编程能力的深度融合,支持20万上下文,可自主浏览网站、解析图表生成报告。5月22日,智谱发布GLM-5.1高速版API,输出速度达400 tokens/s,刷新全球大模型厂商API速度上限。
业内分析认为,2026年多模态大模型的核心突破在于"原生多模态"架构的普及。与早期"拼接式"多模态不同,新一代模型将文字、图像、音频、视频在同一个Transformer骨干中联合训练,共享表示空间,实现了真正的跨模态推理。从"能看图"到"懂空间",多模态AI正在从感知层面向认知层面跃迁。