AI Trends HUB

DeepSeek发布"视觉原语"多模态模型，自研ViT编码器破解空间推理难题

2026-06-04

栏目：最新快讯 | 关键词：最新快讯、多模态、大模型 | 类型：客观新闻

2026年5月30日，国产大模型厂商DeepSeek在GitHub平台正式推出自研多模态大模型，并同步公开《用视觉原语思考（Thinking with Visual Primitives）》技术报告。该模型以V4-Flash为语言主干，搭载自研ViT视觉编码器，支持任意分辨率输入，凭借创新技术框架攻克了多模态模型空间推理的痛点。

在正式发布前夕，DeepSeek多模态团队负责人陈晓康于4月29日官宣，旗下旗舰聊天机器人图像识别功能进入灰度测试阶段。从首批试用反馈来看，该功能可支持用户自由上传图片，完成深度内容理解与分析，不仅能精准识别复杂人物、环境构图及各类摄影细节，生成高还原度的图像描述文本；开启"思考模式"后，还能依托文物视觉特征，精准推导其艺术风格与对应的历史背景。

几乎同时，小米正式开源其MiMo-VL-7B系列多模态大模型，包含经过四阶段预训练的SFT模型和采用混合策略强化学习（MORL）的RL模型。该系列在视觉语言理解、GUI任务和逻辑推理等多项基准测试中均达到开源模型最优水平。技术架构方面，MiMo-VL-7B采用三大核心设计：原生分辨率ViT编码器保留视觉细节、高效MLP投影器实现跨模态对齐、专为复杂推理优化的"MiMo-7B"语言模型底座。

在国际市场，智谱AI于5月12日发布GLM-5V-Turbo原生多模态模型，自研CogViT视觉编码器，采用多模态多Token预测（MMTP），实现视觉理解与编程能力的深度融合，支持20万上下文，可自主浏览网站、解析图表生成报告。5月22日，智谱发布GLM-5.1高速版API，输出速度达400 tokens/s，刷新全球大模型厂商API速度上限。

业内分析认为，2026年多模态大模型的核心突破在于"原生多模态"架构的普及。与早期"拼接式"多模态不同，新一代模型将文字、图像、音频、视频在同一个Transformer骨干中联合训练，共享表示空间，实现了真正的跨模态推理。从"能看图"到"懂空间"，多模态AI正在从感知层面向认知层面跃迁。

1，欢迎转载，转载时请注明来源为 AITrendsHub。如需商业性转载或合作，请提前联系邮箱：aitrendshub@qq.com 。 2，本站内容仅供参考，不代表 AITrendsHub 的观点或立场。我们提供的AI资讯、数据与分析不构成任何投资或决策建议，请读者自行判断与承担风险。3、因平台信息海量，无法杜绝所有侵权行为，如有侵权烦请联系我们，以便及时删除 https://we17905985-7.m.icoc.bz/nd.jsp?id=3536

写评论...