DeepSeek识图模式上线,多模态大模型卷到手机端
DeepSeek的识图模式终于上线了。
多模态研究员Xiaokang Chen在X上宣布,识图模式已经在网页端和App端同步上线。跟快速模式、专家模式并列,用户开启后可以直接上传图片,让DeepSeek理解图片内容并基于图片对话。
为什么这个功能重要?
说实话,识图功能本身不算新鲜。GPT-4V、Gemini、Claude都能看图。但DeepSeek做这件事的意义在于——它是国内开源大模型里第一个把多模态做到消费级体验的。
之前国内大模型的图片理解能力,要么是实验室demo,要么是付费API,普通用户很难直接用上。DeepSeek直接把识图模式放到了免费App里,这个动作挺大方的。
多模态大模型的竞争格局
2026年上半年的多模态大模型,竞争已经白热化了:
- OpenAI的GPT-4o支持实时语音+视觉
- Google的Gemini 2.5 Pro原生多模态
- Anthropic的Claude 4系列视觉能力大幅提升
- 国内这边,通义千问、智谱GLM-5都在推多模态
DeepSeek的识图模式上线,等于正式加入了这场混战。而且以DeepSeek一贯的风格,大概率会开源多模态模型权重。如果真是这样,国内多模态生态会加速发展。
手机端才是主战场
注意,DeepSeek这次是App和网页端同时上线。这个细节很关键。
大模型的使用场景正在从PC端向手机端迁移。你在电脑前可能更习惯打字,但在手机上,拍照+语音才是更自然的交互方式。识图模式在手机上的实用性远大于电脑。
想象一下:拍一道数学题让AI讲解,拍一个产品让AI比价,拍一个菜单让AI翻译——这些场景在手机上每天都在发生。DeepSeek把识图放到App里,就是在抢占这些场景。
多模态不只是看图
识图只是第一步。真正的多模态,是让大模型同时理解文字、图片、音频、视频,并且能在这些模态之间自由切换。
DeepSeek V4预览版已经发布,识图模式也在跟进。按照这个节奏,视频理解、语音交互可能也不会太远。
国内大模型公司里,DeepSeek的技术迭代速度是最快的之一。从V3到V4,从纯文本到多模态,每一步都踩在点上。这背后是团队对技术方向的判断力。
对用户意味着什么?
对普通用户来说,多模态大模型意味着AI变得更"像人"了。人不只是用文字交流,还用眼睛看、用耳朵听。AI能看图、能听声音,交互的门槛就大幅降低了。
对开发者来说,DeepSeek如果开源多模态权重,意味着可以基于它构建更丰富的应用。图像搜索、视觉问答、文档OCR——这些场景的技术门槛会进一步降低。
还需要注意什么?
识图模式刚上线,能力边界还不清楚。比如复杂图表的理解、手写文字的识别、多图对比推理——这些高级能力还需要实测验证。
另外,多模态模型的计算成本比纯文本高不少。DeepSeek能免费提供多久,也是个问题。毕竟烧钱的速度和用户增长的速度是成正比的。
总之,DeepSeek识图模式上线是个好消息。国内大模型在多模态这条路上,又往前迈了一步。接下来就看其他家怎么接招了。
来源:爱范儿、X (Twitter) | 时间:2026-06-19
评论区