DeepSeek识图模式上线，多模态大模型卷到手机端

DeepSeek的识图模式终于上线了。

多模态研究员Xiaokang Chen在X上宣布，识图模式已经在网页端和App端同步上线。跟快速模式、专家模式并列，用户开启后可以直接上传图片，让DeepSeek理解图片内容并基于图片对话。

为什么这个功能重要？

说实话，识图功能本身不算新鲜。GPT-4V、Gemini、Claude都能看图。但DeepSeek做这件事的意义在于——它是国内开源大模型里第一个把多模态做到消费级体验的。

之前国内大模型的图片理解能力，要么是实验室demo，要么是付费API，普通用户很难直接用上。DeepSeek直接把识图模式放到了免费App里，这个动作挺大方的。

2026年上半年的多模态大模型，竞争已经白热化了：

DeepSeek的识图模式上线，等于正式加入了这场混战。而且以DeepSeek一贯的风格，大概率会开源多模态模型权重。如果真是这样，国内多模态生态会加速发展。

注意，DeepSeek这次是App和网页端同时上线。这个细节很关键。

大模型的使用场景正在从PC端向手机端迁移。你在电脑前可能更习惯打字，但在手机上，拍照+语音才是更自然的交互方式。识图模式在手机上的实用性远大于电脑。

想象一下：拍一道数学题让AI讲解，拍一个产品让AI比价，拍一个菜单让AI翻译——这些场景在手机上每天都在发生。DeepSeek把识图放到App里，就是在抢占这些场景。

识图只是第一步。真正的多模态，是让大模型同时理解文字、图片、音频、视频，并且能在这些模态之间自由切换。

DeepSeek V4预览版已经发布，识图模式也在跟进。按照这个节奏，视频理解、语音交互可能也不会太远。

国内大模型公司里，DeepSeek的技术迭代速度是最快的之一。从V3到V4，从纯文本到多模态，每一步都踩在点上。这背后是团队对技术方向的判断力。

对普通用户来说，多模态大模型意味着AI变得更"像人"了。人不只是用文字交流，还用眼睛看、用耳朵听。AI能看图、能听声音，交互的门槛就大幅降低了。

对开发者来说，DeepSeek如果开源多模态权重，意味着可以基于它构建更丰富的应用。图像搜索、视觉问答、文档OCR——这些场景的技术门槛会进一步降低。

识图模式刚上线，能力边界还不清楚。比如复杂图表的理解、手写文字的识别、多图对比推理——这些高级能力还需要实测验证。

另外，多模态模型的计算成本比纯文本高不少。DeepSeek能免费提供多久，也是个问题。毕竟烧钱的速度和用户增长的速度是成正比的。

总之，DeepSeek识图模式上线是个好消息。国内大模型在多模态这条路上，又往前迈了一步。接下来就看其他家怎么接招了。

来源：爱范儿、X (Twitter) | 时间：2026-06-19