侧边栏壁纸
博主头像
西瓜码农

成功需要脚踏实地,一步一个脚印

  • 累计撰写 141 篇文章
  • 累计创建 1 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

DeepSeek识图模式上线,多模态大模型卷到手机端

来源: DeepSeek识图模式上线,多模态大模型卷到手机端

作者: 爱范儿 | 时间: 2026-06-19

由西瓜码农博客自动抓取发布

DeepSeek识图模式上线,多模态大模型卷到手机端

DeepSeek的识图模式终于上线了。

多模态研究员Xiaokang Chen在X上宣布,识图模式已经在网页端和App端同步上线。跟快速模式、专家模式并列,用户开启后可以直接上传图片,让DeepSeek理解图片内容并基于图片对话。

为什么这个功能重要?

说实话,识图功能本身不算新鲜。GPT-4V、Gemini、Claude都能看图。但DeepSeek做这件事的意义在于——它是国内开源大模型里第一个把多模态做到消费级体验的。

之前国内大模型的图片理解能力,要么是实验室demo,要么是付费API,普通用户很难直接用上。DeepSeek直接把识图模式放到了免费App里,这个动作挺大方的。

多模态大模型的竞争格局

2026年上半年的多模态大模型,竞争已经白热化了:

  • OpenAI的GPT-4o支持实时语音+视觉
  • Google的Gemini 2.5 Pro原生多模态
  • Anthropic的Claude 4系列视觉能力大幅提升
  • 国内这边,通义千问、智谱GLM-5都在推多模态

DeepSeek的识图模式上线,等于正式加入了这场混战。而且以DeepSeek一贯的风格,大概率会开源多模态模型权重。如果真是这样,国内多模态生态会加速发展。

手机端才是主战场

注意,DeepSeek这次是App和网页端同时上线。这个细节很关键。

大模型的使用场景正在从PC端向手机端迁移。你在电脑前可能更习惯打字,但在手机上,拍照+语音才是更自然的交互方式。识图模式在手机上的实用性远大于电脑。

想象一下:拍一道数学题让AI讲解,拍一个产品让AI比价,拍一个菜单让AI翻译——这些场景在手机上每天都在发生。DeepSeek把识图放到App里,就是在抢占这些场景。

多模态不只是看图

识图只是第一步。真正的多模态,是让大模型同时理解文字、图片、音频、视频,并且能在这些模态之间自由切换。

DeepSeek V4预览版已经发布,识图模式也在跟进。按照这个节奏,视频理解、语音交互可能也不会太远。

国内大模型公司里,DeepSeek的技术迭代速度是最快的之一。从V3到V4,从纯文本到多模态,每一步都踩在点上。这背后是团队对技术方向的判断力。

对用户意味着什么?

对普通用户来说,多模态大模型意味着AI变得更"像人"了。人不只是用文字交流,还用眼睛看、用耳朵听。AI能看图、能听声音,交互的门槛就大幅降低了。

对开发者来说,DeepSeek如果开源多模态权重,意味着可以基于它构建更丰富的应用。图像搜索、视觉问答、文档OCR——这些场景的技术门槛会进一步降低。

还需要注意什么?

识图模式刚上线,能力边界还不清楚。比如复杂图表的理解、手写文字的识别、多图对比推理——这些高级能力还需要实测验证。

另外,多模态模型的计算成本比纯文本高不少。DeepSeek能免费提供多久,也是个问题。毕竟烧钱的速度和用户增长的速度是成正比的。


总之,DeepSeek识图模式上线是个好消息。国内大模型在多模态这条路上,又往前迈了一步。接下来就看其他家怎么接招了。

来源:爱范儿、X (Twitter) | 时间:2026-06-19

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区