Gemma 4 12B发布：砍掉编码器，多模态也能跑在笔记本上-西瓜码农

没有编码器，照样能看图听音——Gemma 4 12B的"减法"哲学

Google DeepMind最近放了个有意思的东西：Gemma 4 12B。

为什么说有意思？因为它是目前我见过的最"简洁"的多模态模型——没有视觉编码器，没有音频编码器，图片和声音直接塞进语言模型的骨干网络里处理。

这听起来像是偷懒，但实际上是一种架构上的大胆选择。

先说背景。传统的多模态模型（比如GPT-4o、Claude等）处理图片和音频的方式，基本是"翻译"模式：

问题在于，这些额外的编码器既占内存又增加延迟。对于想在笔记本上跑模型的开发者来说，每个额外的编码器都是负担。

Google的做法很直接——砍掉编码器：

结果呢？16GB显存就能跑。一台普通笔记本，不需要云端API，就能用上多模态AI。

Google说Gemma 4 12B在标准基准测试上的表现接近他们更大的26B MoE模型，但内存占用不到一半。

而且这还是第一个支持原生音频输入的中等规模Gemma模型。之前的Gemma 4系列有E4B（边缘端）和26B MoE（高性能），12B正好填补中间的空白。

其他亮点：

Gemma 4系列目前下载量已经超过1.5亿次，社区用它们做了从可穿戴机械臂到企业级AI安全系统等各种东西。

我觉得Gemma 4 12B最值得关注的不是某个具体的benchmark分数，而是它代表的趋势：用更简洁的架构做更多的事。

过去两年，AI模型越做越大，参数量、显存需求、推理成本都在膨胀。但实际使用场景中，很多人需要的不是"最强"的模型，而是"够强且能本地跑"的模型。

砍掉编码器这个选择，本质上是在问一个问题：我们真的需要那么复杂的模块化架构吗？还是说，一个足够好的语言模型骨干，自己就能学会处理多模态信息？

至少从Gemma 4 12B的结果来看，答案是偏向后者的。这跟最近"统一架构"的趋势是一致的——用一个模型搞定所有模态，而不是拼凑多个专用模块。

对开发者来说，Gemma 4 12B是个很实用的选择。16GB显存、Apache 2.0开源、多模态+Agent能力——这意味着你可以在自己的机器上跑一个能看图、能听音、能推理的AI，不用依赖任何云服务。

对行业来说，"编码器免费"的架构如果被验证成功，可能会改变多模态模型的设计方向。毕竟，谁不想用更少的资源做更多的事呢？

当然，12B参数的模型在复杂任务上还是有天花板的。但作为本地部署的"主力军"，它可能刚好卡在那个甜蜜点上——够强、够快、够省。