5月大模型热力榜：跑分时代结束，能干多久才是真本事-西瓜码农

跑分时代结束了

大模型之家5月热力榜收录了568个模型，但最值得说的不是谁又刷了新高，而是评价标准变了——"智能体能力"正式取代"综合跑分"成为权重最高的维度。翻译成人话就是：别跟我说你跑分多高，告诉我你能独自干活干多久。

8小时级甚至35小时级的持续自主工作，现在已经是旗舰模型的标配。从编译器开发到桌面应用构建，模型得能端到端交付，不是写两行代码就完事。

各家5月都干了啥

百度5月9日发了文心5.1，用了个叫"多维弹性预训练"的技术，总参数压缩到文心5.0的三分之一，预训练成本只有同规模模型的6%。数学竞赛AIME26拿了99.6分，Agent能力超过了DeepSeek-V4-Pro。Create大会上李彦宏提了个新概念叫DAA（日活智能体数），还发了通用智能体DuMate、代码智能体秒哒3.0。昆仑芯天池256卡超节点也点亮了，6月上市。

阿里5月20日发布Qwen3.7-Max，Arena盲测国产第一，超过Kimi-K2.6、DeepSeek-V4-Pro和GLM-5.1。最夸张的是长程自主执行：在平头哥真武M890芯片上，模型从零自主工作35小时，完成1158次工具调用，把推理内核性能提升10倍。同场还发了真武M890芯片（144GB显存，上代3倍性能）和磐久AL128超节点服务器。阿里AI业务ARR已超80亿，预计年底破300亿。

DeepSeek5月继续引爆。V4-Pro永久降价75%，V4-Flash登顶OpenRouter全球调用榜。5月30日发布多模态技术"以视觉原语思考"，自研ViT编码器，支持任意分辨率输入。V4系列已适配华为昇腾950PR，推理效率提升3倍以上。

商汤发了SenseNova 6.7 Flash-Lite，Token消耗降60%。U1系列开源后10家国产芯片完成适配。生成式AI收入36.29亿，同比增长51%。

面壁智能搞了个"端侧大模型开源周"，五天五连发。最让我印象深刻的是BitCPM-CANN——国内首个完全基于华为昇腾的三值大模型，推理阶段释放约6倍显存，能力保留率90%-97%。还有ForgeTrain，号称全球首个完全由AI编写、零人类代码介入的训练框架。

小米的MiMo-V2.5-Pro也很猛，1.02T参数/42B激活，4.3小时从零完成SysY编译器（满分233/233），11.5小时完成8192行代码的桌面视频编辑器。API永久降价，最高降幅99%。

三个趋势

看完5月这波，我觉得有三个趋势很明确：

第一，模型开源+芯片适配+API降价三重共振。大家不再只比参数量，而是比谁能把成本打下来、把生态铺开。DeepSeek V4-Pro降价75%，小米最高降99%，这不是做慈善，是在抢开发者。

第二，智能体从演示走向生产。35小时自主工作、1158次工具调用，这不是demo，这是真干活。百度提DAA指标，阿里展示35小时长程执行，都是在说同一件事：模型的价值不在于回答问题，而在于解决问题。

第三，国产芯片生态加速。华为昇腾、平头哥真武、昆仑芯天池……10家国产芯片适配商汤U1，面壁的三值模型跑在昇腾上。算力自主这条线，正在从口号变成产品。

5月这波密集发布，本质上是在回答一个问题：大模型到底能干什么？答案越来越清晰——不是聊天，不是写诗，是替你干活。能干多久，比能跑多高重要得多。

目录CONTENT

5月大模型热力榜：跑分时代结束，能干多久才是真本事

跑分时代结束了

各家5月都干了啥

三个趋势

评论区