侧边栏壁纸
博主头像
西瓜码农

成功需要脚踏实地,一步一个脚印

  • 累计撰写 130 篇文章
  • 累计创建 1 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

5月大模型热力榜:跑分时代结束,能干多久才是真本事

跑分时代结束了

大模型之家5月热力榜收录了568个模型,但最值得说的不是谁又刷了新高,而是评价标准变了——"智能体能力"正式取代"综合跑分"成为权重最高的维度。翻译成人话就是:别跟我说你跑分多高,告诉我你能独自干活干多久。

8小时级甚至35小时级的持续自主工作,现在已经是旗舰模型的标配。从编译器开发到桌面应用构建,模型得能端到端交付,不是写两行代码就完事。

各家5月都干了啥

百度5月9日发了文心5.1,用了个叫"多维弹性预训练"的技术,总参数压缩到文心5.0的三分之一,预训练成本只有同规模模型的6%。数学竞赛AIME26拿了99.6分,Agent能力超过了DeepSeek-V4-Pro。Create大会上李彦宏提了个新概念叫DAA(日活智能体数),还发了通用智能体DuMate、代码智能体秒哒3.0。昆仑芯天池256卡超节点也点亮了,6月上市。

阿里5月20日发布Qwen3.7-Max,Arena盲测国产第一,超过Kimi-K2.6、DeepSeek-V4-Pro和GLM-5.1。最夸张的是长程自主执行:在平头哥真武M890芯片上,模型从零自主工作35小时,完成1158次工具调用,把推理内核性能提升10倍。同场还发了真武M890芯片(144GB显存,上代3倍性能)和磐久AL128超节点服务器。阿里AI业务ARR已超80亿,预计年底破300亿。

DeepSeek5月继续引爆。V4-Pro永久降价75%,V4-Flash登顶OpenRouter全球调用榜。5月30日发布多模态技术"以视觉原语思考",自研ViT编码器,支持任意分辨率输入。V4系列已适配华为昇腾950PR,推理效率提升3倍以上。

商汤发了SenseNova 6.7 Flash-Lite,Token消耗降60%。U1系列开源后10家国产芯片完成适配。生成式AI收入36.29亿,同比增长51%。

面壁智能搞了个"端侧大模型开源周",五天五连发。最让我印象深刻的是BitCPM-CANN——国内首个完全基于华为昇腾的三值大模型,推理阶段释放约6倍显存,能力保留率90%-97%。还有ForgeTrain,号称全球首个完全由AI编写、零人类代码介入的训练框架。

小米的MiMo-V2.5-Pro也很猛,1.02T参数/42B激活,4.3小时从零完成SysY编译器(满分233/233),11.5小时完成8192行代码的桌面视频编辑器。API永久降价,最高降幅99%。

三个趋势

看完5月这波,我觉得有三个趋势很明确:

第一,模型开源+芯片适配+API降价三重共振。大家不再只比参数量,而是比谁能把成本打下来、把生态铺开。DeepSeek V4-Pro降价75%,小米最高降99%,这不是做慈善,是在抢开发者。

第二,智能体从演示走向生产。35小时自主工作、1158次工具调用,这不是demo,这是真干活。百度提DAA指标,阿里展示35小时长程执行,都是在说同一件事:模型的价值不在于回答问题,而在于解决问题。

第三,国产芯片生态加速。华为昇腾、平头哥真武、昆仑芯天池……10家国产芯片适配商汤U1,面壁的三值模型跑在昇腾上。算力自主这条线,正在从口号变成产品。

5月这波密集发布,本质上是在回答一个问题:大模型到底能干什么?答案越来越清晰——不是聊天,不是写诗,是替你干活。能干多久,比能跑多高重要得多。

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区