侧边栏壁纸
博主头像
西瓜码农

成功需要脚踏实地,一步一个脚印

  • 累计撰写 128 篇文章
  • 累计创建 1 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

智谱GLM-5.2开源即登顶:Coding全球第一,1M上下文不是噱头

来源: 智谱GLM-5.2开源即登顶:Coding全球第一,1M上下文不是噱头

作者: 腾讯新闻 | 时间: 2026-06-17

由西瓜码农博客发布

智谱GLM-5.2开源即登顶:Coding全球第一,1M上下文不是噱头

智谱今天放了个大招

6月17日,智谱AI正式上线并开源了新一代大模型GLM-5.2。这个模型有个很硬的标签——在全球百万用户参与盲测的Code Arena上,拿下了全球可用模型第一。

说实话,看到这个消息我第一反应是:又来一个全球第一?毕竟这年头大模型厂商的通稿,谁不是第一呢?但仔细看了数据后,我觉得这次有点不一样。

1M上下文,这次是真能用的

GLM-5.2最核心的升级是把上下文窗口从5.1的200K拉到了1M tokens。但智谱特别强调了一点:这个1M不是参数表上的数字,是经过工程验证的。

这话有针对性。目前市面上标称1M上下文的模型不少——Claude Opus 4.8、GPT-5.5、DeepSeek V4 Pro都号称百万级窗口。但实测下来,GPT-5.5在50万到100万token区间出现能力腰斩,DeepSeek V4 Pro在多针检索测试中通过率只有60%左右。标称和有效可用之间,差了十万八千里。

智谱的做法是花了几个月时间扩展1M Coding Agent的训练环境,覆盖自动化研究、性能优化等场景。结果就是GLM-5.2在1M上下文的表现,有时候甚至超过Claude Opus。这个有时候虽然不够绝对,但至少说明不是虚标。

实际案例更直观:GLM-5.2曾完成从开发、联调、测试到打包上线的完整交付,累计处理88万tokens,几乎用满1M上下文窗口。以前这种工程量,需要一支团队协作数周。

性能到底什么水平?

多个长程任务基准测试显示,GLM-5.2的表现介于Claude Opus 4.7与4.8之间,是排名最高的开源模型。

具体来看:FrontierSWE上,GLM-5.2仅比Opus 4.8低1%,超过GPT-5.5和Opus 4.7。Terminal-Bench 2.1上比Opus 4.8低4%,但相比自家前代GLM-5.1提升了17.5%。MCP-Atlas上比Opus 4.8仅低0.8%。

说白了,跟最顶尖的闭源模型比还有差距,但差距已经很小了。而且作为开源模型,这个水平已经相当能打。

几个不能忽视的短板

先说速度。相同复杂任务中,GLM-5.2耗时45分钟,Claude Opus 4.8只要33分钟。有用户吐槽它的响应速度打破了DeepSeek此前的最慢记录。对于需要实时交互的场景,这个差距挺要命的。

其次是指令遵循出现分化。盲测显示GLM-5.2在多步指令执行中偶尔缺失分隔符,否定约束下首次调用输出为空。这暴露出过度思考挤占输出空间的倾向——想太多,反而忘了该输出什么。

第三,复杂推理层面仍有差距。HLE人类终极考试与GPQA等测试中,跟顶尖模型差了约5%。

另外,智谱至今没公布GLM-5.2在SWE-bench等标准化基准上的官方数据,第三方验证还得等API正式上线后展开。这点让人有点不踏实。

技术架构的几个亮点

GLM-5.2提出了IndexShare创新设计——每四层稀疏注意力层之间复用同一个索引器,在1M上下文长度下把单位token的FLOPs降低到2.9倍。同时改进了用于投机解码的MTP层,接受长度最多提升20%。

训练侧依赖自研Slime框架,支撑大规模Agentic RL和OPD训练。744B总参数、40B激活参数的MoE架构,延续动态稀疏注意力技术路线。

还有一点值得注意:GLM-5.2在Day 0就完成了华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞等国产算力平台的推理适配。不依赖NVIDIA,这条自主路线走得很坚决。

开源和定价

GLM-5.2在Hugging Face和ModelScope开源,MIT License,可自由下载、部署与商用,无地域限制。vLLM、SGLang、transformers等主流推理框架已支持。API已上线并纳入GLM Coding Plan。

但定价方面,智谱在持续涨价。自2月GLM-5发布以来,Coding Plan套餐已经三轮调价,整体涨幅超30%,海外版API上涨67%到100%。而另一边,DeepSeek V4-Pro宣布永久降价75%,OpenAI也在6月启动了首轮大规模API降价。

下一站:自治智能体

智谱透露的下一个目标是完全自治的智能体系统(Autonomous Agent System)。让AI自主驱动、协同作业、7x24小时运转,从智能助手走向数字员工。

听起来很科幻,但GLM-5.2在长程任务上的表现,确实为这个方向打了个底。核心技术攻关方向包括Memory、持续学习和自我评判。

总的来说,GLM-5.2是国产大模型在Coding赛道上的一次有力冲击。不是完美无缺,但进步速度确实快。开源+1M上下文+国产算力适配,这三张牌打出来,至少在国产替代的叙事里,智谱站得很稳。

参考来源:腾讯新闻

发布日期:2026年6月17日

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区