事件:智谱正式发布并开源GLM-5.2,模型定位于Coding与长程任务,支持Solid 1M上下文、128K输出,并采用MIT开源协议。GLM-5.2在Code Arena前端开发评估中取得全球可用模型第一的表现,在Github LLM Benchmark Code v3私有工程化测评中位列全球第三,并在长程任务能力上介于Claude Opus 4.7与4.8之间。与此同时,公司通过API取消短上下文档、增加Coding Plan团队版套餐等方式提价,年内模型四次更新四次提价,进一步验证高端模型商业化能力。我们认为,本次GLM-5.2发布的核心意义不只是模型能力升级,而是国产大模型正在从低价追赶进入全球顶尖能力模型具备定价权的新阶段。

Code Arena、LLM Benchmark Code v3表现亮眼,国产模型在前端开发与真实工程任务中进入全球第一梯队。在全球百万用户参与盲测的前端开发评估系统Code Arena上,GLM-5.2 Max排名第2,仅次于Claude Fable 5,高于Claude Opus 4.7 Thinking、Claude Opus 4.8 Thinking等多代Claude模型。考虑到Fable 5目前可用性受限,GLM-5.2实际取得全球可用模型第一的表现。在2026年6月Code v3月榜中,GLM-5.2(max)排在GPT-5.5(high)和Claude Opus 4.8(high)之后,位列全球第三,并高于GPT-5.4(high)、Claude Opus 4.6等模型。我们认为,GLM-5.2不是在传统选择题或静态代码题上刷分,而是在更接近真实前端开发和工程交付的盲测环境中压过一众Claude模型,说明国产模型在Agentic Coding场景中已经具备全球一线竞争力。

GLM-5.2专为Agentic Coding与长程任务设计。GLM 5.2支持Solid 1M上下文,对于Coding Agent而言,1M上下文的意义在于可以将完整代码仓库、长日志、多轮调试记录、历史修改、工程规范和测试结果放入同一条推理链路,减少长程任务中途跑偏。实际体验中,GLM-5.2完成覆盖Web、移动端与小程序的多端应用,从开发、联调、测试到打包上线,累计处理88万tokens,几乎用满1M上下文窗口。我们认为,长上下文正在从参数卖点变成工程生产力,尤其适用于大型代码库理解、跨模块debug、复杂重构和长期Agent任务。

多项Coding与长程任务Benchmark显示,GLM-5.2能力介于Claude Opus 4.7与4.8之间,是当前最强开源Coding模型之一。长程任务方面,GLM-5.2在FrontierSWE和PostTrainBench上得分分别为74.4%和34.3%,仅低于Claude Opus 4.8,高于Opus 4.7和GPT-5.5;Terminal-Bench 2.1上达到81.0,较GLM-5.1的62.0大幅提升,并接近Opus 4.8的85.0;SWE-bench Pro达到62.1,较GLM-5.1的58.4继续提升。我们认为,GLM-5.2已在Coding与长程任务维度进入海外闭源头部模型可比区间。

工程化与推理效率优化是GLM-5.2商业化落地的重要支撑。GLM-5.2并非简单堆上下文长度,而是在模型架构、推理系统和训练基础设施上协同优化。官方提出IndexShare,在每四层稀疏注意力层之间复用同一个indexer,在1M上下文长度下将单位token FLOPs降低至约1/2.9;同时改进投机解码MTP层,将acceptance length最多提升20%。我们认为,长上下文能不能商业化,关键不是参数表写1M,而是能否降低KV Cache、FLOPs和推理时延成本。GLM-5.2在1M上下文与推理效率上的同步优化,有助于支撑API和Coding Plan在高负载下的毛利率与稳定性。

模型API价格体系继续上移,取消短上下文档相当于变相提价,Coding Plan从个人订阅升级到企业级研发生产力平台。国内API方面,GLM-5.2统一按照1M上下文模型收费,输入/输出/缓存命中价格分别为8元/28元/2元每百万token。相比GLM-5.1此前32K以内短上下文价格6元/24元/1.3元,输入/输出/缓存命中分别提升 33%/17%/54%。Coding plan 方面,个人版Pro/Max当前价格分别为149元/月、469元/月,团队标准版/高级版分别为598元/月/席位、1198元/月/席位,团队标准版/高级版约为个人Pro/Max价格的4/2.5倍。我们认为,智谱的涨价标着这国产头部模型正在从极致低价转向能力分层+高端模型溢价,也标志着GLM Coding Plan正在从个人开发者低价工具升级为企业研发生产力平台。

总结:GLM-5.2是智谱从国产Claude替代走向国产Coding Agent底座的关键版本。能力端,GLM-5.2在Code Arena、LLM Benchmark Code v3、FrontierSWE、Terminal-Bench、SWE-bench Pro等Coding与长程任务评估中进入全球第一梯队,尤其在前端开发、项目级上下文、长程任务执行和工程规范遵循方面提升明显。商业化端,智谱今年内4次迭代更新4次提价,本次通过取消短上下文档、推出高定价的Coding Plan团队版等方式,持续验证国产头部模型定价权。我们认为,大模型竞争正在从参数规模+单点Benchmark转向模型能力+推理工程+工具链+真实任务数据+商业化定价权的综合竞争,智谱作为国产通用大模型龙头,有望持续受益于Coding Agent和企业级MaaS商业化加速,继续重点推荐。