GLM-5下一代基础模型

Chasing2026-03-182026-03-31

论文总结：GLM-5: from Vibe Coding to Agentic Engineering

论文信息

标题：GLM-5: from Vibe Coding to Agentic Engineering
作者：GLM-5 Team（智谱AI与清华大学联合团队，包含超过百位作者）
arXiv ID：2602.15763
链接：https://arxiv.org/abs/2602.15763
代码仓库：https://github.com/zai-org/GLM-5

研究问题

如何构建下一代基础模型，实现从氛围编码（vibe coding）到智能体工程的范式转变，解决大规模语言模型在计算成本和实际世界适应性方面的双重挑战。

主要贡献

GLM-5模型：推出下一代旗舰模型，旨在实现性能和效率的范式转变
DSA架构：采用DeepSeek Sparse Attention（DSA）显著减少训练和推理成本，同时保持长上下文保真度
异步强化学习基础设施：实施新的异步强化学习基础设施，通过将生成与训练解耦大幅提高后训练效率
异步智能体RL算法：提出新的异步智能体RL算法，进一步改进RL质量，使模型能够更有效地从复杂、长时域交互中学习
SOTA性能：在主要开放基准测试上达到最先进性能
实时编码能力：在实时编码任务中展现前所未有的能力，在处理端到端软件工程挑战方面超越先前的基线
多基准测试领先：
- Artificial Analysis Intelligence Index v4.0：得分50，成为新的开放权重领导者
- LMArena：在Text Arena和Code Arena中均为#1开放模型
- 长时域任务：Vending-Bench 2和CC-Bench-V2上表现优异
国产GPU生态适配：从第一天起就完全适配中国GPU生态，成功完成深度优化

方法概述

1. 核心架构创新

DSA（DeepSeek Sparse Attention）：

核心思想：用动态、细粒度的选择机制替代传统密集O(L²)注意力
持续预训练：从"密集预热+稀疏训练适应"的两阶段策略
效果：长序列注意力计算减少约1.5-2倍，长上下文处理成本减半
保真度：在不牺牲长上下文理解或推理深度的情况下降低计算开销

模型规模：

总参数：744B
激活参数：40B
专家数量：256
层数：80（减少以最小化专家并行通信开销）
训练token预算：28.5T tokens

2. 训练流程

基础模型训练：

阶段1：预训练，大规模27T token语料库，优先代码和推理
阶段2：中期训练，将上下文长度从4K扩展到200K，专注于长上下文智能体数据

后训练阶段：

阶段1：监督微调（SFT），引入复杂的交错思维模式
阶段2：推理RL，数学、科学、代码和工具集成推理的混合RL训练
阶段3：智能体RL，代码和搜索智能体任务的异步RL
阶段4：通用RL，人类风格对齐
阶段5：跨阶段策略蒸馏，防止灾难性遗忘

3. 技术创新

多潜在注意力（MLA）优化：

问题：576维潜在KV缓存无法匹配GQA-8的性能
解决方案：Muon Split，将上投影矩阵分割为独立矩阵
效果：MLA性能匹配GQA-8，注意力logits保持稳定

多token预测参数共享：

问题：单MTP层训练导致训练-推理不匹配，接受率降低
解决方案：3个MTP层共享参数
效果：GLM-5接受长度比DeepSeek-V3.2更长

滑动窗口注意力（SWA）模式：

搜索基础自适应：确定SWA转换的最佳层子集
策略：束搜索，束大小8，每步优化2层
优化：仅在16K上下文长度进行搜索，泛化到所有输入长度
效果：显著优于固定交替方法

4. 强化学习算法

推理RL：

算法基础：GRPO + IcePop技术
创新：去除KL正则化项加速RL改进
机制：明确区分训练策略π_train和推理策略π_infer
策略：抑制训练-推理不匹配比率过大的样本

混合域推理RL：

领域：数学、科学、代码、工具集成推理（TIR）
混合训练：四个域上混合RL训练
平衡：保持整体混合在各域平衡
效果：每个域稳定且显著提升

异步智能体RL：

核心创新：完全异步和解耦的RL框架
多任务回滚编排器：解耦推理和训练引擎
TITO网关：消除重标记不匹配
双向重要性采样：令牌级裁剪机制[1-ε_l,1+ε_h]
DP感知路由：最大化KV缓存复用

通用RL：

多维度优化目标：基础正确性、情感智能、任务特定质量
混合奖励系统：规则奖励+结果奖励模型（ORM）+生成奖励模型（GRM）
人类在环风格对齐：引入高质量人工编写响应作为风格和质量锚点

跨阶段策略蒸馏：

目的：防止累积能力退化
机制：使用跨阶段策略蒸馏算法
教师模型：前SFT和RL阶段的最终检查点
效果：快速恢复早期阶段获得的技能

5. 训练基础设施

slime框架：

统一后训练基础设施：支持端到端大规模强化学习
灵活训练：高度可定制的回滚接口
基于服务器的回滚：通过HTTP API暴露，解耦回滚逻辑与训练过程
尾延迟优化：面向延迟的调度机制
多节点推理：EP64和DP64，提供充足的分布式KV缓存

内存效率优化：

灵活MTP放置：降低阶段级内存压力
管道ZeRO2梯度分片：每个阶段仅存储1/dp的完整梯度
管道激活卸载：层粒度卸载，减少峰值内存使用
序列分块输出投影：减少输出层内存压力

并行效率优化：

延迟权重梯度计算：减少管道路泡
高效长序列训练：工作负载感知序列重排序
INT4量化感知训练：在SFT阶段应用INT4 QAT

6. 国产GPU生态适配

优化平台：

华为昇腾
摩尔线程
寒武纪·昇思
昆仑
昆腾
缪焰

优化范围：

底层内核到上层推理框架的深度优化
全栈适配

实验结果

整体性能

8个智能体、推理和编码基准：

Humanity’s Last Exam
SWE-bench Verified
SWE-bench Multilingual
Terminal-Bench 2.0
BrowseComp
MCP-Atlas
τ²-Bench
Vending Bench 2

性能对比：

相比GLM-4.7：平均提升约20%
与Claude Opus 4.5和GPT-5.2相当
优于Gemini 3 Pro

关键基准测试

Artificial Analysis Intelligence Index v4.0：

GLM-5得分：50
GLM-4.7得分：42
提升：8分
意义：首次开放权重模型达到50分，成为新的开放权重领导者

LMArena：

GLM-5在Text Arena和Code Arena均为#1开放模型
整体与Claude-Opus-4.5和Gemini-3 Pro相当

长时域任务：

Vending-Bench 2：GLM-5排名第一，最终账户余额$4,432
CC-Bench-V2：GLM-5显著优于GLM-4.7，缩小与Claude Opus 4.5的差距

训练效率

DSA训练成本：

训练预算：20B tokens（远小于DeepSeek-V3.2的943.7B）
效果：足以适应DSA模型匹配原始MLA模型性能
长上下文性能：DSA模型接近MLA模型

推理效率：

KV缓存：显著减少
注意力计算：长序列减少约1.5-2倍
GPU成本：128K上下文处理成本减半

核心发现

DSA的革命性：通过持续预训练策略，在避免"天文"成本的同时实现动态、细粒度注意力选择，长上下文性能接近原始密集模型
异步RL的重要性：解耦推理和训练引擎消除了长时域智能体回滚中的严重GPU空闲时间，大幅提高后训练效率
混合奖励系统的优势：结合规则、ORM和GRM三种奖励信号，平衡精度、效率和鲁棒性
跨阶段蒸馏的必要性：顺序优化不同目标可能导致累积能力退化，跨阶段策略蒸馏有效缓解此问题
搜索基础SWA模式：在16K上下文长度发现的模式在所有测试上下文长度上保持有效，显著优于固定交替方法
长时域规划能力：在Vending-Bench 2上排名所有开源模型第一，展现强大的长期规划和资源管理能力
开放权重领导力：首次在Artificial Analysis Intelligence Index v4.0上达到50分，成为新的开放权重领导者

结论

本研究提出了GLM-5，下一代基础模型，旨在实现从氛围编码到智能体工程的范式转变。

主要贡献包括：

采用DSA架构，通过持续预训练策略显著减少训练和推理成本，同时保持长上下文保真度
实施新的异步强化学习基础设施，通过将生成与训练解耦大幅提高后训练效率
提出异步智能体RL算法，使模型能够更有效地从复杂、长时域交互中学习
在主要开放基准测试上达到SOTA性能
在实时编码任务中展现前所未有的能力，处理端到端软件工程挑战
在Artificial Analysis Intelligence Index v4.0上得分50，成为新的开放权重领导者
在LMArena的Text Arena和Code Arena中均为#1开放模型
完全适配中国GPU生态，包括华为昇腾、摩尔线程、寒武纪·昇思等七个主流平台

GLM-5代表在性能和效率上的范式转变，实现了从被动知识库到主动问题解决器的转变。通过DSA、异步RL框架、混合奖励系统和跨阶段蒸馏等创新，GLM-5不仅成为更强大的模型，也为下一代AI智能体提供了更高效和实用的基础。

生成时间：2026年2月26日