GLM-5下一代基础模型

GLM-5下一代基础模型
Chasing论文总结:GLM-5: from Vibe Coding to Agentic Engineering
论文信息
- 标题:GLM-5: from Vibe Coding to Agentic Engineering
- 作者:GLM-5 Team(智谱AI与清华大学联合团队,包含超过百位作者)
- arXiv ID:2602.15763
- 链接:https://arxiv.org/abs/2602.15763
- 代码仓库:https://github.com/zai-org/GLM-5
研究问题
如何构建下一代基础模型,实现从氛围编码(vibe coding)到智能体工程的范式转变,解决大规模语言模型在计算成本和实际世界适应性方面的双重挑战。
主要贡献
-
GLM-5模型:推出下一代旗舰模型,旨在实现性能和效率的范式转变
-
DSA架构:采用DeepSeek Sparse Attention(DSA)显著减少训练和推理成本,同时保持长上下文保真度
-
异步强化学习基础设施:实施新的异步强化学习基础设施,通过将生成与训练解耦大幅提高后训练效率
-
异步智能体RL算法:提出新的异步智能体RL算法,进一步改进RL质量,使模型能够更有效地从复杂、长时域交互中学习
-
SOTA性能:在主要开放基准测试上达到最先进性能
-
实时编码能力:在实时编码任务中展现前所未有的能力,在处理端到端软件工程挑战方面超越先前的基线
-
多基准测试领先:
- Artificial Analysis Intelligence Index v4.0:得分50,成为新的开放权重领导者
- LMArena:在Text Arena和Code Arena中均为#1开放模型
- 长时域任务:Vending-Bench 2和CC-Bench-V2上表现优异
-
国产GPU生态适配:从第一天起就完全适配中国GPU生态,成功完成深度优化
方法概述
1. 核心架构创新
DSA(DeepSeek Sparse Attention):
- 核心思想:用动态、细粒度的选择机制替代传统密集O(L²)注意力
- 持续预训练:从"密集预热+稀疏训练适应"的两阶段策略
- 效果:长序列注意力计算减少约1.5-2倍,长上下文处理成本减半
- 保真度:在不牺牲长上下文理解或推理深度的情况下降低计算开销
模型规模:
- 总参数:744B
- 激活参数:40B
- 专家数量:256
- 层数:80(减少以最小化专家并行通信开销)
- 训练token预算:28.5T tokens
2. 训练流程
基础模型训练:
- 阶段1:预训练,大规模27T token语料库,优先代码和推理
- 阶段2:中期训练,将上下文长度从4K扩展到200K,专注于长上下文智能体数据
后训练阶段:
- 阶段1:监督微调(SFT),引入复杂的交错思维模式
- 阶段2:推理RL,数学、科学、代码和工具集成推理的混合RL训练
- 阶段3:智能体RL,代码和搜索智能体任务的异步RL
- 阶段4:通用RL,人类风格对齐
- 阶段5:跨阶段策略蒸馏,防止灾难性遗忘
3. 技术创新
多潜在注意力(MLA)优化:
- 问题:576维潜在KV缓存无法匹配GQA-8的性能
- 解决方案:Muon Split,将上投影矩阵分割为独立矩阵
- 效果:MLA性能匹配GQA-8,注意力logits保持稳定
多token预测参数共享:
- 问题:单MTP层训练导致训练-推理不匹配,接受率降低
- 解决方案:3个MTP层共享参数
- 效果:GLM-5接受长度比DeepSeek-V3.2更长
滑动窗口注意力(SWA)模式:
- 搜索基础自适应:确定SWA转换的最佳层子集
- 策略:束搜索,束大小8,每步优化2层
- 优化:仅在16K上下文长度进行搜索,泛化到所有输入长度
- 效果:显著优于固定交替方法
4. 强化学习算法
推理RL:
- 算法基础:GRPO + IcePop技术
- 创新:去除KL正则化项加速RL改进
- 机制:明确区分训练策略π_train和推理策略π_infer
- 策略:抑制训练-推理不匹配比率过大的样本
混合域推理RL:
- 领域:数学、科学、代码、工具集成推理(TIR)
- 混合训练:四个域上混合RL训练
- 平衡:保持整体混合在各域平衡
- 效果:每个域稳定且显著提升
异步智能体RL:
- 核心创新:完全异步和解耦的RL框架
- 多任务回滚编排器:解耦推理和训练引擎
- TITO网关:消除重标记不匹配
- 双向重要性采样:令牌级裁剪机制[1-ε_l,1+ε_h]
- DP感知路由:最大化KV缓存复用
通用RL:
- 多维度优化目标:基础正确性、情感智能、任务特定质量
- 混合奖励系统:规则奖励+结果奖励模型(ORM)+生成奖励模型(GRM)
- 人类在环风格对齐:引入高质量人工编写响应作为风格和质量锚点
跨阶段策略蒸馏:
- 目的:防止累积能力退化
- 机制:使用跨阶段策略蒸馏算法
- 教师模型:前SFT和RL阶段的最终检查点
- 效果:快速恢复早期阶段获得的技能
5. 训练基础设施
slime框架:
- 统一后训练基础设施:支持端到端大规模强化学习
- 灵活训练:高度可定制的回滚接口
- 基于服务器的回滚:通过HTTP API暴露,解耦回滚逻辑与训练过程
- 尾延迟优化:面向延迟的调度机制
- 多节点推理:EP64和DP64,提供充足的分布式KV缓存
内存效率优化:
- 灵活MTP放置:降低阶段级内存压力
- 管道ZeRO2梯度分片:每个阶段仅存储1/dp的完整梯度
- 管道激活卸载:层粒度卸载,减少峰值内存使用
- 序列分块输出投影:减少输出层内存压力
并行效率优化:
- 延迟权重梯度计算:减少管道路泡
- 高效长序列训练:工作负载感知序列重排序
- INT4量化感知训练:在SFT阶段应用INT4 QAT
6. 国产GPU生态适配
优化平台:
- 华为昇腾
- 摩尔线程
- 寒武纪·昇思
- 昆仑
- 昆腾
- 缪焰
优化范围:
- 底层内核到上层推理框架的深度优化
- 全栈适配
实验结果
整体性能
8个智能体、推理和编码基准:
- Humanity’s Last Exam
- SWE-bench Verified
- SWE-bench Multilingual
- Terminal-Bench 2.0
- BrowseComp
- MCP-Atlas
- τ²-Bench
- Vending Bench 2
性能对比:
- 相比GLM-4.7:平均提升约20%
- 与Claude Opus 4.5和GPT-5.2相当
- 优于Gemini 3 Pro
关键基准测试
Artificial Analysis Intelligence Index v4.0:
- GLM-5得分:50
- GLM-4.7得分:42
- 提升:8分
- 意义:首次开放权重模型达到50分,成为新的开放权重领导者
LMArena:
- GLM-5在Text Arena和Code Arena均为#1开放模型
- 整体与Claude-Opus-4.5和Gemini-3 Pro相当
长时域任务:
- Vending-Bench 2:GLM-5排名第一,最终账户余额$4,432
- CC-Bench-V2:GLM-5显著优于GLM-4.7,缩小与Claude Opus 4.5的差距
训练效率
DSA训练成本:
- 训练预算:20B tokens(远小于DeepSeek-V3.2的943.7B)
- 效果:足以适应DSA模型匹配原始MLA模型性能
- 长上下文性能:DSA模型接近MLA模型
推理效率:
- KV缓存:显著减少
- 注意力计算:长序列减少约1.5-2倍
- GPU成本:128K上下文处理成本减半
核心发现
-
DSA的革命性:通过持续预训练策略,在避免"天文"成本的同时实现动态、细粒度注意力选择,长上下文性能接近原始密集模型
-
异步RL的重要性:解耦推理和训练引擎消除了长时域智能体回滚中的严重GPU空闲时间,大幅提高后训练效率
-
混合奖励系统的优势:结合规则、ORM和GRM三种奖励信号,平衡精度、效率和鲁棒性
-
跨阶段蒸馏的必要性:顺序优化不同目标可能导致累积能力退化,跨阶段策略蒸馏有效缓解此问题
-
搜索基础SWA模式:在16K上下文长度发现的模式在所有测试上下文长度上保持有效,显著优于固定交替方法
-
长时域规划能力:在Vending-Bench 2上排名所有开源模型第一,展现强大的长期规划和资源管理能力
-
开放权重领导力:首次在Artificial Analysis Intelligence Index v4.0上达到50分,成为新的开放权重领导者
结论
本研究提出了GLM-5,下一代基础模型,旨在实现从氛围编码到智能体工程的范式转变。
主要贡献包括:
- 采用DSA架构,通过持续预训练策略显著减少训练和推理成本,同时保持长上下文保真度
- 实施新的异步强化学习基础设施,通过将生成与训练解耦大幅提高后训练效率
- 提出异步智能体RL算法,使模型能够更有效地从复杂、长时域交互中学习
- 在主要开放基准测试上达到SOTA性能
- 在实时编码任务中展现前所未有的能力,处理端到端软件工程挑战
- 在Artificial Analysis Intelligence Index v4.0上得分50,成为新的开放权重领导者
- 在LMArena的Text Arena和Code Arena中均为#1开放模型
- 完全适配中国GPU生态,包括华为昇腾、摩尔线程、寒武纪·昇思等七个主流平台
GLM-5代表在性能和效率上的范式转变,实现了从被动知识库到主动问题解决器的转变。通过DSA、异步RL框架、混合奖励系统和跨阶段蒸馏等创新,GLM-5不仅成为更强大的模型,也为下一代AI智能体提供了更高效和实用的基础。
生成时间:2026年2月26日

