GLM-5下一代基础模型

论文总结:GLM-5: from Vibe Coding to Agentic Engineering

论文信息

研究问题

如何构建下一代基础模型,实现从氛围编码(vibe coding)到智能体工程的范式转变,解决大规模语言模型在计算成本和实际世界适应性方面的双重挑战。

主要贡献

  1. GLM-5模型:推出下一代旗舰模型,旨在实现性能和效率的范式转变

  2. DSA架构:采用DeepSeek Sparse Attention(DSA)显著减少训练和推理成本,同时保持长上下文保真度

  3. 异步强化学习基础设施:实施新的异步强化学习基础设施,通过将生成与训练解耦大幅提高后训练效率

  4. 异步智能体RL算法:提出新的异步智能体RL算法,进一步改进RL质量,使模型能够更有效地从复杂、长时域交互中学习

  5. SOTA性能:在主要开放基准测试上达到最先进性能

  6. 实时编码能力:在实时编码任务中展现前所未有的能力,在处理端到端软件工程挑战方面超越先前的基线

  7. 多基准测试领先

    • Artificial Analysis Intelligence Index v4.0:得分50,成为新的开放权重领导者
    • LMArena:在Text Arena和Code Arena中均为#1开放模型
    • 长时域任务:Vending-Bench 2和CC-Bench-V2上表现优异
  8. 国产GPU生态适配:从第一天起就完全适配中国GPU生态,成功完成深度优化

方法概述

1. 核心架构创新

DSA(DeepSeek Sparse Attention)

  • 核心思想:用动态、细粒度的选择机制替代传统密集O(L²)注意力
  • 持续预训练:从"密集预热+稀疏训练适应"的两阶段策略
  • 效果:长序列注意力计算减少约1.5-2倍,长上下文处理成本减半
  • 保真度:在不牺牲长上下文理解或推理深度的情况下降低计算开销

模型规模

  • 总参数:744B
  • 激活参数:40B
  • 专家数量:256
  • 层数:80(减少以最小化专家并行通信开销)
  • 训练token预算:28.5T tokens

2. 训练流程

基础模型训练

  • 阶段1:预训练,大规模27T token语料库,优先代码和推理
  • 阶段2:中期训练,将上下文长度从4K扩展到200K,专注于长上下文智能体数据

后训练阶段

  • 阶段1:监督微调(SFT),引入复杂的交错思维模式
  • 阶段2:推理RL,数学、科学、代码和工具集成推理的混合RL训练
  • 阶段3:智能体RL,代码和搜索智能体任务的异步RL
  • 阶段4:通用RL,人类风格对齐
  • 阶段5:跨阶段策略蒸馏,防止灾难性遗忘

3. 技术创新

多潜在注意力(MLA)优化

  • 问题:576维潜在KV缓存无法匹配GQA-8的性能
  • 解决方案:Muon Split,将上投影矩阵分割为独立矩阵
  • 效果:MLA性能匹配GQA-8,注意力logits保持稳定

多token预测参数共享

  • 问题:单MTP层训练导致训练-推理不匹配,接受率降低
  • 解决方案:3个MTP层共享参数
  • 效果:GLM-5接受长度比DeepSeek-V3.2更长

滑动窗口注意力(SWA)模式

  • 搜索基础自适应:确定SWA转换的最佳层子集
  • 策略:束搜索,束大小8,每步优化2层
  • 优化:仅在16K上下文长度进行搜索,泛化到所有输入长度
  • 效果:显著优于固定交替方法

4. 强化学习算法

推理RL

  • 算法基础:GRPO + IcePop技术
  • 创新:去除KL正则化项加速RL改进
  • 机制:明确区分训练策略π_train和推理策略π_infer
  • 策略:抑制训练-推理不匹配比率过大的样本

混合域推理RL

  • 领域:数学、科学、代码、工具集成推理(TIR)
  • 混合训练:四个域上混合RL训练
  • 平衡:保持整体混合在各域平衡
  • 效果:每个域稳定且显著提升

异步智能体RL

  • 核心创新:完全异步和解耦的RL框架
  • 多任务回滚编排器:解耦推理和训练引擎
  • TITO网关:消除重标记不匹配
  • 双向重要性采样:令牌级裁剪机制[1-ε_l,1+ε_h]
  • DP感知路由:最大化KV缓存复用

通用RL

  • 多维度优化目标:基础正确性、情感智能、任务特定质量
  • 混合奖励系统:规则奖励+结果奖励模型(ORM)+生成奖励模型(GRM)
  • 人类在环风格对齐:引入高质量人工编写响应作为风格和质量锚点

跨阶段策略蒸馏

  • 目的:防止累积能力退化
  • 机制:使用跨阶段策略蒸馏算法
  • 教师模型:前SFT和RL阶段的最终检查点
  • 效果:快速恢复早期阶段获得的技能

5. 训练基础设施

slime框架

  • 统一后训练基础设施:支持端到端大规模强化学习
  • 灵活训练:高度可定制的回滚接口
  • 基于服务器的回滚:通过HTTP API暴露,解耦回滚逻辑与训练过程
  • 尾延迟优化:面向延迟的调度机制
  • 多节点推理:EP64和DP64,提供充足的分布式KV缓存

内存效率优化

  • 灵活MTP放置:降低阶段级内存压力
  • 管道ZeRO2梯度分片:每个阶段仅存储1/dp的完整梯度
  • 管道激活卸载:层粒度卸载,减少峰值内存使用
  • 序列分块输出投影:减少输出层内存压力

并行效率优化

  • 延迟权重梯度计算:减少管道路泡
  • 高效长序列训练:工作负载感知序列重排序
  • INT4量化感知训练:在SFT阶段应用INT4 QAT

6. 国产GPU生态适配

优化平台

  • 华为昇腾
  • 摩尔线程
  • 寒武纪·昇思
  • 昆仑
  • 昆腾
  • 缪焰

优化范围

  • 底层内核到上层推理框架的深度优化
  • 全栈适配

实验结果

整体性能

8个智能体、推理和编码基准

  • Humanity’s Last Exam
  • SWE-bench Verified
  • SWE-bench Multilingual
  • Terminal-Bench 2.0
  • BrowseComp
  • MCP-Atlas
  • τ²-Bench
  • Vending Bench 2

性能对比

  • 相比GLM-4.7:平均提升约20%
  • 与Claude Opus 4.5和GPT-5.2相当
  • 优于Gemini 3 Pro

关键基准测试

Artificial Analysis Intelligence Index v4.0

  • GLM-5得分:50
  • GLM-4.7得分:42
  • 提升:8分
  • 意义:首次开放权重模型达到50分,成为新的开放权重领导者

LMArena

  • GLM-5在Text Arena和Code Arena均为#1开放模型
  • 整体与Claude-Opus-4.5和Gemini-3 Pro相当

长时域任务

  • Vending-Bench 2:GLM-5排名第一,最终账户余额$4,432
  • CC-Bench-V2:GLM-5显著优于GLM-4.7,缩小与Claude Opus 4.5的差距

训练效率

DSA训练成本

  • 训练预算:20B tokens(远小于DeepSeek-V3.2的943.7B)
  • 效果:足以适应DSA模型匹配原始MLA模型性能
  • 长上下文性能:DSA模型接近MLA模型

推理效率

  • KV缓存:显著减少
  • 注意力计算:长序列减少约1.5-2倍
  • GPU成本:128K上下文处理成本减半

核心发现

  1. DSA的革命性:通过持续预训练策略,在避免"天文"成本的同时实现动态、细粒度注意力选择,长上下文性能接近原始密集模型

  2. 异步RL的重要性:解耦推理和训练引擎消除了长时域智能体回滚中的严重GPU空闲时间,大幅提高后训练效率

  3. 混合奖励系统的优势:结合规则、ORM和GRM三种奖励信号,平衡精度、效率和鲁棒性

  4. 跨阶段蒸馏的必要性:顺序优化不同目标可能导致累积能力退化,跨阶段策略蒸馏有效缓解此问题

  5. 搜索基础SWA模式:在16K上下文长度发现的模式在所有测试上下文长度上保持有效,显著优于固定交替方法

  6. 长时域规划能力:在Vending-Bench 2上排名所有开源模型第一,展现强大的长期规划和资源管理能力

  7. 开放权重领导力:首次在Artificial Analysis Intelligence Index v4.0上达到50分,成为新的开放权重领导者

结论

本研究提出了GLM-5,下一代基础模型,旨在实现从氛围编码到智能体工程的范式转变。

主要贡献包括:

  • 采用DSA架构,通过持续预训练策略显著减少训练和推理成本,同时保持长上下文保真度
  • 实施新的异步强化学习基础设施,通过将生成与训练解耦大幅提高后训练效率
  • 提出异步智能体RL算法,使模型能够更有效地从复杂、长时域交互中学习
  • 在主要开放基准测试上达到SOTA性能
  • 在实时编码任务中展现前所未有的能力,处理端到端软件工程挑战
  • 在Artificial Analysis Intelligence Index v4.0上得分50,成为新的开放权重领导者
  • 在LMArena的Text Arena和Code Arena中均为#1开放模型
  • 完全适配中国GPU生态,包括华为昇腾、摩尔线程、寒武纪·昇思等七个主流平台

GLM-5代表在性能和效率上的范式转变,实现了从被动知识库到主动问题解决器的转变。通过DSA、异步RL框架、混合奖励系统和跨阶段蒸馏等创新,GLM-5不仅成为更强大的模型,也为下一代AI智能体提供了更高效和实用的基础。


生成时间:2026年2月26日