原创论文笔记 VLM Multimodal GLM Reasoning

GLM-4.5V多模态推理模型

发表于2026-03-18更新于2026-03-31

杭州

论文笔记 VLM Multimodal GLM Reasoning

GLM-4.5V多模态推理模型

Chasing2026-03-182026-03-31

论文总结：GLM-4.5V and GLM-4.1V-Thinking

论文信息

标题：GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
作者：GLM-V Team（智谱AI与清华大学联合团队，包含近百位作者）
arXiv ID：2507.01006
链接：https://arxiv.org/abs/2507.01006

研究问题

如何开发具有通用多模态理解和推理能力的视觉语言模型（VLM），使模型能够在各种复杂任务中展现高级推理能力，包括从简单的视觉内容感知到复杂的科学问题求解和自主智能体开发。

主要贡献

模型系列开源：提出了GLM-4.1V-Thinking、GLM-4.5V和GLM-4.6V系列模型，并开源了GLM-4.1V-9B-Thinking、GLM-4.1V-9B-Base、GLM-4.5V等模型及其训练组件
RLCS方法：提出了带有课程采样的强化学习（RLCS）方法，通过课程学习和难度感知采样来提高训练效率
多模态推理框架：开发了以推理为中心的训练框架，通过大规模预训练和可扩展强化学习全面增强模型的推理能力
SOTA性能：在42个公共基准测试中，GLM-4.5V在几乎所有任务上都达到了同类开源模型的SOTA性能，甚至在编程和GUI智能体等挑战性任务上超过了闭源模型如Gemini-2.5-Flash
小模型优越性：较小的GLM-4.1V-9B-Thinking模型在29个基准测试上超越了更大的Qwen2.5-VL-72B模型

方法概述

1. 模型架构

模型由三个核心组件组成：

视觉编码器：使用AIMv2-Huge作为初始化，支持任意分辨率和长宽比，采用2D-RoPE处理极端长宽比，3D卷积支持视频输入
MLP适配器：将视觉特征对齐到文本token
大语言模型解码器：GLM-4-9B-0414（用于9B模型）或GLM-4.5-Air（用于106B模型）

2. 预训练阶段

构建了多样化的预训练数据集：

图像标题数据：超过100亿图像-文本对，通过启发式过滤、相关性过滤、概念平衡重采样和事实导向的重新标注进行精炼
交错图像-文本数据：从网页和学术书籍中提取高质量数据
OCR数据：2.2亿图像，包括合成文档图像、自然场景文本图像和学术文档
定位数据：自然图像定位（4000万标注）和GUI定位（1.4亿问答对）
视频数据：经过精细人工注释的高质量视频-文本数据集
指令调优数据：5000万样本，覆盖视觉感知、多模态推理、文档理解、GUI智能体操作等

3. 监督微调（SFT）阶段

采用长链式思维（CoT）推理格式
使用 思考 和 <answer> 标签标准化回答结构
专门设计用于增强推理风格和人类对齐
混合思维和非思维数据训练（GLM-4.5V和GLM-4.6V支持两种模式）

4. 强化学习阶段

RLVR（可验证奖励的强化学习）：用于可验证任务如STEM问题
RLHF（人类反馈的强化学习）：用于开放性任务
RLCS（课程采样强化学习）：动态调整训练样本难度，匹配模型的不断演进能力
多领域统一奖励系统：每个子领域有特定的验证器，确保奖励准确性

5. 关键技术创新

2D-RoPE和3D-RoPE：处理任意分辨率和长宽比，增强空间感知
时间索引token：在视频帧后插入时间索引，增强时序理解
动态采样扩展：通过指数移动平均（EMA）平衡正负样本
领域特定奖励系统：每个领域定制验证器，避免奖励破解

实验结果

整体性能

在42个公共基准测试中达到SOTA
GLM-4.5V在22个基准测试上达到或超过Gemini-2.5-Flash
GLM-4.1V-9B-Thinking在29个基准测试上超越更大规模的Qwen2.5-VL-72B

具体任务性能

通用VQA：MMStar, GeoBench
STEM推理：MMMU Pro, MathVerse, WeMath
图表理解：ChartQAPro, ChartMuseum
长文档理解：MMLongBench-Doc
视觉定位：TreeBench, Ref-L4-test
空间推理：ERQA
GUI智能体：OSWorld, AndroidWorld, WebVoyagerSom, WebQuest
VLM编程：Design2Code, Flame-React-Eval
视频理解：VideoMMMU, LVBench, MotionBench

训练效率提升

强化学习使模型性能提升高达+10.6%
RLCS方法显著加速模型改进，提高训练效率

核心发现

多领域强化学习的泛化：在一个领域的训练能提升其他领域的性能，跨领域联合训练产生更大改进
动态采样的重要性：动态选择最具信息量的rollout问题对效率和性能都至关重要
奖励系统的关键性：精确的奖励系统是多领域RL的关键，任何单一能力的奖励信号缺陷都可能导致整个训练过程崩溃
基础模型的重要性：强大的视觉基础模型为最终性能设定了理论上限

结论

本研究通过系统性的预训练、监督微调和强化学习框架，成功开发了一系列具有强大多模态推理能力的视觉语言模型。提出的RLCS方法和多领域统一奖励系统有效地解决了大规模多模态强化学习中的关键挑战。开源的模型和训练组件为研究社区提供了宝贵的资源，推动了通用多模态AI的发展。

GLM-4.5V和GLM-4.1V-Thinking在广泛的基准测试中展现出的SOTA性能，证明了以推理为中心的训练框架和可扩展强化学习在提升多模态AI能力方面的巨大潜力。这些模型不仅超越了许多闭源和开源竞品，还通过支持思维和非思维模式的灵活切换，为性能与效率之间的权衡提供了实用方案。

生成时间：2026年2月26日

Chasing

A record of Life and Work

原创 GLM-4.5V多模态推理模型

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Chasing's BLOG！

VLM3 Multimodal4 GLM2 Reasoning1

喜欢这篇文章的人也看了

Qwen-VL通用视觉语言模型

Qwen2.5-VL视觉语言模型

Qwen3-VL多模态检索框架

GLM-5下一代基础模型

数据库加载中