Chasing's BLOG

DeepSeek-V2混合专家模型

荐

基于Open-R1的GRPO强化学习简单实践

论文笔记

默认

学习

学习笔记

最新未读

浅浅尝试多尺度Loss优化Qwen-Reranker效果

发表于2026-04-022026-04-02 LLM 学习笔记实验记录 Reranker Qwen3

实验探索：浅浅尝试多尺度Loss优化Qwen-Reranker效果一、背景与动机在 RAG（检索增强生成）系统中，Reranker 扮演着精排的角色，对检索结果进行二次排序。传统的 Reranker 训练通常采用单一的 Binary Cross Entropy Loss，即PointWiseLoss，或者ListWiseLoss，但在实际场景中，我们往往面临两个挑战：正负样本不平衡：正样本（相关文档）通常远少于负样本排序一致性：我们不仅希望模型正确分类，更希望同一 query 下的相关文档得分高于不相关文档局部与全局问题：很多时候每个Batch的局部最优拉到全局并不一定最优，尤其在数据质量不够高且数据量很大时候本文尝试通过多尺度 Loss 设计来同时解决这两个问题。二、核心实现 2.1 整体架构基于 HuggingFace Trainer 实现自定义训练器，支持四种 Loss 模式： Loss 类型用途特点 pointwise 基础分类标准 Cross Entropy focal 样本不平衡自动降权简单样本 listwise 排 ...

论文笔记

未读

DeepSeek-V2混合专家模型

发表于2026-03-182026-03-31 MoE LLM MLA DeepSeek

论文总结：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model 论文信息标题：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model 作者：DeepSeek-AI团队（包含超过100位作者） arXiv ID：2405.04434 链接：https://arxiv.org/abs/2405.04434 代码仓库：https://github.com/deepseek-ai/DeepSeek-V2 研究问题如何构建一个强大的混合专家（MoE）语言模型，实现经济高效的训练和高效的推理，解决大规模语言模型在训练和推理过程中的资源消耗问题。主要贡献 DeepSeek-V2模型：推出了一个强大的混合专家语言模型，具有经济训练和高效推理的特点大规模参数配置：总参数：236B 每个token激活参数：21B 支持上下文长度：128K tokens ...

论文笔记

未读

GLM-4.5V多模态推理模型

发表于2026-03-182026-03-31 VLM Multimodal GLM Reasoning

论文总结：GLM-4.5V and GLM-4.1V-Thinking 论文信息标题：GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning 作者：GLM-V Team（智谱AI与清华大学联合团队，包含近百位作者） arXiv ID：2507.01006 链接：https://arxiv.org/abs/2507.01006 研究问题如何开发具有通用多模态理解和推理能力的视觉语言模型（VLM），使模型能够在各种复杂任务中展现高级推理能力，包括从简单的视觉内容感知到复杂的科学问题求解和自主智能体开发。主要贡献模型系列开源：提出了GLM-4.1V-Thinking、GLM-4.5V和GLM-4.6V系列模型，并开源了GLM-4.1V-9B-Thinking、GLM-4.1V-9B-Base、GLM-4.5V等模型及其训练组件 RLCS方法：提出了带有课程采样的强化学习（RLCS）方法，通过课程学习和难度 ...

论文笔记

未读

GLM-5下一代基础模型

发表于2026-03-182026-03-31 MoE LLM GLM DSA Agent

论文总结：GLM-5: from Vibe Coding to Agentic Engineering 论文信息标题：GLM-5: from Vibe Coding to Agentic Engineering 作者：GLM-5 Team（智谱AI与清华大学联合团队，包含超过百位作者） arXiv ID：2602.15763 链接：https://arxiv.org/abs/2602.15763 代码仓库：https://github.com/zai-org/GLM-5 研究问题如何构建下一代基础模型，实现从氛围编码（vibe coding）到智能体工程的范式转变，解决大规模语言模型在计算成本和实际世界适应性方面的双重挑战。主要贡献 GLM-5模型：推出下一代旗舰模型，旨在实现性能和效率的范式转变 DSA架构：采用DeepSeek Sparse Attention（DSA）显著减少训练和推理成本，同时保持长上下文保真度异步强化学习基础设施：实施新的异步强化学习基础设施，通过将生成与训练解耦大幅提高后训练效率异步智能体RL算法：提出新的异步智能体R ...

论文笔记

未读

Qwen-Image图像生成模型

发表于2026-03-182026-03-31 ImageGeneration TextRendering Diffusion Qwen

论文总结：Qwen-Image Technical Report 论文信息标题：Qwen-Image Technical Report 作者：Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang等 arXiv ID：2508.02324 链接：https://arxiv.org/abs/2508.02324 代码仓库：https://github.com/QwenLM/Qwen-Image 研究问题如何构建一个强大的图像生成基础模型，使其在复杂文本渲染和精确图像编辑方面取得显著进展，特别是在处理包括中文在内的表意文字等更具挑战性的语言时。主要贡献 Qwen-Image模型：提出了Qwen系列中的图像生成基础模型，在复杂文本渲染和精确图像编辑方面实现显著进步 ...

论文笔记

未读

Qwen-VL通用视觉语言模型

发表于2026-03-182026-03-31 VLM Multimodal Qwen Vision

论文总结：A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond 论文信息标题：A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond 作者：Shuai Bai等Qwen-VL团队成员 arXiv ID：2308.12966 链接：https://arxiv.org/abs/2308.12966 代码仓库：https://github.com/QwenLM/Qwen-VL 研究问题如何构建一个通用的视觉语言模型，使其能够感知和理解文本和图像，并在传统图像描述和问答任务之外，还能实现定位和文本阅读等高级能力。主要贡献 Qwen-VL模型系列：推出了一组大规模视觉语言模型（LVLMs），设计用于感知和理解文本和图像基于Qwen-LM的视觉能力扩展：以Qwen-LM为基础，通过精心设计的组件赋予其视觉能力 ...

论文笔记

未读

Qwen2.5-VL视觉语言模型

发表于2026-03-182026-03-31 VLM Multimodal Qwen Vision

论文总结：Qwen2.5-VL Technical Report 论文信息标题：Qwen2.5-VL Technical Report 作者：Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin等 arXiv ID：2502.13923 链接：https://arxiv.org/abs/2502.13923 研究问题如何构建一个先进的视觉语言模型，在基础能力和创新功能方面都取得显著进展，特别 ...

论文笔记

未读

Qwen3-VL多模态检索框架

发表于2026-03-182026-03-31 Multimodal Qwen Retrieval Embedding

论文总结：Qwen3-VL-Embedding and Qwen3-VL-Reranker 论文信息标题：Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking 作者：Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin arXiv ID：2601.04720 链接：https://arxiv.org/abs/2601.04720 研究问题如何构建一个统一的多模态检索和排序框架，能够将文本、图像、文档图像和视频等多种模态映射到统一的表示空间，从而实现高精度的多模态搜索。主要贡献 Qwen3-VL-Embedding模型系列：提供了一种将多种模态（文本 ...

未读

使用Nginx代理Gemini

发表于2025-04-022026-04-02 随笔

记录一下使用Nginx代理Gemini，可以大陆访问和调用Gemini 主要有以下步骤： Gemini相关查找Gemini 官方文档找到调用API中Openai兼容性这一块 Python为例 from openai import OpenAIclient = OpenAI( api_key="GEMINI_API_KEY", base_url="https://generativelanguage.googleapis.com/v1beta/openai/")response = client.chat.completions.create( model="gemini-2.0-flash", n=1, messages=[ {"role": "system", "content": "You are a helpful assistant."}, &# ...

未读

基于Open-R1的GRPO强化学习简单实践

发表于2025-04-012026-04-02 学习

记录一下实操Open-R1，GRPO的实现，基于Qwen-1.5B-Instruct。环境安装参考Hugging Face开源的open-r1，可以实现GRPO训练。在终端运行以下命令安装所需环境： git clone https://github.com/huggingface/open-r1/cd open-r1python set_up.py --install ``` ---# **GRPOTrainer 简介** 本教程主要基于 [Hugging Face](https://github.com/huggingface/trl/) 的 `trl`（类似 `transformers`），使用 `GRPOTrainer` 进行训练。 **GRPOTrainer（Group Relative Policy Optimization，GRPO）** 是一种强化学习训练方法，最初提出于论文 [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https ...