实验探索:浅浅尝试多尺度Loss优化Qwen-Reranker效果
一、背景与动机
在 RAG(检索增强生成)系统中,Reranker 扮演着精排的角色,对检索结果进行二次排序。传统的 Reranker 训练通常采用单一的 Binary Cross Entropy Loss,即PointWiseLoss,或者ListWiseLoss,但在实际场景中,我们往往面临两个挑战:
正负样本不平衡:正样本(相关文档)通常远少于负样本
排序一致性:我们不仅希望模型正确分类,更希望同一 query 下的相关文档得分高于不相关文档
局部与全局问题:很多时候每个Batch的局部最优拉到全局并不一定最优,尤其在数据质量不够高且数据量很大时候
本文尝试通过多尺度 Loss 设计来同时解决这两个问题。
二、核心实现
2.1 整体架构
基于 HuggingFace Trainer 实现自定义训练器,支持四种 Loss 模式:
Loss 类型
用途
特点
pointwise
基础分类
标准 Cross Entropy
focal
样本不平衡
自动降权简单样本
listwise
排 ...
论文总结:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
论文信息
标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
作者:DeepSeek-AI团队(包含超过100位作者)
arXiv ID:2405.04434
链接:https://arxiv.org/abs/2405.04434
代码仓库:https://github.com/deepseek-ai/DeepSeek-V2
研究问题
如何构建一个强大的混合专家(MoE)语言模型,实现经济高效的训练和高效的推理,解决大规模语言模型在训练和推理过程中的资源消耗问题。
主要贡献
DeepSeek-V2模型:推出了一个强大的混合专家语言模型,具有经济训练和高效推理的特点
大规模参数配置:
总参数:236B
每个token激活参数:21B
支持上下文长度:128K tokens
...
论文总结:GLM-4.5V and GLM-4.1V-Thinking
论文信息
标题:GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
作者:GLM-V Team(智谱AI与清华大学联合团队,包含近百位作者)
arXiv ID:2507.01006
链接:https://arxiv.org/abs/2507.01006
研究问题
如何开发具有通用多模态理解和推理能力的视觉语言模型(VLM),使模型能够在各种复杂任务中展现高级推理能力,包括从简单的视觉内容感知到复杂的科学问题求解和自主智能体开发。
主要贡献
模型系列开源:提出了GLM-4.1V-Thinking、GLM-4.5V和GLM-4.6V系列模型,并开源了GLM-4.1V-9B-Thinking、GLM-4.1V-9B-Base、GLM-4.5V等模型及其训练组件
RLCS方法:提出了带有课程采样的强化学习(RLCS)方法,通过课程学习和难度 ...
论文笔记
未读 论文总结:GLM-5: from Vibe Coding to Agentic Engineering
论文信息
标题:GLM-5: from Vibe Coding to Agentic Engineering
作者:GLM-5 Team(智谱AI与清华大学联合团队,包含超过百位作者)
arXiv ID:2602.15763
链接:https://arxiv.org/abs/2602.15763
代码仓库:https://github.com/zai-org/GLM-5
研究问题
如何构建下一代基础模型,实现从氛围编码(vibe coding)到智能体工程的范式转变,解决大规模语言模型在计算成本和实际世界适应性方面的双重挑战。
主要贡献
GLM-5模型:推出下一代旗舰模型,旨在实现性能和效率的范式转变
DSA架构:采用DeepSeek Sparse Attention(DSA)显著减少训练和推理成本,同时保持长上下文保真度
异步强化学习基础设施:实施新的异步强化学习基础设施,通过将生成与训练解耦大幅提高后训练效率
异步智能体RL算法:提出新的异步智能体R ...
论文总结:Qwen-Image Technical Report
论文信息
标题:Qwen-Image Technical Report
作者:Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang等
arXiv ID:2508.02324
链接:https://arxiv.org/abs/2508.02324
代码仓库:https://github.com/QwenLM/Qwen-Image
研究问题
如何构建一个强大的图像生成基础模型,使其在复杂文本渲染和精确图像编辑方面取得显著进展,特别是在处理包括中文在内的表意文字等更具挑战性的语言时。
主要贡献
Qwen-Image模型:提出了Qwen系列中的图像生成基础模型,在复杂文本渲染和精确图像编辑方面实现显著进步 ...
论文总结:A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
论文信息
标题:A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
作者:Shuai Bai等Qwen-VL团队成员
arXiv ID:2308.12966
链接:https://arxiv.org/abs/2308.12966
代码仓库:https://github.com/QwenLM/Qwen-VL
研究问题
如何构建一个通用的视觉语言模型,使其能够感知和理解文本和图像,并在传统图像描述和问答任务之外,还能实现定位和文本阅读等高级能力。
主要贡献
Qwen-VL模型系列:推出了一组大规模视觉语言模型(LVLMs),设计用于感知和理解文本和图像
基于Qwen-LM的视觉能力扩展:以Qwen-LM为基础,通过精心设计的组件赋予其视觉能力
...
论文总结:Qwen2.5-VL Technical Report
论文信息
标题:Qwen2.5-VL Technical Report
作者:Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin等
arXiv ID:2502.13923
链接:https://arxiv.org/abs/2502.13923
研究问题
如何构建一个先进的视觉语言模型,在基础能力和创新功能方面都取得显著进展,特别 ...
论文总结:Qwen3-VL-Embedding and Qwen3-VL-Reranker
论文信息
标题:Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
作者:Mingxin Li, Yanzhao Zhang, Dingkun Long, Keqin Chen, Sibo Song, Shuai Bai, Zhibo Yang, Pengjun Xie, An Yang, Dayiheng Liu, Jingren Zhou, Junyang Lin
arXiv ID:2601.04720
链接:https://arxiv.org/abs/2601.04720
研究问题
如何构建一个统一的多模态检索和排序框架,能够将文本、图像、文档图像和视频等多种模态映射到统一的表示空间,从而实现高精度的多模态搜索。
主要贡献
Qwen3-VL-Embedding模型系列:提供了一种将多种模态(文本 ...
记录一下使用Nginx代理Gemini,可以大陆访问和调用Gemini
主要有以下步骤:
Gemini相关
查找Gemini 官方文档
找到调用API中Openai兼容性这一块
Python为例 from openai import OpenAIclient = OpenAI( api_key="GEMINI_API_KEY", base_url="https://generativelanguage.googleapis.com/v1beta/openai/")response = client.chat.completions.create( model="gemini-2.0-flash", n=1, messages=[ {"role": "system", "content": "You are a helpful assistant."}, ...
记录一下实操Open-R1,GRPO的实现,基于Qwen-1.5B-Instruct。
环境安装
参考Hugging Face开源的open-r1,可以实现GRPO训练。
在终端运行以下命令安装所需环境:
git clone https://github.com/huggingface/open-r1/cd open-r1python set_up.py --install ``` ---# **GRPOTrainer 简介** 本教程主要基于 [Hugging Face](https://github.com/huggingface/trl/) 的 `trl`(类似 `transformers`),使用 `GRPOTrainer` 进行训练。 **GRPOTrainer(Group Relative Policy Optimization,GRPO)** 是一种强化学习训练方法,最初提出于论文 [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https ...




