news 2026/6/9 17:41:19

每天一个大模型相关知识点系列--GRPO

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
每天一个大模型相关知识点系列--GRPO

GRPO(Group Relative Policy Optimization)是一种用于大语言模型第三阶段训练的强化学习方法,最早由 DeepSeek-Math 提出。

在 GRPO 中,模型被视为一个策略 π,直接对其输出分布进行优化。在强化学习建模中,prompt 对应状态 s,模型生成的完整响应对应动作 a,奖励函数或奖励模型给出的评分对应回报 r。

在训练过程中,对于每一个输入 prompt,模型从当前策略分布中采样多个候选响应,这些响应是同一策略下的不同行动样本。随后,reward model 对这些候选输出进行打分,并在 group 内计算相对优势(group-relative advantage),通常通过减去 group 内平均奖励作为 baseline,以降低策略梯度估计的方差。

基于该相对优势,GRPO 采用策略梯度方法对模型参数进行更新,使得获得较高相对奖励的响应在策略分布中的概率增加,而相对奖励较低的响应概率降低。与此同时,为防止策略更新过大、导致模型偏离原始分布,GRPO 通过引入相对于 reference policy 的 KL 散度正则项对策略更新进行约束,从而在探索与稳定性之间取得平衡。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:37:45

鸣潮自动化工具:智能解放双手的游戏辅助神器

鸣潮自动化工具:智能解放双手的游戏辅助神器 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸上锁合成 自动肉鸽 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 还在为重复刷怪、…

作者头像 李华
网站建设 2026/6/10 2:01:07

24、Puppet工具使用与问题排查指南(上)

Puppet工具使用与问题排查指南(上) RSpec - Puppet测试工具使用 在使用Puppet进行基础设施管理时,测试是确保配置正确的重要环节,RSpec - Puppet是一款强大的测试工具。 安装RSpec - Puppet 可以通过以下命令使用Puppet代理附带的Gem进行安装: t@mylaptop $ sudo /o…

作者头像 李华
网站建设 2026/6/10 14:11:56

零代码接入DeepSeek大模型:LobeChat操作全记录

零代码接入DeepSeek大模型:LobeChat操作全记录 在AI助手几乎成为数字生活标配的今天,越来越多个人和团队希望拥有一个专属的智能对话门户。然而,面对OpenAI、DeepSeek等平台提供的API接口,如何快速构建一个安全、美观、功能完整的…

作者头像 李华
网站建设 2026/6/10 15:37:00

ArXiv论文摘要看不懂?LobeChat翻译加总结

ArXiv论文摘要看不懂?LobeChat翻译加总结 在科研节奏日益加快的今天,每天都有成百上千篇新的学术论文涌上ArXiv。对于非英语母语的研究者来说,面对满屏密集的专业术语和复杂句式,光是读懂一篇摘要就可能耗费大量精力。更别提还要快…

作者头像 李华
网站建设 2026/6/10 15:33:39

元胞自动机Python康威生命游戏

import pygame import sys from pygame.locals import *# 初始化Pygame pygame.init()# 配置参数 # 单元格大小(像素) CELL_SIZE 20 # 网格行列数 GRID_COLS 40 # 列数 GRID_ROWS 30 # 行数 # 窗口尺寸 WINDOW_WIDTH CELL_SIZE * GRID_COLS WI…

作者头像 李华
网站建设 2026/6/10 15:48:18

云原生资源合集

【51CTO-27936】[2023]kubernetes k8sDevOps云原生全栈技术基于世界1000强实战课程 - 带源码课件 文件大小: 20.9GB内容特色: 20.9GB大厂K8sDevOps全栈实战,含源码课件适用人群: 云原生运维、DevOps工程师、后端开发者核心价值: 对标世界1000强项目,速成…

作者头像 李华