news 2026/6/10 15:45:45

强化学习中的单个回合的回报估计动作值和所有回合的回报估计动作值的理解及exploring starts条件

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
强化学习中的单个回合的回报估计动作值和所有回合的回报估计动作值的理解及exploring starts条件

你的核心困惑就一个:“单个回合到底是多长的路径?是不是走一步就是一个回合?”
答案直接给你:不是走一步!单个回合是“从任意起始状态出发,一直走到终止状态(比如目标/失败)的完整路径”——和“所有回合”的“回合”是同一个定义!

两者的区别根本不在“回合的长度/定义”,而在“用多少个回合的回报来算动作值Q(s,a)”——我用最极端的对比(只看一个动作值Q(S1,A右)),让你秒懂:

前提设定(极简版,避免复杂)

  • 环境:1×5网格(S1→S2→S3→S4→S5),S5是目标(r=10),其他状态无即时奖励(r=0),γ=1(无折扣);
  • 只关注一个动作值:Q(S1,A右)(从S1走“右”动作的动作值);
  • 回合定义:从任意状态出发,走到S5(终止),就是一个完整回合。

一、所有回合的回报平均值(MC Basic)

核心逻辑:用「多个回合」中S1→A右的回报,求平均算Q(S1,A右)
  1. 先跑3个完整回合(每个回合都是走到S5才结束):
    • 回合1:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G1=10(因为只有S5给10);
    • 回合2:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G2=10;
    • 回合3:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G3=10;
  2. 算Q(S1,A右):用这3个回合的回报求平均
    Q(S1,A右) = (G1 + G2 + G3) / 3 = (10+10+10)/3 = 10;
  3. 关键:必须攒够“所有要用到的回合”,再一次性算平均——这里用了3个回合的回报。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 13:00:22

局域网内如何互相ping通?

🏆本文收录于 《全栈 Bug 调优(实战版)》 专栏。专栏聚焦真实项目中的各类疑难 Bug,从成因剖析 → 排查路径 → 解决方案 → 预防优化全链路拆解,形成一套可复用、可沉淀的实战知识体系。无论你是初入职场的开发者&…

作者头像 李华
网站建设 2026/6/7 16:49:23

计算机字符编码

一、有关编码的基础知识 1. 位 bit 最小的单元 字节 byte 机器语言的单位 1byte8bits 1KB1024byte 1MB1024KB 1GB1024MB 2. 二进制 binary 八进制 octal 十进制 decimal 十六进制 hex 3. 字符:是各种文字和符号的总称,包括各个国家的文字,标点…

作者头像 李华
网站建设 2026/6/10 12:53:29

Android开发工程师深度解析:技术能力与职业发展

博耳(无锡)电力成套有限公司 Android/安卓开发工程师 职位信息 职位描述: 1. Android平台应用开发; 2. 新需求和新技术的评估; 3. 应用模块问题定位与分析解决。 职位要求: 1. 有较强的JAVA语言编程基本功 2. 三年以上Android应用开发经验; 3. 具备良好的职业素养和团队…

作者头像 李华
网站建设 2026/6/10 12:55:49

AI架构师踩过的7个数据 pipeline 坑,看完少花1个月时间!

AI架构师踩过的7个数据Pipeline坑:看完少花1个月排障! 关键词 数据Pipeline、数据漂移、版本控制、数据质量、实时监控、可扩展性、文档工程 摘要 数据是AI模型的“燃料”,而数据Pipeline则是“输油管道”——管道堵了、漏了或送错了燃料…

作者头像 李华
网站建设 2026/6/10 14:28:16

必看!必看!提示工程架构师的多智能体系统提示协同机制指南

必看!提示工程架构师的多智能体系统提示协同机制指南 1. 引入:为什么你需要这篇指南? 凌晨三点,你盯着电脑屏幕上的多智能体客服系统日志,揉了揉发紧的太阳穴—— 用户问“我的快递丢了,能补发吗&#xff1…

作者头像 李华
网站建设 2026/6/8 22:45:23

悦读 1.11.0 | 有情感的AI电子书朗读,多国语言,支持多格式

一款将电子书转为有声书的应用,支持阅读和听书之间的自由切换,适用于多种场景。兼容PDF、EPUB等主流格式,提供拟人化的AI朗读体验,实现多设备无缝同步。完全免费无隐藏费用,包含智能PDF转EPUB功能,跨平台支…

作者头像 李华