news 2026/5/10 15:54:05

【人工智能学习-AI入试相关题目练习-第十八次】

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【人工智能学习-AI入试相关题目练习-第十八次】

人工智能学习-AI入试相关题目练习-第十八次

  • 1-前言
  • 3-问题题目训练
    • 【問題1|模拟①|Q学習の定義と更新式】
    • 【問題2|模拟②|SARSAとの比較】
    • 【問題3|预测题|Q学習の収束と実用上の問題】
  • 4-练习(日语版本)解析
  • 5-练习(日语版本)
      • (1)各記号の意味
      • (2)Q学習が off-policy である理由
  • 【問題2|满分答案模板】
      • (1)SARSAの更新式
      • (2)Q学習とSARSAの違い(on / off-policy)
      • (3)SARSAが安全寄りの行動を学習しやすい理由
  • 【問題3|满分答案模板|预测命中率最高】
      • (1)Q学習の収束条件
      • (2)大規模状態空間における問題点
      • (3)関数近似Q学習が不安定になる原因
  • 6-总结

1-前言

为了应对大学院考试,我们来学习相关人工智能相关知识,并做各种练习。

通过学习,也算是做笔记,让自己更理解些。

3-问题题目训练

【問題1|模拟①|Q学習の定義と更新式】

(配点想定:25点)

状態集合を (S)、行動集合を (A) とするマルコフ決定過程(MDP)において、
エージェントはモデルを持たず、行動価値関数 (Q(s,a)) を直接学習する。

このとき、Q学習における1ステップ更新式は次式で与えられる:

[
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \Bigl[ r_{t+1} + \gamma \max_{a’} Q(s_{t+1}, a’) - Q(s_t, a_t) \Bigr]
]

以下の問いに答えよ。

  1. 上式に含まれる各記号
    (\alpha, \gamma, r_{t+1}, \max_{a’} Q(s_{t+1}, a’))
    がそれぞれ何を意味するか、強化学習の文脈で簡潔に説明せよ

  2. Q学習が

    • 方策に依存しない(off-policy)学習
      であると言われる理由を、上式を用いて説明せよ。

【問題2|模拟②|SARSAとの比較】

(配点想定:30点)

Q学習とSARSAはいずれも行動価値関数を学習する手法であるが、
更新式および学習の性質に明確な違いが存在する。

以下の問いに答えよ。

  1. SARSAの更新式を記述せよ。

  2. Q学習とSARSAの違いを、

    • 更新に用いる次状態の行動
    • 探索行動(例:(\varepsilon)-greedy)との関係
      の観点から比較し、on-policy / off-policy の違いを明確にして説明せよ
  3. 危険な行動(大きな負の報酬)を含む環境において、
    SARSAがQ学習より安全寄りの行動を学習しやすい理由を述べよ。


【問題3|预测题|Q学習の収束と実用上の問題】

(配点想定:35点|立命馆“考察型”)

Q学習は、適切な条件下において最適行動価値関数 (Q^*) に収束することが知られている。

以下の問いに答えよ。

  1. Q学習が理論的に収束するために必要な条件を、
    学習率 (\alpha) と探索条件の観点から述べよ。

  2. 状態空間・行動空間が非常に大きい場合、
    テーブル型Q学習が実用的でなくなる理由を説明せよ。

  3. 上記の問題を解決するために導入された
    関数近似(例:ニューラルネットワーク)を用いたQ学習において、
    学習が不安定になる主な原因を1つ挙げ、簡潔に説明せよ。


4-练习(日语版本)解析

5-练习(日语版本)

(Q学習の定義と更新式)


(1)各記号の意味

Q学習における更新式
[
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \Bigl[ r_{t+1} + \gamma \max_{a’} Q(s_{t+1}, a’) - Q(s_t, a_t) \Bigr]
]
において、

  • (\alpha) は学習率であり、新しい経験をどの程度現在の推定値に反映させるかを制御するパラメータである。
  • (\gamma) は割引率であり、将来得られる報酬をどの程度重視するかを表す。
  • (r_{t+1}) は、状態 (s_t) で行動 (a_t) を選択した結果として得られる即時報酬である。
  • (\max_{a’} Q(s_{t+1}, a’)) は、次状態 (s_{t+1}) において取り得る行動の中での最大の行動価値を表し、将来の最適行動を仮定した評価である。

(※ここまででほぼ満点ゾーン)


(2)Q学習が off-policy である理由

Q学習は、実際に選択した行動とは無関係に
次状態における最大の行動価値 (\max_{a’} Q(s_{t+1}, a’))を用いて更新を行う。

そのため、

  • 行動選択は探索方策(例:(\varepsilon)-greedy)に従って行われていても、
  • 更新は常に最適方策を仮定した値に基づいて行われる。

このように、行動生成方策と更新に用いる方策が一致していないため、
Q学習はoff-policy 学習である。


【問題2|满分答案模板】

(SARSAとの比較)


(1)SARSAの更新式

SARSAの更新式は次式で与えられる。

[
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \Bigl[ r_{t+1} + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t) \Bigr]
]

ここで (a_{t+1}) は、次状態 (s_{t+1}) において実際に選択された行動である。


(2)Q学習とSARSAの違い(on / off-policy)

Q学習では、更新に
[
\max_{a’} Q(s_{t+1}, a’)
]
を用いるため、次状態における最適行動を仮定して学習を行う。
このため Q学習はoff-policy 学習である。

一方、SARSAでは、
[
Q(s_{t+1}, a_{t+1})
]
すなわち、探索を含む現在の方策によって実際に選択された行動を用いて更新を行う。

したがって、SARSAは
行動選択と学習が同一の方策に基づく on-policy 学習である。


(3)SARSAが安全寄りの行動を学習しやすい理由

SARSAでは、探索行動によるリスクも含めた行動価値が更新に反映される。
そのため、危険な行動が探索中に選択され、大きな負の報酬を受ける場合、
その影響が直接 (Q) 値に反映される。

結果として、
SARSAは探索時のリスクを考慮した保守的な方策を学習しやすく、
Q学習と比べて安全寄りの行動を選択する傾向がある。


【問題3|满分答案模板|预测命中率最高】

(収束性と実用上の問題)


(1)Q学習の収束条件

Q学習が最適行動価値関数 (Q^*) に収束するためには、以下の条件が必要である。

  • すべての状態–行動対が無限回訪問されること(十分な探索)
  • 学習率 (\alpha_t) が
    [
    \sum_t \alpha_t = \infty,\quad \sum_t \alpha_t^2 < \infty
    ]
    を満たすように、適切に減少すること

これらの条件の下で、Q学習は確率1で (Q^*) に収束することが知られている。


(2)大規模状態空間における問題点

状態空間および行動空間が大きくなると、
テーブル型Q学習ではすべての状態–行動対に対して
(Q) 値を保存・更新する必要がある。

その結果、

  • メモリ使用量が増大する
  • 十分な探索が困難になる

といった問題が生じ、実用的でなくなる


(3)関数近似Q学習が不安定になる原因

ニューラルネットワークなどの関数近似を用いたQ学習では、

  • ブートストラップ(自己参照)
  • 関数近似
  • off-policy 学習

の3つが同時に存在する。

この組み合わせにより、
学習が発散したり不安定になる可能性があることが知られている。


6-总结

知识一点点记录吧,最后应对考试,打下基础

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 1:49:15

[特殊字符]_网络IO性能优化:从TCP到HTTP的层层优化[20260204143626]

作为一名专注于网络性能优化的工程师&#xff0c;我在过去的项目中积累了丰富的网络IO优化经验。最近&#xff0c;我参与了一个对网络性能要求极高的项目——实时视频流平台。这个项目让我重新审视了Web框架在网络IO方面的表现。今天我要分享的是基于真实项目经验的网络IO性能优…

作者头像 李华
网站建设 2026/5/10 6:42:27

数字图像处理篇---常见的形态学操作

我们来用一个生动的比喻&#xff0c;把图像形态学操作讲清楚。 核心理念&#xff1a;用“探照灯”探测形状 想象一下&#xff0c;你有一张黑白剪影图&#xff08;比如一个白色字母在黑色背景上&#xff09;。形态学操作就像拿着一盏特定形状&#xff08;比如圆形、方形&#…

作者头像 李华
网站建设 2026/5/3 3:31:23

李想汽车研究院:让AI从“工具使用者“进化为“工具创造者“

在人工智能的发展历程中&#xff0c;一个令人兴奋的新突破正在悄然发生。这项由李想汽车Base Model团队主导的开创性研究&#xff0c;发表于2026年2月的arXiv预印本平台&#xff08;论文编号&#xff1a;arXiv:2602.01983v1&#xff09;&#xff0c;为我们展示了一个全新的可能…

作者头像 李华
网站建设 2026/5/10 2:25:42

推荐 5 个好用的 AI 简历优化工具

在求职竞争日益激烈的当下&#xff0c;一份适配ATS系统、贴合HR筛选逻辑、能凸显个人核心竞争力的简历&#xff0c;是敲开企业大门的关键。很多求职者明明自身条件优秀&#xff0c;却因简历表述空洞、关键词缺失、排版杂乱&#xff0c;屡屡错失面试机会。而中文AI简历优化工具&…

作者头像 李华
网站建设 2026/5/4 7:56:07

Spring Boot 使用 PageHelper 分页异常:排序引发的“隐形坑”全解析

做Spring Boot项目开发的小伙伴&#xff0c;大概率都用过PageHelper做分页查询——毕竟它简洁高效&#xff0c;一行代码就能实现分页&#xff0c;之前项目里一直用得顺风顺水&#xff0c;从没出过错。 可就在昨天&#xff0c;分页突然“罢工”了&#xff0c;排查了大半天才找到…

作者头像 李华
网站建设 2026/4/29 21:15:50

AI助力软件工程毕业设计:8款智能工具提升论文与代码效率

文章总结表格&#xff08;工具排名对比&#xff09; 工具名称 核心优势 aibiye 精准降AIGC率检测&#xff0c;适配知网/维普等平台 aicheck 专注文本AI痕迹识别&#xff0c;优化人类表达风格 askpaper 快速降AI痕迹&#xff0c;保留学术规范 秒篇 高效处理混AIGC内容&…

作者头像 李华