故事的开始:机器人 Robo 的寻宝之旅

为了让你最直观地理解强化学习(Reinforcement Learning, RL),我们将在整个基础概念章节中使用一个统一的例子: 机器人 Robo 在网格世界中的寻宝冒险

0
1
2
3
4
🔥
6
7
8
9
🔥
11
12
13
14
💎
🤖
游戏规则:
  • 主角:机器人 Robo (🤖),从左上角 (0号格子) 出发。
  • 目标:找到右下角的宝藏 (💎, 15号格子)。
  • 危险:避开火焰陷阱 (🔥, 5号和10号格子)。
  • 行动:Robo 可以向 上、下、左、右 移动。

强化学习是如何工作的?

强化学习本质上就是 “试错学习” (Trial-and-Error)。Robo 不知道地图长什么样,它只能通过不断尝试移动,观察结果,累积经验,最终学会如何安全快速地拿到宝藏。

🤖
智能体 (Agent)
Robo
动作 (Action)
状态 (State) + 奖励 (Reward)
🌍
环境 (Environment)
网格世界

这个交互过程周而复始:

  1. 观察 (Observe):Robo 看到自己当前在哪(比如在格子 0)。
  2. 决策 (Decide):Robo 决定往哪走(比如“向右”)。
  3. 行动 (Act):Robo 执行移动。
  4. 反馈 (Feedback):环境告诉 Robo 新的位置(格子 1)以及是否获得奖励(暂时没有,或者扣点分作为时间成本)。
  5. 学习 (Learn):Robo 记住这次尝试的结果,更新自己的策略。
接下来...
我们将拆解这个过程,详细了解每一个环节。点击左侧菜单或下方链接开始!