奖励信号
奖励 (Reward, $R$) 是一个标量数值,环境在每个时间步反馈给智能体,表示刚才那个动作“好不好”。
这是强化学习中唯一的目标来源:智能体的目的就是最大化长期累积奖励。
Robo 的奖励规则
在我们的寻宝游戏中,我们可以这样设计奖励:
💎
宝藏 (+10)
到达终点 (s=15)
🔥
陷阱 (-10)
掉进陷阱 (s=5 或 s=10)
👣
移动 (-1)
每走一步 (Time Step)
为什么要设置“移动成本”?
如果每一步不扣分,Robo 可能会在没有危险的地方一直兜圈子,因为这既没有惩罚也没有奖励。
给每一步设置微小的负奖励 (如 -1),可以迫使 Robo 寻找最短路径,因为步数越少,扣的分就越少,总分就越高。
如果每一步不扣分,Robo 可能会在没有危险的地方一直兜圈子,因为这既没有惩罚也没有奖励。
给每一步设置微小的负奖励 (如 -1),可以迫使 Robo 寻找最短路径,因为步数越少,扣的分就越少,总分就越高。
即时奖励 vs 累积奖励
Reward 只是眼前这一步的得失。但RL的目标不是只看眼前,而是看长远。
比如,为了拿到 +10 的宝藏,Robo 可能需要忍受连续几步的 -1 惩罚。这就是“延迟满足”。