奖励信号

奖励 (Reward, $R$) 是一个标量数值,环境在每个时间步反馈给智能体,表示刚才那个动作“好不好”。
这是强化学习中唯一的目标来源:智能体的目的就是最大化长期累积奖励。

Robo 的奖励规则

在我们的寻宝游戏中,我们可以这样设计奖励:

💎

宝藏 (+10)

到达终点 (s=15)

🔥

陷阱 (-10)

掉进陷阱 (s=5 或 s=10)

👣

移动 (-1)

每走一步 (Time Step)

为什么要设置“移动成本”?
如果每一步不扣分,Robo 可能会在没有危险的地方一直兜圈子,因为这既没有惩罚也没有奖励。
给每一步设置微小的负奖励 (如 -1),可以迫使 Robo 寻找最短路径,因为步数越少,扣的分就越少,总分就越高。

即时奖励 vs 累积奖励

Reward 只是眼前这一步的得失。但RL的目标不是只看眼前,而是看长远。
比如,为了拿到 +10 的宝藏,Robo 可能需要忍受连续几步的 -1 惩罚。这就是“延迟满足”。

下一节:怎么算总分?(Trajectory & Return)