Reward - RL学习平台

奖励信号

奖励 (Reward, $R$) 是一个标量数值，环境在每个时间步反馈给智能体，表示刚才那个动作“好不好”。
这是强化学习中唯一的目标来源：智能体的目的就是最大化长期累积奖励。

Robo 的奖励规则

在我们的寻宝游戏中，我们可以这样设计奖励：

💎

宝藏 (+10)

到达终点 (s=15)

🔥

陷阱 (-10)

掉进陷阱 (s=5 或 s=10)

👣

移动 (-1)

每走一步 (Time Step)

                        为什么要设置“移动成本”？

                        如果每一步不扣分，Robo 可能会在没有危险的地方一直兜圈子，因为这既没有惩罚也没有奖励。
                        
                        给每一步设置微小的负奖励 (如 -1)，可以迫使 Robo 寻找最短路径，因为步数越少，扣的分就越少，总分就越高。

即时奖励 vs 累积奖励

Reward 只是眼前这一步的得失。但RL的目标不是只看眼前，而是看长远。
比如，为了拿到 +10 的宝藏，Robo 可能需要忍受连续几步的 -1 惩罚。这就是“延迟满足”。

Reward (奖励)

奖励信号

Robo 的奖励规则

宝藏 (+10)

陷阱 (-10)

移动 (-1)

即时奖励 vs 累积奖励