什么是策略?
策略 (Policy, $\pi$) 定义了智能体的行为方式。它就是一个“从状态到动作”的映射函数,告诉 Robo 在某个位置应该往哪里走。
1. 确定性策略 (Deterministic)
对于每个状态,策略给出一个固定的动作。
$$a = \pi(s)$$
→
→
↓
↓
↑
🔥
↓
↓
↑
↓
🔥
↓
→
→
→
💎
一张明确的藏宝图。
比如:$\pi(9) = \text{下}$ (注意之前用户的要求:9在5下面,9要向下)
2. 随机性策略 (Stochastic)
策略输出的是动作的概率分布。
$$\pi(a|s) = P(A_t=a | S_t=s)$$
🤖
s=9
s=9
50% ↓
50% →
犹豫不决的策略。
$\pi(\text{下}|9) = 0.5, \pi(\text{右}|9) = 0.5$
最优策略 (Optimal Policy, $\pi^*$):
强化学习的目标就是找到那个能让 Robo 获得最多奖励的策略。
强化学习的目标就是找到那个能让 Robo 获得最多奖励的策略。