什么是策略?

策略 (Policy, $\pi$) 定义了智能体的行为方式。它就是一个“从状态到动作”的映射函数,告诉 Robo 在某个位置应该往哪里走。

1. 确定性策略 (Deterministic)

对于每个状态,策略给出一个固定的动作。

$$a = \pi(s)$$

🔥
🔥
💎

一张明确的藏宝图。
比如:$\pi(9) = \text{下}$ (注意之前用户的要求:9在5下面,9要向下)

2. 随机性策略 (Stochastic)

策略输出的是动作的概率分布。

$$\pi(a|s) = P(A_t=a | S_t=s)$$

🤖
s=9
50% ↓
50% →

犹豫不决的策略。
$\pi(\text{下}|9) = 0.5, \pi(\text{右}|9) = 0.5$

最优策略 (Optimal Policy, $\pi^*$):
强化学习的目标就是找到那个能让 Robo 获得最多奖励的策略。
下一节:什么是“最多奖励”?(Reward)