状态转移概率

当我们执行一个动作时,并不总是“心想事成”。状态转移函数定义了在状态 $s$ 执行动作 $a$ 后,到达新状态 $s'$ 的概率。

$$P(s' | s, a) = \text{Prob}(S_{t+1} = s' | S_t = s, A_t = a)$$

1. 确定性转移 (Deterministic)

这是最简单的情况。执行某个动作,100% 会导致预期的结果。

🤖
s=6
s=7

在状态 6 向右走,100% 到达状态 7。
$P(7 | 6, \text{右}) = 1.0$

特殊的确定性情况:撞墙

如果 Robo 在边缘往墙上撞,它会停在原地。

🤖
s=7
❌ 碰壁

在状态 7 向右走,100% 停在状态 7。
$P(7 | 7, \text{右}) = 1.0$

2. 随机性转移 (Stochastic)

现实往往更复杂。地板可能很滑,或者有风,导致动作产生意外结果。

假设地面很滑:

🤖
80% 到 s=7
10% 到 s=10
10% 到 s=2

试图向右,但可能滑到上面或下面。

下一节:Robo 的行动指南 (Policy)