状态转移概率
当我们执行一个动作时,并不总是“心想事成”。状态转移函数定义了在状态 $s$ 执行动作 $a$ 后,到达新状态 $s'$ 的概率。
$$P(s' | s, a) = \text{Prob}(S_{t+1} = s' | S_t = s, A_t = a)$$
1. 确定性转移 (Deterministic)
这是最简单的情况。执行某个动作,100% 会导致预期的结果。
🤖
s=6
s=6
s=7
在状态 6 向右走,100% 到达状态 7。
$P(7 | 6, \text{右}) = 1.0$
特殊的确定性情况:撞墙
如果 Robo 在边缘往墙上撞,它会停在原地。
🤖
s=7
s=7
在状态 7 向右走,100% 停在状态 7。
$P(7 | 7, \text{右}) = 1.0$
2. 随机性转移 (Stochastic)
现实往往更复杂。地板可能很滑,或者有风,导致动作产生意外结果。
假设地面很滑:
🤖
80% 到 s=7
10% 到 s=10
10% 到 s=2
试图向右,但可能滑到上面或下面。