1. 状态 (State)
状态 (State, $s$) 是智能体对环境当前情况的描述。它就像一张“快照”,告诉智能体目前处于什么境地。
在 Robo 的例子中:
状态就是 Robo 在网格中的编号位置。
例如左图,Robo 位于第 6 号格子,所以当前状态 $s = 6$。
整个状态空间 (State Space, $S$) 包含了所有可能的位置:
$S = \{0, 1, 2, ..., 15\}$
2. 动作 (Action)
动作 (Action, $a$) 是智能体可以对环境做出的行为。
在 Robo 的例子中:
Robo 在任何位置都可以尝试向四个方向移动。
动作空间 (Action Space, $A$) 是离散的:
$A = \{\text{上}, \text{下}, \text{左}, \text{右}\}$