MDP 五元组
我们之前学习的所有概念:状态、动作、转移、奖励、折扣,合起来就构成了一个标准的马尔可夫决策过程 (Markov Decision Process, MDP)。它是描述强化学习问题的标准数学框架。
一个 MDP 通常由一个五元组 $(S, A, P, R, \gamma)$ 定义:
1. 状态空间 ($S$)
所有可能情况的集合。
例如:Robo 的网格 0-15。
2. 动作空间 ($A$)
智能体能做的事情。
例如:上下左右。
3. 转移概率 ($P$)
动作导致状态变化的规律。
例如:向右走 80% 到右边,20% 打滑。
4. 奖励函数 ($R$)
即时反馈。
例如:宝藏 +10,陷阱 -10,移动 -1。
5. 折扣因子 ($\gamma$)
对未来的重视程度。
范围 [0, 1]。
强化学习的目标
在 MDP 中,我们(或者说智能体)的终极目标是:
使得从任意状态出发,累积的期望回报 (Expected Return) 最大化。
这个“期望回报”,在 RL 中通常用价值函数 (Value Function) 来量化。它就像给每个状态打个分,分数越高,说明从这里出发越容易赢。
核心公式:贝尔曼方程 (Bellman Equation)
价值函数之间存在着一种递归关系,这就是著名的贝尔曼方程。为了深入理解,我们需要先区分两种“价值”:
1. 状态价值函数 $V(s)$
"在这个状态有多好?"
假设我们遵循策略 $\pi$,从状态 $s$ 出发,直到游戏结束,平均能拿多少分。
2. 动作价值函数 $Q(s, a)$
"在这个状态选这个动作有多好?"
假设我们在状态 $s$ 强制执行动作 $a$,然后后续遵循策略 $\pi$,平均能拿多少分。
它们之间的关系是:$V(s) = \sum_{a} \pi(a|s) Q(s, a)$ (状态价值 = 所有可能动作价值的加权平均)。
贝尔曼期望方程 (Bellman Expectation Equation)
它描述了数据的“自洽性”。当前状态的价值,应该等于即时奖励加上下一个状态的价值(打折后):
贝尔曼最优方程 (Bellman Optimality Equation)
这是强化学习中最关键的方程!它告诉我们什么是“最优策略”。
如果我们想要表现最好,我们不需要关心“平均”能拿多少分,而是要关心最好能拿多少分。
最优状态价值 $V^*(s)$ 必须满足:
通俗理解:
如果你身处状态 $s$,你应该环顾四周,看看做哪个动作 $a$ 能带给你最大的“即时奖励 + 未来潜能”,然后你就选那个最大的值作为当前状态的价值。
为什么这很重要?
一旦我们解出了这个方程(即知道了 $V^*$ 或 $Q^*$),最优策略就唾手可得了:贪婪地选 Q 值最大的动作即可。这就是 Q-Learning 和 DQN 的核心思想。
你已经掌握了强化学习最核心的基础概念。现在,你可以尝试学习具体的算法,看看智能体是如何一步步找到那个神奇的“最优策略”的。