回合更新策略梯度方法

五．回合更新策略梯度方法

本书前几章的算法都利用了价值函数，在求解最优策略的过程中试图估计最优价值函数，所以那些算法都称为最优价值算法（optimal value algorithm)．但是，要求解最优策略不一定要估计最优价值函数．本章将介绍不直接估计最优价值函数的强化学习算法，它们试图用含参函数近似最优策略，并通过迭代更新参数值．由于迭代过程与策略的梯度有关，所以这样的迭代算法又称为策略梯度算法（policy gradient algorithm）．

5.1 策略梯度算法的原理

基于策略的策略梯度算法有两大核心思想：

用含参函数近似最优策略
用策略梯度优化策略参数

本节介绍这两部分内容．

5.1.1 函数近似与动作偏好

用函数近似方法估计最优策略 $π_{*} (a ∣ s)$ 的基本思想是用含参函数 $π (a ∣ s; θ)$ 来近似最优策略．由于任意策略 $π$ 都需要满足对于任意的状态 $s \in S$ ，均有 $\sum_{a} π (a ∣ s) = 1$ ，我们也希望 $π (a ∣ s; θ)$ 满足对于任意的状态 $s \in S$ ，均有 $\sum_{a} π (a ∣ s; θ) = 1$ ．为此引入动作偏好函数（action preference function） $h (s, a; θ)$ ，其 softmax 的值为 $π (a ∣ s; θ)$ ，即 $π (a ∣ s; θ) = \frac{exp h ( s , a ; θ )}{\sum _{o^{'}} exp h ( s , a ^{'} ; θ )}, s \in S, a \in A (s)$ 在第 3~4 章中，从动作价值函数导出最优策略估计往往有特定的形式 (如 $ε$ 贪心策略)．与之相比，从动作偏好导出的最优策略的估计不拘泥于特定的形式，其每个动作都可以有不同的概率值，形式更加灵活．如果采用迭代方法更新参数 $θ$ ，随着迭代的进行， $π (a ∣ s; θ)$ 可以自然而然地逼近确定性策略，而不需要手动调节 $ε$ 等参数．

动作偏好函数可以具有线性组合、人工神经网络等多种形式．在确定动作偏好的形式中，只需要再确定参数 $θ$ 的值，就可以确定整个最优状态估计．参数 $θ$ 的值常通过基于梯度的迭代算法更新，所以，动作偏好函数往往需要对参数 $θ$ 可导．

5.1.2 策略梯度定理

策略梯度定理给出了期望回报和策略梯度之间的关系，是策略梯度方法的基础．本节学习策略梯度定理．

在回合制任务中，策略 $π (θ)$ 期望回报可以表示为 $E_{π (θ)} [G_{0}]$ ．策略梯度定理（policy gradient theorem) 给出了它对策略参数 $θ$ 的梯度为 $\nabla E_{π (θ)} [G_{0}] = E [t = 0 \sum + \infty γ^{t} G_{t} \nabla ln π (A_{t} ∣ S_{t}; θ)]$ 其等式右边是和的期望，求和的 $γ^{'} G_{t} \nabla ln π (A_{t} ∣ S_{t}; θ)$ 中，只有 $\nabla ln π (A_{t} ∣ S_{t}; θ)$ 显式含有参数 $θ$ ．

策略梯度定理告诉我们，只要知道了 $\nabla ln π (A_{t} ∣ S_{t}; θ)$ 的值，再配合其他一些容易获得的值（如 $γ^{t}$ 和 $G_{t})$ ，就可以得到期望回报的梯度．这样，我们也可以顺着梯度方向改变 $θ$ 以增大期望回报．

接下来我们来证明这个定理．回顾，策略 $π (θ)$ 满足 $Bellman$ 期望方程，即 $v_{π (θ)} (s) = \sum_{a} π (a ∣ s; θ) q_{π (θ)} (s, a), q_{π (θ)} (s, a) = r (s, a) + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v_{π (θ)} (s^{'}), s \in S s \in S, a \in A (s)$ 将以上两式对 $θ$ 求梯度，有 $\nabla v_{π (θ)} (s) = \sum_{a} q_{π (θ)} (s, a) \nabla π (a ∣ s; θ) + \sum_{a} π (a ∣ s; θ) \nabla q_{π (θ)} (s, a), \nabla q_{π (θ)} (s, a) = γ \sum_{s^{'}} p (s^{'} ∣ s, a) \nabla v_{π (θ)} (s^{'}), s \in S s \in S$ 将 $\nabla q_{π (θ)} (s, a)$ 的表达式代人 $\nabla v_{π (θ)} (s)$ 的表达式中，有 $\nabla v_{π (θ)} (s) = a \sum q_{π (θ)} (s, a) \nabla π (a ∣ s; θ) + a \sum π (a ∣ s; θ) γ s^{'} \sum p (s^{'} ∣ s, a) \nabla v_{π (θ)} (s^{'}) = a \sum q_{π (θ)} (s, a) \nabla π (a ∣ s; θ) + s^{'} \sum P [S_{t + 1} = s^{'} ∣ S_{t} = s; θ] γ v_{π (θ)} (s^{'}), s \in S$ 在策略 $π (θ)$ 下，对 $S_{t}$ 求上式的期望，有 $E [\nabla v_{π (θ)} (S_{t})] = \sum_{s} P [S_{t} = s] \nabla v_{π (θ)} (s) = \sum_{s} P [S_{t} = s] [\sum_{a} q_{π (θ)} (s, a) \nabla π (a ∣ s; θ) + \sum_{s^{'}} P [S_{t + 1} = s^{'} ∣ S_{t} = s; θ] γ \nabla v_{π (θ)} (s^{'})] = \sum_{s} P [S_{t} = s] \sum_{a} q_{π (θ)} (s, a) \nabla π (a ∣ s; θ) + \sum_{s} P [S_{t} = s] \sum_{s^{'}} P [S_{t + 1} = s^{'} ∣ S_{t} = s; θ] γ \nabla v_{π (θ)} (s^{'}) = \sum_{s} P [S_{t} = s] \sum_{a} q_{π (θ)} (s, a) \nabla π (a ∣ s; θ) + γ \sum_{s} P [S_{t + 1} = s^{'}; θ] \nabla v_{π (θ)} (s^{'}) = E [\sum_{σ} q_{π (θ)} (S_{t}, a) \nabla π (a ∣ S_{t}; θ)] + γ E [\nabla v_{π (θ)} (S_{t + 1})]$ 这样就得到了从 $E [\nabla v_{π (θ)} (S_{t})]$ 到 $E [\nabla v_{π (θ)} (S_{t + 1})]$ 的递推式．注意到最终关注的梯度值就是 $\nabla E_{π (θ)} [G_{0}] = \nabla E [v_{π (θ)} (S_{0})] = E [\nabla v_{π (θ)} (S_{0})]$ 所以有 $\nabla E_{π (θ)} [G_{0}] = E [\nabla v_{π (θ)} (S_{0})] = E [\sum_{a} q_{π (θ)} (S_{0}, a) \nabla π (a ∣ S_{0}; θ)] + γ E [\nabla v_{π (θ)} (S_{1})] = E [\sum_{a} q_{π (θ)} (S_{0}, a) \nabla π (a ∣ S_{0}; θ)] + E [\sum_{a} γ q_{π (θ)} (S_{1}, a) \nabla π (a ∣ S_{1}; θ)] + γ^{2} E [\nabla v_{π (θ)} (S_{1})] = \dots = \sum_{t = 0}^{+ \infty} E [\sum_{a} γ^{t} q_{π (θ)} (S_{t}, a) \nabla π (a ∣ S_{t}; θ)]$ 考虑到 $\nabla π (a ∣ S_{t}; θ) = π (a ∣ S_{t}; θ) \nabla ln π (a ∣ S_{t}; θ)$ 所以 $E [\sum_{a} γ^{t} q_{π (θ)} (S_{t}, a) \nabla π (a ∣ S_{t}; θ)] = E [\sum_{a} π (a ∣ S_{t}; θ) γ^{t} q_{π (θ)} (S_{t}, a) \nabla ln π (a ∣ S_{t}; θ)] = E [γ^{t} q_{π (θ)} (S_{t}, A_{t}) \nabla ln π (A_{t} ∣ S_{t}; θ)]$ 又由于 $q_{π (θ)} (S_{t}, A_{t}) = E [G_{t} ∣ S_{t}, A_{t}]$ ，所以 $E [a \sum γ^{t} q_{π (θ)} (S_{t}, a) \nabla π (a ∣ S_{t}; θ)] = E [γ^{t} q_{π (θ)} (S_{t}, A_{t}) \nabla ln π (A_{t} ∣ S_{t}; θ)] = E [γ^{t} G_{t} \nabla ln π (A_{t} ∣ S_{t}; θ)]$ 得证．

5.2 同策回合更新策略梯度算法

策略梯度定理告诉我们，沿着 $\nabla E_{π (θ)} [G_{0}] = E [\sum_{t = 0}^{+ \infty} γ^{t} G_{t} \nabla ln π (A_{t} ∣ S_{t}; θ)]$ 的方向改变策略参数 $θ$ 的值，就有机会增加期望回报．基于这一结论，可以设计策略梯度算法．本节考虑同策更新算法

5.2.1 简单的策略梯度算法

在每一个回合结束后，我们可以就回合中的每一步用形如 $θ_{t + 1} \leftarrow θ_{t} + α γ^{t} G_{t} \nabla ln π (A_{t} ∣ S_{t}; θ), t = 0, 1, \dots$ 的迭代式更新参数 $θ$ ．这样的算法称为简单的策略梯度算法（Vanilla Policy Gradient, VPG)．

R Willims 在文章《Simple statistical gradient-following algorithms for connectionist reinforcement learning 》中给出了该算法，并称它为“REward Increment = Nonnegative Factor $\times$ Offset Reinforcement $\times$ Characteristic Eligibility” ( $REINFORCE)$ ，表示增量 $α γ^{t} G_{t} \nabla ln π (A_{t} ∣ S_{t}; θ_{t})$ 是由三个部分的积组成的．这样迭代完这个回合轨迹就实现了 $θ \leftarrow θ + α t = 0 \sum + \infty γ^{t} G_{t} \nabla ln π (A_{t} ∣ S_{t}; θ)$ 在具体的更新过程中，不一定要严格采用这样的形式．当采用 TensorFlow 等自动微分的软件包来学习参数时，可以定义单步的损失为 $- γ^{'} G_{t} ln π (A_{t} ∣ S_{t}; θ)$ ，让软件包中的优化器减小整个回合中所有步的平均损失，就会沿着 $\sum_{t = 0}^{+ \infty} γ^{'} G_{t} \nabla ln π (A, ∣ S_{t}; θ)$ 的梯度方向改变 $θ$ 的值．

简单的策略梯度算法见算法 5-1．

算法 5-1：简单的策略梯度算法求解最优策略

输入：环境（无数学描述）输出：最优策略的估计 $π (θ)$ 参数：优化器（隐含学习率 $α$ ），折扣因子 $γ$ ，控制回合数和回合内步数的参数

（初始化） $θ \leftarrow$ 任意值
（回合更新）对每个回合执行以下操作 2.1 （采样）用策略 $π (θ)$ 生成轨迹 $S_{0}, A_{0}, R_{1}, S_{1}, \dots, S_{T - 1}, A_{T - 1}, R_{T}, S_{T}$ 2.2 （初始化回报） $G \leftarrow 0$ 2.3 对 $t = T - 1, T - 2, \dots, 0$ ，执行以下步骤：
1. （更新回报） $G \leftarrow γ G + R_{t + 1}$
2. （更新策略）更新 $θ$ 以减小 $- γ^{'} G ln π (A_{t} ∣ S_{t}; θ) (如 θ \leftarrow θ + α γ^{t} G \nabla ln π (A_{t} ∣ S_{t}; θ))$

5.2.2 带基线的简单策略梯度算法

本节介绍简单的策略梯度算法的一种改进一带基线的简单的策略梯度算法（REINFOCE with baselines)．为了降低学习过程中的方差，可以引人基线函数 $B (s) (s \in S)$ ．基线函数 $B$ 可以是任意随机函数或确定函数，它可以与状态 $s$ 有关，但是不能和动作 $a$ 有关．满足这样的条件后，基线函数 $B$ 自然会满足 $E [γ^{t} (G_{t} - B (S_{t})) \nabla ln π (A_{t} ∣ S_{t}; θ)] = E [γ^{t} G_{t} \nabla ln π (A_{t} ∣ S_{t}; θ)]$ 证明如下：由于 $B$ 与 $a$ 无关，所以 $a \sum B (S_{t}) \nabla π (a ∣ S_{t}; θ) = B (S_{t}) \nabla a \sum π (a ∣ S_{t}; θ) = B (S_{t}) \nabla1 = 0$ 进而 $E [γ^{t} (G_{t} - B (S_{t})) \nabla ln π (A_{t} ∣ S_{t}; θ)] = a \sum γ^{t} (G_{t} - B (S_{t})) \nabla π (a ∣ S_{t}; θ) = a \sum γ^{t} G_{t} \nabla π (a ∣ S_{t}; θ) = E [γ^{t} G_{t} \nabla ln π (A_{t} ∣ S_{t}; θ)]$ 得证．基线函数可以任意选择，例如以下情况

选择基线函数为由轨迹确定的随机变量 $B (S_{t}) = - \sum_{τ = 0}^{t - 1} γ^{τ - t} R_{τ + 1}$ ，这时 $γ^{t} (G_{t} - B (S_{t})) = G_{0}$ ，梯度的形式为 $E [G_{0} \nabla ln π (A_{t} ∣ S_{t}; θ)]$
选择基线函数为 $B (S_{t}) = γ^{t} v_{*} (S_{t})$ ，这时梯度的形式为 $E [γ^{t} (G_{t} - v_{*} (S_{t})) \nabla ln π$ $(A_{t} ∣ S_{t}; θ)]$

但是，在实际选择基线时，应当参照以下两个思想．

基线的选择应当有效降低方差．一个基线函数能不能降低方差不容易在理论上判别，往往需要通过实践获知．- 基线函数应当是可以得到的．例如我们不知道最优价值函数，但是可以得到最优价值函数的估计．价值函数的估计也可以随着迭代过程更新．

一个能有效降低方差的基线是状态价值函数的估计．算法 5-2 给出了用状态价值函数的估计作为基线的算法．这个算法有两套参数 $θ$ 和 $w$ ，分别是最优策略估计和最优状态价值函数估计的参数．每次迭代时，它们都以各自的学习算法进行学习．算法 5-2 采用了随机梯度下降法来更新这两套参数（事实上也可以用其他算法)，在更新过程中都用到了 $G - v (S_{t}; w)$ ，可以在更新前预先计算以减小计算量．

算法 5-2：带基线的简单策略梯度算法求解最优策略

输入：环境（无数学描述）输出：最优策略的估计 $π (θ)$ 参数：优化器（隐含学习率 $α^{(w)}, α^{(0)})$ ，折扣因子 $γ$ ，控制回合数和回合内步数的参数．

（初始化） $θ \leftarrow$ 任意值， $w \leftarrow$ 任意值．
（回合更新）对每个回合执行以下操作： 2.1 （采样）用策略 $π (θ)$ 生成轨迹 $S_{0}, A_{0}, R_{1}, S_{1}, \dots, S_{T - 1}, A_{T - 1}, R_{T}, S_{T}$ 2.2 （初始化回报） $G \leftarrow 0$ 2.3 对 $t = T - 1, T - 2, \dots, 0$ ，执行以下步骤：
1. （更新回报） $G \leftarrow γ G + R_{t + 1}$
2. （更新价值）更新 $w$ 以减小 $[G - v (S_{t}; w)]^{2} ($ 如 $w \leftarrow w + α^{(w)} [G - v (S_{t}; w)] \nabla v (S_{t}; w))$
3. （更新策略）更新 $θ$ 以减小 $- γ^{t} [G - v (S_{t}; w)] ln π (A_{t} ∣ S_{t}; θ) ($ 如 $θ \leftarrow θ + α^{(θ)} γ^{t} [G - v (S_{t}; w)] \nabla ln π (A_{t} ∣ S_{t}; θ))_{0}$

接下来，我们来分析什么样的基线函数能最大程度地减小方差．考虑 $E [γ^{t} (G_{t} - B (S_{t}))$ $\nabla ln π (A_{t} ∣ S_{t}; θ)]$ 的方差为 $E [[γ^{t} (G_{t} - B (S_{t})) \nabla ln π (A_{t} ∣ S_{t}; θ)]^{2}] - [E [γ^{t} (G_{t} - B (S_{t})) \nabla ln π (A_{t} ∣ S_{t}; θ)]]^{2}$ 其对 $B (S_{t})$ 求偏导数为 $E [- 2 γ^{2 t} (G_{t} - B (S_{t})) [\nabla ln π (A_{t} ∣ S_{t}; θ)]^{2}]$ （求偏导数时用到了 $\frac{\partial}{\partial B ( S _{t} )} E [γ^{t} (G_{t} - B (S_{t})) \nabla ln π (A_{t} ∣ S_{t}; θ)] = 0$ ）．令这个偏导数为 0 ，并假设 $E [B (S_{t}) [\nabla ln π (A_{t} ∣ S_{t}; θ)]^{2}] = E [B (S_{t})] E [[\nabla ln π (A_{t} ∣ S_{t}; θ)]^{2}]$ 可知 $E [B (S_{t})] = \frac{E [ G _{t} [ \nabla ln π ( A _{t} ∣ S _{t} ; θ ) ] ^{2} ]}{E [ [ \nabla ln π ( A _{t} ∣ S _{t} ; θ ) ] ^{2} ]}$ 这意味着，最佳的基线函数应当接近回报 $G_{t}$ 以梯度 $[\nabla ln π (A_{t} ∣ S_{t}; θ)]^{2}$ 为权重加权平均的结果．但是，在实际应用中，无法事先知道这个值，所以无法使用这样的基线函数．

值得一提的是，当策略参数和价值参数同时需要学习的时候，算法的收敛性需要通过双时间轴 Robbins-Monro 算法（two timescale Robbins-Monro algorithm）来分析．

5.3 异策回合更新策略梯度算法

在简单的策略梯度算法的基础上引入重要性采样，可以得到对应的异策算法．记行为策略为 $b (a ∣ s)$ ，有 $\sum_{a} π (a ∣ s; θ) γ^{t} G_{t} \nabla ln π (a ∣ s; θ) = \sum_{σ} b (a ∣ s) \frac{π ( a ∣ s ; θ )}{b ( a ∣ s )} γ^{t} G_{t} \nabla ln π (a ∣ s; θ) = \sum_{a} b (a ∣ s) \frac{1}{b ( a ∣ s )} γ^{t} G_{t} \nabla π (a ∣ s; θ)$ 即 $E_{π (θ)} [γ^{t} G_{t} \nabla ln π (A_{t} ∣ S_{t}; θ)] = E_{b} [\frac{1}{b ( A _{t} ∣ S _{t} )} γ^{t} G_{t} \nabla π (A_{t} ∣ S_{t}; θ)]$ 所以，采用重要性采样的离线算法，只需要把用在线策略采样得到的梯度方向 $γ^{'} G_{t} \nabla ln π (A_{t} ∣ S_{t}; θ)$ 改为用行为策略 $b$ 采样得到的梯度方向 $\frac{1}{b ( A _{t} ∣ S _{t} )} γ^{t} G_{t} \nabla π (A_{t} ∣ S_{t}; θ)$ 即可．这就意味着，在更新参数 $θ$ 时可以试图增大 $\frac{1}{b ( A _{t} ∣ S _{t} )} γ^{t} G_{t} π (A_{t} ∣ S_{t}; θ)$ ．

算法5-3：重要性采样简单策略梯度求解最优策略

（初始化） $θ \leftarrow$ 任意值
（回合更新）对每个回合执行以下操作： 2.1 （行为策略）指定行为策略 $b$ ，使得 $π (θ) ≪ b$ 2.2 （采样）用策略 $b$ 生成轨迹： $S_{0}, A_{0}, R_{1}, S_{1}, \dots, S_{T - 1}, A_{T - 1}, R_{T}, S_{T}$ 2.3 （初始化回报和权重） $G \leftarrow 0$ 2.4 对 $t = T - 1, T - 2, \dots, 0$ ，执行以下步骤：
1. （更新回报） $G \leftarrow γ G + R_{t + 1}$
2. （更新策略）更新参数 $θ$ 以减小 $- \frac{1}{b ( A _{t} ∣ S _{t} )} γ^{t} G_{t} π (A_{t} ∣ S_{t}; θ) ($ 如 $θ \leftarrow θ + α \frac{1}{b ( A _{t} ∣ S _{t} )} γ^{t} G \nabla π (A_{t} ∣ S_{t}; θ))_{0}$

重要性采样使得我们可以利用其他策略的样本来更新策略参数，但是可能会带来较大的偏差，算法稳定性比同策算法差．

5.4 策略梯度更新和极大似然估计的关系

至此，本章已经介绍了各种各样的策略梯度算法．这些算法在学习的过程中，都是通过更新策略参数 $θ$ 以试图增大形如 $E [Ψ_{t} ln π (A_{t} ∣ S_{t}; θ)]$ 的目标（考虑单个条目则为 $Ψ_{t} ln π (A_{t} ∣ S_{t}; θ))$ ，其中 $Ψ_{t}$ 可取 $G_{0}, G_{t}$ 等值．将这一学习过程与下列有监督学习最大似然问题的过程进行比较，如果已经有一个表达式未知的策略 $π$ ，我们要用策略 $π (θ)$ 来近似它，这时可以考虑用最大似然的方法来估计策略参数 $θ$ ．具体而言，如果已经用未知策略 $π$ 生成了很多样本，那么这些样本对于策略 $π (θ)$ 的对数似然值正比于 $E [ln π (A_{t} ∣ S_{t}; θ)]$ ．用这些样本进行有监督学习，需要更新策略参数 $θ$ 以增大 $E [ln π (A_{t} ∣ S_{t}; θ)]$ (考虑单个条目则为 $ln π (A_{t} ∣ S_{t}; θ))$ ．可以看出， $E [ln π (A_{t} ∣ S_{t}; θ)]$ 可以通过 $E [Ψ_{t} ln π (A_{t} ∣ S_{t}; θ)]$ 中取 $Ψ_{t} = 1$ 得到，在形式上具有相似性．策略梯度算法在学习的过程中巧妙地利用观测到的奖励信号决定每步对数似然值 $ln π (A_{t} ∣ S_{t}; θ)$ 对策略奖励的贡献，为其加权 $Ψ_{t}$ (这里的 $Ψ_{t}$ 可能是正数，可能是负数，也可能是 0 )，使得策略 $π (θ)$ 能够变得越来越好．注意，如果取 $Ψ$ ，在整个回合中是不变的（例如 $Ψ_{t} = G_{0})$ ，那么在单一回合中的 $E [G_{0} ln π (A_{t} ∣ S_{t}; θ)] = G_{0} E [ln π (A_{t} ∣ S_{t}; θ)]$ 就是对整个回合的对数似然值进行加权后对策略的贡献，使得策略 $π (θ)$ 能够变得越来越好．试想，如果有的回合表现很好 (比如 $G_{0}$ 是很大的正数 )，在策略梯度更新的时候这个回合的似然值 $E [ln π (A_{t} ∣ S_{t}; θ)]$ 就会有一个比较大的权重 $Ψ_{t} ($ 例如 $Ψ_{t} = G_{0})$ ，这样这个表现比较好的回合就会更倾向于出现；如果有的回合表现很差（比如 $G_{0}$ 是很小的负数，即绝对值很大的负数）则策略梯度更新时这个回合的似然值就会有比较小的权重，这样这个表现较差的回合就更倾向于不出现．

布武不舞