连续动作空间的确定性策略

七．连续动作空间的确定性策略

如何理解：两个网络：策略网络与价值函数网络( $q$ 函数 ) ， $t$ 时刻，先利用策略时序差分地更新价值函数，再更新策略网络，策略网络的梯度下降想法是：参数朝着使 $q$ 函数增大的方向走，即 $q$ 函数关于策略网络的参数求梯度，所以最后推得的关系式策略网络的更新式形式为连式法则的样子 $\nabla E_{π (θ)} [G_{0}] = E [\sum_{t = 0}^{+ \infty} γ^{t} \nabla π (S_{t}; θ) [\nabla_{α} q_{π (θ)} (S_{t}, a)]_{a = π (S_{t}; θ)}]$ ．

本章介绍在连续动作空间里的确定性执行者 / 评论者算法．在连续的动作空间中，动作的个数是无穷大的．如果采用常规方法，需要计算 $max_{a} q (s, a; θ)$ ．而对于无穷多的动作，最大值往往很难求得．为此，D. Silver 等人在文章《 Deterministic Policy Gradient Algorithms 》中提出了确定性策略的方法，来处理连续动作空间情况．本章将针对连续动作空间，推导出确定性策略的策略梯度定理，并据此给出确定性执行者 / 评论者算法．

7.1 同策确定性算法

对于连续动作空间里的确定性策略， $π (a ∣ s; θ)$ 并不是一个通常意义上的函数，它对策略参数 $θ$ 的梯度． $\nabla π (a ∣ s; θ)$ 也不复存在．所以，第 6 章介绍的执行者 / 评论者算法就不再适用．幸运的是，曾提到确定性策略可以表示为 $π (s; θ) (s \in S)$ ．这种表示可以绕过由于 $π (a ∣ s; θ)$ 并不是通常意义上的函数而带来的困难．

本节介绍在连续空间中的确定性策略梯度定理，并据此给出基本的同策确定性执行者 / 评论者算法．

7.1.1 策略梯度定理的确定性版本

当策略是一个连续动作空间上的确定性的策略 $π (s; θ) (s \in S)$ 时，策略梯度定理为 $\nabla E_{π (θ)} [G_{0}] = E [t = 0 \sum + \infty γ^{t} \nabla π (S_{t}; θ) [\nabla_{α} q_{π (θ)} (S_{t}, a)]_{a = π (S_{t}; θ)}]$ （证明：状态价值和动作价值满足以下关系 $v_{π (0)} (s) q_{π (θ)} (s, π (s; θ)) = q_{π (θ)} (s, π (s; θ)), = r (s, π (s; θ)) + γ s^{'} \sum p (s^{'} ∣ s, π (s; θ)) v_{π (θ)} (s^{'}), s \in S s \in S$ 以上两式对 $θ$ 求梯度，有 $\nabla v_{π (θ)} (s) = \nabla q_{π (θ)} (s, π (s; θ)), s \in S \nabla q_{π (θ)} (s, π (s; θ)) = [\nabla_{a} r (s, a)]_{a = π (s; θ)} \nabla π (s; θ) + γ \sum_{s^{'}} {[\nabla_{a} p (s^{'} ∣ s, a)]_{a = π (s; θ)} [\nabla π (s; θ)] v_{π (θ)} (s^{'}) + p (s^{'} ∣ s, π (s; θ)) \nabla v_{π (θ)} (s^{'})} = \nabla π (s; θ) [\nabla_{a} r (s, a) + γ \sum_{s^{'}} \nabla_{a} p (s^{'} ∣ s, a) v_{π (θ)} (s^{'})]_{a = π (s; θ)} + γ \sum_{s^{'}} p (s^{'} ∣ s, π (s; θ)) \nabla v_{π (θ)} (s^{'}) = \nabla π (s; θ) [\nabla_{a} q_{π (θ)} (s, a)]_{a = π (s; θ)} + γ \sum_{s^{'}} p (s^{'} ∣ s, π (s; θ)) \nabla v_{π (θ)} (s^{'}), s \in S$ 将 $\nabla q_{π (θ)} (s, π (s; θ))$ 的表达式代人 $\nabla v_{π (θ)} (s)$ 的表达式中，有 $\nabla v_{π (θ)} (s) = \nabla π (s; θ) [\nabla_{a} q_{π (θ)} (s, a)]_{a = π (s; θ)} + γ s^{'} \sum p (s^{'} ∣ s, π (s; θ)) \nabla v_{π (θ)} (s^{'}), s \in S$ 对上式求关于 $S_{t}$ 的期望，并考虑到 $p (s^{'} ∣ s, π (s; θ)) = P [S_{t + 1} = s^{'} ∣ S_{t} = s; π (θ)]$ (其中 $t$ 任取)，有 $E [\nabla v_{π (θ)} (S_{t})] = \sum_{s} P [S_{t} = s] \nabla v_{π (θ)} (S_{t}) = \sum_{s} P [S_{t} = s] [\nabla π (s; θ) [\nabla_{a} q_{π (θ)} (s, a)]_{a = π (s; θ)} + γ \sum_{s^{'}} p (s^{'} ∣ s, π (s; θ)) \nabla v_{π (θ)} (s^{'})] = \sum_{s} P [S_{t} = s] [\nabla π (s; θ) [\nabla_{a} q_{π (θ)} (s, a)]_{a = π (s; θ)} + γ \sum_{s^{'}} P [S_{t + 1} = s^{'} ∣ S_{t} = s; π (θ)] \nabla v_{π (θ)} (s^{'})] = \sum_{s} P [S_{t} = s] \nabla π (s; θ) [\nabla_{a} q_{π (θ)} (s, a)]_{a = π (s; θ)} + γ \sum_{s} P [S_{t} = s] \sum_{s^{'}} P [S_{t + 1} = s^{'} ∣ S_{t} = s; π (θ)] \nabla v_{π (θ)} (s^{'}) = \sum_{s} P [S_{t} = s] \nabla π (s; θ) [\nabla_{a} q_{π (θ)} (s, a)]_{a = π (s; θ)} + γ \sum_{s^{'}} P [S_{t + 1} = s^{'}; π (θ)] \nabla v_{π (θ)} (s^{'}) = E [\nabla π (S; θ) [\nabla_{a} q_{π (θ)} (S, a)]_{a = π (s; θ)}] + γ E [\nabla v_{π (θ)} (S_{t + 1})],$ 这样就得到了从 $E [\nabla v_{π (θ)} (S_{t})]$ 到 $E [\nabla v_{π (θ)} (S_{t + 1})]$ 的递推式．注意，最终关注的梯度值就是 $\nabla E_{π (θ)} [G_{0}] = E [\nabla v_{π (θ)} (S_{0})]$ 所以有 $\nabla E_{π (θ)} [G_{0}] = E [\nabla v_{π (θ)} (S_{0})] = E [\nabla π (S_{0}; θ) [\nabla_{α} q_{π (θ)} (S_{0}, a)]_{a = π (S_{0}; θ)}] + γ E [\nabla v_{π (θ)} (S_{1})] = E [\nabla π (S_{0}; θ) [\nabla_{a} q_{π (θ)} (S_{0}, a)]_{a = π (S_{0}; θ)}] + γ E [\nabla π (S_{1}; θ) [\nabla_{0} q_{π (θ)} (S_{1}, a)]_{a = π (S_{1}; θ)}] + γ^{2} E [\nabla v_{π (θ)} (S_{2})] = \dots = \sum_{t = 0}^{+ \infty} E [γ^{t} \nabla π (S_{t}; θ) [\nabla_{a} q_{π (θ)} (S_{t}, a)]_{a = π (S_{t}; θ)}]$ 就得到和之前梯度策略定理类似的形式 $_{0}$ )．

对于连续动作空间中的确定性策略，更常使用的是另外一种形式： $\nabla E_{π (θ)} [G_{0}] = E_{S \sim ρ_{π (0)}} [\nabla π (S; θ) [\nabla_{α} q_{π (θ)} (S, a)]_{a = π (S; θ)}]$ 其中的期望是针对折扣的状态分布 (discounted state distribution) $ρ_{π} (s) = \int_{s_{0} \in S} p_{s_{0}} (s_{0}) t = 0 \sum + \infty γ^{t} P [S_{t} = s ∣ S_{0} = s_{0}; θ] d s_{0}$ 而言的。（证明： $\nabla E_{π (θ)} [G_{0}] = \sum_{t = 0}^{+ \infty} E [γ^{t} \nabla π (S_{t}; θ) [\nabla_{a} q_{π (θ)} (S_{t}, a)]_{a = π (S_{t}; θ)}] = \sum_{t = 0}^{+ \infty} \int_{s} p_{S_{t}} (s) γ^{t} \nabla π (s; θ) [\nabla_{a} q_{π (θ)} (s, a)]_{a = π (S_{t}; θ)} d s = \sum_{t = 0}^{+ \infty} \int_{s} (\int_{s_{0}} p_{s_{0}} (s_{0}) P [S_{t} = s ∣ S_{0} = s_{0}; θ] d s_{0}) γ^{t} \nabla π (s; θ) [\nabla_{a} q_{π (θ)} (s, a)]_{a = π (s; θ)} d s = \int_{s} (\int_{s_{0}} p_{s_{0}} (s_{0}) \sum_{t = 0}^{+ \infty} γ^{t} P [S_{t} = s ∣ S_{0} = s_{0}; θ] d s_{0}) \nabla π (S_{t}; θ) [\nabla_{a} q_{π (θ)} (s, a)]_{a = π (s; θ)} d s = \int_{s} ρ_{π (θ)} (s) \nabla π (s; θ) [\nabla_{a} q_{π (θ)} (s, a)]_{a = π (s; θ)} d s = E_{ρ_{π (θ)}} [\nabla π (s; θ) [\nabla_{a} q_{π (θ)} (s, a)]_{a = π (s; θ)}]$ 得证．）

7.1.2 基本的同策确定性执行者 / 评论者算法

根据策略梯度定理的确定性版本，对于连续动作空间中的确定性执行者 / 评论者算法，梯度的方向变为 $E [t = 0 \sum + \infty γ^{t} \nabla π (S_{t}; θ) [\nabla_{a} q_{π (θ)} (S_{t}, a)]_{a = π (S_{t}; θ)}]$ 确定性的同策执行者 $/$ 评论者算法还是用 $q (s, a; w)$ 来近似 $q_{π (θ)} (s, a)$ ．这时， $γ^{t} \nabla π (S_{t}; θ)$ $[\nabla_{a} q_{π (θ)} (S_{t}, a)]_{a = π (S_{t}; θ)}$ 近似为 $γ^{t} \nabla π (S_{t}; θ) [\nabla_{a} q (S_{t}, a; w)]_{a = π (S_{t}; θ)} = \nabla_{θ} [γ^{t} q (S_{t}, π (S_{t}; θ); w)]$ 所以，与随机版本的同策确定性执行者 / 评论者算法相比，确定性同策执行者 / 评论者算法在更新策略参数 $θ$ 时试图减小 $- γ^{t} q (S_{t}, π (S_{t}; θ); w)$ ．迭代式可以是 $θ \leftarrow θ + γ^{t} \nabla π (S_{t}; θ) [\nabla_{a} q (S_{t}, a; w)]_{a = π (S_{t}; θ)}$ 算法 7-1 给出了基本的同策确定性执行者 / 评论者算法．对于同策的算法，必须进行探索．连续性动作空间的确定性算法将每个状态都映射到一个确定的动作上，需要在动作空间添加扰动实现探索．具体而言，在状态 $S_{t}$ 下确定性策略 $π (θ)$ 指定的动作为 $π (S_{t}; θ)$ ，则在同策算法中使用的动作可以具有 $π (S_{t}; θ) + N_{t}$ 的形式，其中 $N_{t}$ 是扰动量．在动作空间无界的情况下（即没有限制动作有最大值和最小值)，常常假设扰动量 $N_{t}$ 满足正态分布．在动作空间有界的情况下，可以用 clip 函数进一步限制加扰动后的范围（如 $clip (π (S_{t}; θ) + N_{t}, A_{low}, A_{tigh})$ ，其中 $A_{low}$ 和 $A_{high}$ 是动作的最小取值和最大取值)，或用 sigmoid 函数将对加扰动后的动作变换到合适的区间里 $($ 如 $A_{low} + (A_{righ} - A_{low}) expit (π (S_{t}; θ) + N_{t}))$ ．

算法 7-1：基本的同策确定性执行者 / 评论者算法

输入: 环境（无数学描述）输出：最优策略的估计 $π (θ)$ 参数：学习率 $α^{(w)}, α^{(0)}$ ，折扣因子 $γ$ ，控制回合数和回合内步数的参数．

（初始化） $θ \leftarrow$ 任意值， $W \leftarrow$ 任意值
（带自益的策略更新）对每个回合执行以下操作： 2.1 （初始化累积折扣） $I \leftarrow 1$ 2.2 （初始化状态动作对）选择状态 $S$ ，对 $π (S; θ)$ 加扰动进而确定动作 $A$ (如用正态分布随机变量扰动) 2.3 如果回合未结束，执行以下操作：
1. （采样）根据状态 $S$ 和动作 $A$ 得到采样 $R$ 和下一状态 $S^{'}$
2. （执行）对 $π (S^{'}; θ)$ 加扰动进而确定动作 $A^{'}$
3. （估计回报） $U \leftarrow R + γ q (S^{'}, A^{'}; w)$
4. （更新价值）更新 $w$ 以减小 $[U - q (S, A; w)]^{2} （$ 如 $w \leftarrow w + α^{(w)} [U - q (S, A; w)] \nabla q (S, A; w))$
5. （策略改进）更新 $θ$ 以减小 $- I q (S, π (S; θ); w) （$ 如 $θ \leftarrow θ + α^{(θ)} I \nabla π (S; θ) [\nabla_{a} q (S, a; w)]_{a = π (s; θ)})$
6. （更新累积折扣） $I \leftarrow γ I$
7. （更新状态） $S \leftarrow S^{'}, A \leftarrow A^{'}$ ．

在有些任务中，动作的效果经过低通滤波器处理后反映在系统中，而独立同分布的 Gaussian 噪声不能有效实现探索．例如，在某个任务中，动作的直接效果是改变一个质点的加速度．如果在这个任务中用独立同分布的 Gaussian 噪声叠加在动作上，那么对质点位置的整体效果是在没有噪声的位置附近移动．这样的探索就没有办法为质点的位置提供持续的偏移，使得质点到比较远的位置．在这类任务中，常常用 Ornstein Uhlenbeck 过程作为动作噪声．Ornstein Uhlenbeck 过程是用下列随机微分方程定义的 (以一维的情况为例 ) $d N_{t} = θ (μ - N_{t}) d t + σ d B_{t}$ 其中 $θ, μ, σ$ 是参数 $(θ > 0, σ > 0), B_{t}$ 是标准 Brownian 运动．当初始扰动是在原点的单点分布（即限定 $N_{0} = 0$ ），并且 $μ = 0$ 时，上述方程的解为 $N_{t} = σ \int_{0}^{t} e^{θ (τ - t)} d B_{t}$ （证明：将 $d N_{t} = θ (μ - N_{t}) d t + σ d B_{t}$ 代入 $d (N_{t} e^{θt}) = θ N_{t} e^{θt} d t + e^{θt} d N_{t},$ 化简可得 $d (N_{t} e^{θt}) = μ θ e^{θt} d t + σ e^{θt} d B_{t}$ ．将此式从 0 积到 $t$ ，得 $N_{t} e^{θt} - N_{0} = μ (e^{θt} - 1) + σ \int_{0}^{t} e^{θ τ} d B_{τ}$ ．当 $N_{0} = 0$ 且 $μ = 0$ 时化简可得结果）．

这个解的均值为 0 ，方差为 $\frac{σ ^{2}}{2 θ} (1 - e^{- 2 θt})$ ，协方差为 $Cov (N_{t}, N_{s}) = \frac{σ ^{2}}{2 θ} (e^{- θ ∣ t - s ∣} - e^{- θ (t + s)})$ （证明：由于均值为 0 ，所以 $Cov (N_{t}, N_{s}) = E [N_{t} N_{s}] = σ^{2} e^{- θ (t + s)} E [\int_{0}^{t} e^{θ τ} d B_{t} \int_{0}^{s} e^{θ τ} d B_{t}]$ ．另外，Ito Isometry 告诉我们 $E [\int_{0}^{t} e^{θ τ} d B_{τ} \int_{0}^{s} e^{θ τ} d B_{τ}] = E [\int_{0}^{m i n (t, s)} e^{2 θ τ} d τ]$ ，所以 $Cov (N_{t}, N_{s}) = σ^{2} e^{- θ (t + s)}$ $\int_{0}^{m i n (t, s)} e^{2 θ τ} d τ$ ，进一步化简可得结果．）

对于 $t \neq = s$ 总有 $∣ t - s ∣ < t + s$ ，所以 $Cov (N_{t}, N_{s}) > 0$ ．据此可知，使用 Ornstein Uhlenbeck 过程让相邻扰动正相关，进而让动作向相近的方向偏移．

7.2 异策确定性算法

对于连续的动作空间，我们希望能够找到一个确定性策略，使得每条轨迹的回报最大．同策确定性算法利用策略 $π (θ)$ 生成轨迹，并在这些轨迹上求得回报的平均值，通过让平均回报最大，使得每条轨迹上的回报尽可能大．事实上，如果每条轨迹的回报都要最大，那么对于任意策略 $b$ 采样得到的轨迹，我们都希望在这套轨迹上的平均回报最大．所以异策确定性策略算法引入确定性行为策略 $b$ ，将这个平均改为针对策略 $b$ 采样得到的轨迹，得到异策确定性梯度为 $\nabla E_{ρ_{b}} [q_{π (θ)} (S, π (S; θ))] = E_{ρ_{b}} [\nabla π (S; θ) [\nabla_{a} q_{π (θ)} (S, a)]_{a = π (S; θ)}]$ 这个表达式与同策的情形相比，期望运算针对的表达式相同．所以，异策确定性算法的迭代式与同策确定性算法的迭代式相同．

异策确定性算法可能比同策确定性算法性能好的原因在于，行为策略可能会促进探索，用行为策略采样得到的轨迹能够更加全面的探索轨迹空间．这时候，最大化对轨迹分布的平均期望时能够同时考虑到更多不同的轨迹，使得在整个轨迹空间上的所有轨迹的回报会更大．

7.2.1 基本的异策确定性执行者 / 评论者算法

基于上述分析，我们可以得到异策确定性执行者 / 评论者算法 (Off-Policy Deterministic Actor-Critic, $OPDAC$ )，见算法 7-2 ．

值得一提的是，虽然异策算法和同策算法有相同形式的迭代式，但是在算法结构上并不完全相同．在同策算法迭代更新时，目标策略的动作可以在运行过程中直接得到；但是在异策算法迭代更新策略参数时，对环境使用的是行为策略决定的动作，而不是目标策略决定的动作，所以需要额外计算目标策略的动作．在更新价值函数时，采用的是 $Q$ 学习，依然需要计算目标策略的动作．

算法 9-2：基本的异策确定性执行者 / 评论者算法

输入：环境（无数学描述）输出：最优策略的估计 $π (θ)$ 参数：学习率 $α^{(w)}, α^{(0)}$ ，折扣因子 $γ$ ，控制回合数和回合内步数的参数．

（初始化） $θ \leftarrow$ 任意值， $w \leftarrow$ 任意值．
（带自益的策略更新）对每个回合执行以下操作： 2.1 （初始化累积折扣） $I \leftarrow 1$ 2.2 （初始化状态）选择状态 $S$ 2.3 如果回合未结束，执行以下操作：
1. （执行）用 $b (\cdot ∣ S)$ 得到动作 $A$
2. （采样）根据状态 $S$ 和动作 $A$ 得到采样 $R$ 和下一状态 $S^{'}$
3. （估计回报） $U \leftarrow R + γ q (S^{'}, π (S^{'}; θ); w)$
4. （更新价值）更新 $w$ 以减小 $[U - q (S, A; w)]^{2} ($ 如 $w \leftarrow w + α^{(w)} [U - q (S, A; w)] \nabla q (S, A; w))$
5. （策略改进）更新 $θ$ 以减小 $- Iq (S, π (S; θ); w)$ (如 $θ \leftarrow θ + α^{(θ)} I \nabla π (S; θ) [\nabla_{a} q (S, a; w)]_{a = π (s; θ)})$
6. （更新累积折扣） $I \leftarrow γ I$
7. （更新状态） $S \leftarrow S_{0}^{'}$ ．

7.2.2 深度确定性策略梯度算法

深度确定性策略梯度算法（Deep Deterministic Policy Gradient, $DDPG$ ）将基本的异策确定性执行者 / 评论者算法和深度 Q 网络中常用的技术结合．具体而言，确定性深度策略梯度算法用到了以下技术．

经验回放：执行者得到的经验 $(S, A, R, S^{'})$ 收集后放在一个存储空间中，等更新参数时批量回放，用批处理更新．
目标网络：在常规价值参数 $w$ 和策略参数 $θ$ 外再使用一套用于估计目标的目标价值参数 $w_{目标}$ 和目标策略参数 $θ_{目标。}$ 在更新目标网络时，为了避免参数更新过快，还引入了目标网络的学习率 $α_{目标} \in (0, 1)$

算法 7-3 给出了深度确定性策略梯度算法．

算法 7-3：深度确定性策略梯度算法 (假设 $π (S; θ) + N$ 总是在动作空间内)

输入：环境（无数学描述）输出：最优策略的估计 $π (θ)$ 参数：学习率 $α^{(w)}, α^{(θ)}$ ，折扣因子 $γ$ ，控制回合数和回合内步数的参数，目标网络学习率 $α_{目标}$

（初始化） $θ \leftarrow$ 任意值， $θ_{目标} \leftarrow θ, w \leftarrow$ 任意值， $w_{目标} \leftarrow w$
循环执行以下操作： 2.1 （累积经验）从起始状态 $S$ 出发，执行以下操作，直到满足终止条件：
- 用对 $π (S; θ)$ 加扰动进而确定动作 $A$ (如用正态分布随机变量扰动)
- 执行动作 $A$ ，观测到收益 $R$ 和下一状态 $S^{'}$
- 将经验 $(S, A, R, S^{'})$ 存储在经验存储空间 $D$ 2.2 （更新）在更新的时机，执行一次或多次以下更新操作：
- （回放）从存储空间 $D$ 采样出一批经验 $B$
- （估计回报）为经验估计回报 $U \leftarrow R + γ q (S^{'}, π (S^{'}; θ_{目标}); w_{目标}) ((S, A, R, S^{'}) \in B)$
- （价值更新)更新 $w$ 以减小 $\frac{1}{∣ B ∣} \sum_{(S, A, R, S^{'}) \in B} [U - q (S, A; w)]^{2}$
- （策略更新）更新 $θ$ 以减小 $- \frac{1}{∣ B ∣} \sum_{(s, A, R, S^{'}) \in B} q (S, π (S; θ); w)$ (如 $θ \leftarrow θ + α^{(θ)} \frac{1}{∣ B ∣} \sum_{(S, A, R, S^{'}) \in B} \nabla π (S; θ) [\nabla_{a} q (S, a; w)]_{a = π (S; θ)})$
- （更新目标）在恰当的时机更新目标网络和目标策略， $w_{目标} \leftarrow (1 - α_{目标}) w_{目标} +$ $α_{目标} w, θ_{目标} \leftarrow (1 - α_{目标}) θ_{目标} + α_{目标} θ$ ．

7.2.3 双重延迟深度确定性策略梯度算法

S. Fujimoto 等人在文章《 Addressing function approximation error in actor-critic methods》中给出了双重延迟深度确定性策略梯度算法（Twin Delay Deep Deterministic Policy Gradient, TD3 )，结合了深度确定性策略梯度算法和双重 Q 学习．

回顾前文，双重 $Q$ 学习可以消除最大偏差．基于查找表的双重 Q 学习用了两套动作价值函数 $q^{(0)} (s, a)$ 和 $q^{(1)} (s, a) (s \in S, a \in A)$ ，其中一套动作价值函数用来计算最优动作（如 $A^{'} = ar g max_{a} q^{(0)} (S^{'}, a))$ ，另外一套价值函数用来估计回报（如 $q^{(1)} (S^{'}, A^{'}))$ ；双重 $Q$ 网络则考虑到有了目标网络后已经有了两套价值函数的参数 $w$ 和 $w_{目标，}$ 所以用其中一套参数 $w$ 计算最优动作（如 $A^{'} = ar g max_{a} q (S^{'}, a; w)$ ），再用目标网络的参数 $w_{目标}$ 估计目标（如 $q (S^{'}, A^{'}; w_{目标})$ ）．但是对于确定性策略梯度算法，动作已经由含参策略 $π (θ)$ 决定了 (如 $π (S^{'}; θ)$ )，双重网络则要由双重延迟深度确定性策略梯度算法维护两份学习过程的价值网络参数 $w^{(i)}$ 和目标网络参数 $w_{目标}^{(i)} (i = 0, 1)$ ．在估计目标时，选取两个目标网络得到的结果中较小的那个，即 $min_{i = 0, 1} q (\cdot,;; w_{目标}^{(i)})$ ．

算法 7-4 给出了双重延迟深度确定性策略梯度算法．

算法 7-4 ：双重延迟深度确定性策略梯度

输入: 环境（无数学描述）榆出：最优策略的估计 $π (θ)$ 参数：学习率 $α^{(w)}, α^{(θ)}$ ，折扣因子 $γ$ ，控制回合数和回合内步数的参数，目标网络学习率 $α_{目标}$ ．

（初始化） $θ \leftarrow$ 任意值， $θ_{目标} \leftarrow θ, w^{(i)} \leftarrow$ 任意值， $w_{目标}^{(i)} \leftarrow w^{(i)}, i \in {0, 1}$
循环执行以下操作： 2.1 （累积经验）从起始状态 $S$ 出发，执行以下操作，直到满足终止条件：
- 用对 $π (S; θ)$ 加扰动进而确定动作 $A$ (如用正态分布随机变量扰动)
- 执行动作 $A$ ，观测到收益 $R$ 和下一状态 $S^{'}$
- 将经验 $(S, A, R, S^{'})$ 存储在经验存储空间 $D$ 2.2 （更新）一次或多次执行以下操作：
- （回放）从存储空间 $D$ 采样出一批经验 $B$
- （扰动动作）为目标动作 $π (S^{'}; θ_{目标})$ 加受限的扰动，得到动作 $A^{'} ((S, A, R, S^{'}) \in B)$
- （估计回报）为经验估计回报 $U = R + γ min_{i = 0, 1} q (S^{'}, A^{'}; w^{(i)}) ((S, A, R, S^{'}) \in B)$
- （价值更新）更新 $w^{(i)}$ 以减小 $\frac{1}{∣ B ∣} \sum_{(S, A, R, S^{'}) \in B} [U - q (S, A; w^{(i)})]^{2} (i = 0, 1)$
- （策略更新）在恰当的时机，更新 $θ$ 以减小 $- \frac{1}{∣ B ∣ _{(S, A, R, S^{'}) \in B}} q (S, π (S; θ); w^{(0)}) ($ 如 $θ \leftarrow θ + α^{(0)} \frac{1}{∣ B ∣} \sum_{(S, A, R, S^{'}) \in B} \nabla π (S; θ) [\nabla_{a} q (S, a; w^{(0)})]_{a = π (s; θ)})$
- （更新目标）在恰当的时机，更新目标网络和目标策略， $w_{目标}^{(i)} \leftarrow (1 - α_{目标}) w_{甘标}^{(i)} + α_{目标} W^{(i)} (i = 0, 1), θ_{目标} \leftarrow (1 - α_{目标}) θ_{目标} + α_{目标} θ$ ．

TODO:AlphaZero算法

布武不舞