（三）动态规划

552 0 0

作者:Hughの菜园子

(for pursue, do accumulation)

个人笔记，纯属佛系分享，如有错误，万望赐教。

动态规划(Dynamic Programming, DP)是在给定一个利用MDP描述的完备的环境模型下可以计算出最优策略的优化算法。
DP的两种性质：1.最优子结构：问题的最优解法可以被分为若干个子问题；2.重叠子问题：子问题之间存在递归关系，解法是可以被重复利用的。在强化学习中，MDP满足两个性质，DP的关键思想就是利用价值函数组织并结构化对好的策略的搜索。

1. 策略评估(Policy Evalution)

策略评估也被称为“预测问题”，就是计算任意一个随机策略(pi)的状态价值函数(v_pi)的问题。
在MDP中，由公式((2.11))最终得到了状态价值函数的贝尔曼方程：(v_ pi(s)=displaystyle sum_api(a|s) sum_{s^prime.r} p(s^prime,r|s,a) [r+gamma v_pi(s^prime)])，该方程可以通过迭代法求解，方法如下：
1.将状态价值函数序列记为(left{ v_0,v_1,...,v_kright})
2.(v_0)作为初始状态价值函数，任意取值（在终止状态时，取值必须为0）
3.通过下面的公式进行迭代$$v_{k+1}=displaystyle sum_api(a|s) sum_{s^prime.r} p(s^prime,r|s,a) [r+gamma v_k(s^prime)] tag{3.1}$$
序列(left{v_kright})在(k rightarrow infty)时将收敛于(v_pi)。该方法需要两个数组：一个用于存储旧的(v_k(s))，另一个用于存储新的(v_{k+1}(s))。也可以每次直接用新状态价值函数替换旧状态价值函数，这就是"in-place"更新。

2. 价值迭代(Value Iteration)

上述的策略评估方法是一个多次遍历状态集合的迭代过程，因此，可以通过价值迭代来缩短策略评估的步骤，公式如下：

[begin{aligned} v_{k+1}(s) & doteq max_a mathbb{E}[R_{t+1}+ gamma v_k(S_{t+1}|S_t=s,A_t=a)] \ &=max_a displaystyle sum_{s^prime,r}p(s^prime,r|s,a)[r+gamma v_k(s^prime)] end{aligned} tag{3.2} ]

通过公式((3.2))可以在一次遍历后立即停止策略评估，只需要对每个状态更新一次，从而提升计算效率。

3. 策略改进(Policy Improvement)

通过策略评估得出策略的状态价值函数，可以根据策略改进定理(policy improvement theoroem)选择出贪心策略:

对于任意两个确定策略(pi)和(pi^prime)，(forall s in mathcal{S},q_pi(s,pi^prime(s)) geq v_pi(s))，则策略(pi^prime)不劣于(pi)。

在这种情况下，(v_{pi^prime}(s) geq v_pi(s))。证明过程如下

[begin{aligned} v_{pi}(s) & leq q_{pi}left(s, pi^{prime}(s)right) \ &=mathbb{E}left[R_{t+1}+gamma v_{pi}left(S_{t+1}right) | S_{t}=s, A_{t}=pi^{prime}(a)right] \ &=mathbb{E}_{pi^{prime}}left[R_{t+1}+gamma v_{pi}left(S_{t+1}right) | S_{t}=sright] \ & leq mathbb{E}_{pi^{prime}}left[R_{t+1}+gamma q_{pi}left(S_{t+1}, pi^{prime}left(S_{t+1}right)right) | S_{t}=sright] \ &=mathbb{E}_{pi^{prime}}left[R_{t+1}+gamma mathbb{E}_{pi^{prime}}left[R_{t+2}+gamma v_{pi}left(S_{t+2}right)right] | S_{t}=sright] \ &=mathbb{E}_{pi^{prime}}left[R_{t+1}+gamma R_{t+2}+gamma^{2} v_{pi}left(S_{t+2}right) | S_{t}=sright] \ & leq mathbb{E}_{pi^{prime}}left[R_{t+1}+gamma R_{t+2}+gamma^{2} R_{t+3}+gamma^{3} v_{pi}left(S_{t+3}right) | S_{t}=sright] \ & qquad vdots \ & leq mathbb{E}_{pi^{prime}}left[R_{t+1}+gamma R_{t+2}+gamma^{2} R_{t+3}+gamma^{3} R_{t+4}+cdots | S_{t}=sright] \ &=v_{pi^{prime}}(s) end{aligned} tag{3.3} ]

由此，可以推出贪心策略(pi^prime)，满足

[begin{aligned} pi^{prime}(s) & doteq underset{a}{arg max } q_{pi}(s, a) \ &=underset{a}{operatorname{argmax}} mathbb{E}left[R_{t+1}+gamma v_{pi}left(S_{t+1}right) | S_{t}=s, A_{t}=aright] \ &=underset{a}{operatorname{argmax}} sum_{s^{prime}, r} pleft(s^{prime}, r | s, aright)left[r+gamma v_{pi}left(s^{prime}right)right] end{aligned} tag{3.4} ]

同时，可以写出它的状态价值函数：

[begin{aligned} v_{pi^{prime}}(s) &=max _{a} mathbb{E}left[R_{t+1}+gamma v_{pi^{prime}}left(S_{t+1}right) | S_{t}=s, A_{t}=aright] \ &=max _{a} sum_{s^{prime}, r} pleft(s^{prime}, r | s, aright)left[r+gamma v_{pi^{prime}}left(s^{prime}right)right] \ &=v_*(s) end{aligned} tag{3.5} ]

4. 策略迭代(Policy Iteration)

[pi_{0} stackrel{E}{longrightarrow} v_{pi_{0}} stackrel{1}{longrightarrow} pi_{1} stackrel{E}{longrightarrow} v_{pi_{1}} stackrel{1}{longrightarrow} pi_{2} stackrel{E}{longrightarrow} cdots stackrel{I}{longrightarrow} pi_{*} stackrel{E}{longrightarrow} v_{*} ]

(stackrel{E}{longrightarrow})表示策略评估，(stackrel{I}{longrightarrow})表示策略改进，每一次的策略评估都是一个迭代计算的过程，需要基于前一个策略的状态价值函数开始计算。

由上图可知，策略迭代是通过策略评估和策略改进不断交互，使策略和状态价值函数最终收敛为最优。

5. 异步动态规划

上述的都是同步动态规划，它们的缺点是需要对MDP的整个状态集进行遍历。异步动态规划使使用任意可用的状态值，以任意规则进行更新，为了确保能够正确收敛，异步动态规划必须不断更新所有状态的值。

（转载请标明出处：https://www.cnblogs.com/HughCai/p/12770811.html）

Reference

Richard S. Sutton and Andrew G. Barto (2017). Reinforcement Learning: An Introduction (Second Edition). Cambridge, Massachusetts London, England : The MIT Press.

Csaba Szepesvari (2009). Algorithms for Reinforcement Learning. Morgan & Claypool Publisers.

内容来源于网络如有侵权请私信删除

文章来源: 博客园

原文链接: https://www.cnblogs.com/HughCai/p/12770811.html

标签： AI 人工智能

你还没有登录，请先登录或注册！

还没有人评论，欢迎说说您的想法！

（三）动态规划

（三）动态规划

1. 策略评估(Policy Evalution)

2. 价值迭代(Value Iteration)

3. 策略改进(Policy Improvement)

4. 策略迭代(Policy Iteration)

5. 异步动态规划

相关课程

热门标签

（三）动态规划

（三）动态规划

1. 策略评估(Policy Evalution)

2. 价值迭代(Value Iteration)

3. 策略改进(Policy Improvement)

4. 策略迭代(Policy Iteration)

5. 异步动态规划

相关课程

热门标签

推荐文章