第一句子网 > 【RL】Markov decision process马尔可夫决策过程(MDP)

【RL】Markov decision process马尔可夫决策过程(MDP)

时间：2021-01-02 13:30:47

参考：蘑菇书-《EasyRL》
本文只是为了方便自己今后的查阅对原文做出的一些概括与摘录，与大家共同学习。
PS：上一节->马尔可夫奖励过程

1.马尔可夫决策过程

相较于马尔可夫奖励过程，马尔可夫决策过程多了决策，即动作，状态转移与奖励函数也多了动作的条件。未来的状态不仅依赖于当前的状态，也依赖于在当前状态智能体采取的动作。马尔可夫决策过程满足条件：

2.策略π

策略定义了在某一个状态应该采取什么样的动作。知道当前状态后，我们可以把当前状态代入策略函

数来得到一个概率，即

策略不一定是一个概率，可能直接告诉我们当前应该采取什么样的动作。

3.状态转移

已知马尔可夫决策过程和策略 π，我们可以直接把动作进行加和，去掉a，这样我们就可以得到马尔可夫决策过程对于马尔可夫奖励过程的状态转移函数：

如下图所示，马尔可夫过程/马尔可夫奖励过程的状态转移是直接决定的。而在马尔可夫决策过程中，智能体先要决定采取某一个动作，即在当前状态与未来状态转移过程中多了一层决策性。

4.马尔可夫决策过程中的价值函数

其中，期望基于我们采取的策略。当策略决定后，我们通过对策略进行采样来得到一个期望，计算出它的

价值函数。

5.Q函数 / 动作价值函数

Q 函数定义的是在某一个状态采取某一个动作，它有可能得到的回报的一个期望，即

表示从这个动作开始，我们可能获得多大的价值。

对Q 函数的贝尔曼方程进行推导：

对 Q函数中的动作进行加和，就可以得到价值函数：

注：价值函数泛指状态价值函数，一般不说动作价值函数，而是说Q函数。

6.回顾：状态价值函数

对于马尔可夫奖励过程，状态价值函数被定义成回报的期望，即

表示从这个状态开始，我们可能获得多大的价值。

Gt ：折扣回报

7.贝尔曼期望方程

我们可以把状态价值函数和 Q 函数拆解成两个部分：即时奖励和后续状态的折扣价值。

对状态价值函数进行分解，可以得到贝尔曼期望方程。

对动作价值函数进行分解，可以得到（Q 函数的）贝尔曼期望方程。

贝尔曼期望方程定义了当前状态与未来状态之间的关联。

在上文5.中的最后两个公式，代表状态价值函数与 Q 函数之间的关联。

将它们互相代入，可以得到：

上式代表当前状态的价值与未来状态价值之间的关联。

上式代表当前时刻的 Q 函数与未来时刻的 Q 函数之间的关联。

上述两个公式都是贝尔曼期望方程的另一种形式。

8.备份图

备份：类似于自举之间的迭代关系，对于某一个状态，它的当前价值是与它的未来价值线性相关的。

备份图：

这些操作将价值信息从一个状态（或状态-动作对）的后继状态（或状态-动作对）转移回它。

例如，

对状态价值函数的计算分解：

对于上图，第一层加和是对叶子节点进行加和，往上备份一层，我们就可以把未来的价值（s′ 的价值）备份到黑色的节点。第二层加和是对动作进行加和，得到黑色节点的价值后，再往上备份一层，就会得到根节点的价值，即当前状态的价值。

对状态价值函数的计算分解：上述两图对应着上文7.中的最后两个贝尔曼期望方程，可以对应着直观理解。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

【RL】Markov decision process马尔可夫决策过程(MDP)

目录

1.马尔可夫决策过程

2.策略π

3.状态转移

4.马尔可夫决策过程中的价值函数

5.Q函数 / 动作价值函数

6.回顾：状态价值函数

7.贝尔曼期望方程

8.备份图