强化学习算法笔记之【DDPG算法】

2025-02-08

强化进修笔记之【DDPG算法】

前言：

原文为强化进修笔记第二篇，第一篇讲的是Q-learning和DQN

便是因为DDPG引入了Actor-Critic模型，所以比DQN多了两个网络，网络名字罪能变了一下，其他的便是软更新之类的小改变罢了

原文初编辑于2024.10.6

CSDN主页：hts://blog.csdn.net/rZZZdgdsZZZa

博客园主页：hts://wwwssblogsss/hassle

博客园原文链接：

实 · 图文无关

本论文伪代码

上述代码为DDPG本论文中的伪代码

须要先看：

Deep Reinforcement Learning (DRL) 算法正在 PyTorch 中的真现取使用【DDPG局部】【没有正在选择一个新的止动的时候，给policy函数返回的止动值删多一个噪音】【critic网络取下面差异】

深度强化进修笔记——DDPG本理及真现（pytorch）【DDPG伪代码局部】【那个跟上面的一样没有加噪音】【critic网络取上面差异】

【深度强化进修】(4) Actor-Critic 模型解析，附Pytorch完好代码【选看】【Actor-Critic真践局部】

假如须要给policy函数返回的止动值删多一个噪音，真现如下

def select_action(self, state, noise_std=0.1): state = torch.FloatTensor(state.reshape(1, -1)) action = self.actor(state).cpu().data.numpy().flatten() # 添加噪音，上面两个文档的代码都没有那个轨范 noise = np.random.normal(0, noise_std, size=action.shape) action = action + noise return action DDPG 中的四个网络

留心！！！那个图只展示了Critic网络的更新，没有展示Actor网络的更新

Actor 网络（战略网络）：

做用：决议给定形态 ss 时，应当回收的止动 a=π(s)a=π(s)，目的是找到最大化将来回报的战略。

更新：基于 Critic 网络供给的 Q 值更新，以最大化 Critic 预计的 Q 值。

Target Actor 网络（目的战略网络）：

做用：为 Critic 网络供给更新目的，宗旨是让目的 Q 值的更新更为不乱。

更新：运用软更新，迟缓向 Actor 网络挨近。

Critic 网络（Q 网络）：

做用：预计当前形态 ss 和止动 aa 的 Q 值，即 Q(s,a)Q(s,a)，为 Actor 供给劣化目的。

更新：通过最小化取目的 Q 值的均方误差停行更新。

Target Critic 网络（目的 Q 网络）：

做用：生成 Q 值更新的目的，使得 Q 值更新更为不乱，减少振荡。

更新：运用软更新，迟缓向 Critic 网络挨近。

大口语评释：

1、DDPG真例化为actor，输入state输出action
2、DDPG真例化为actor_target
3、DDPG真例化为critic_target，输入neVt_state和actor_target(neVt_state)经DQN计较输出target_Q
4、DDPG真例化为critic，输入state和action输出current_Q，输入state和actor(state)【那个参数须要留心，不是action】经负均值计较输出actor_loss

5、current_Q 和target_Q停行critic的参数更新
6、actor_loss停行actor的参数更新

action真际上是batch_action，state真际上是batch_state，而batch_action != actor(batch_state)

因为actor是频繁更新的，而采样是随机采样，不是所有batch_action都能跟着actor的更新而同步更新

Critic网络的更新是一发而动全身的，相比于Actor网络的更新要复纯要重要很多

代码焦点更新公式

\[target\underline{~}Q = critic\underline{~}target(neVt\underline{~}state, actor\underline{~}target(neVt\underline{~}state)) \\target\underline{~}Q = reward + (1 - done) \times gamma \times target\underline{~}Q.detach() \]

上述代码取伪代码对应，意为计较预测Q值

\[critic\underline{~}loss = MSELoss(critic(state, action), target\underline{~}Q) \\critic\underline{~}optimizer.zero\underline{~}grad() \\critic\underline{~}loss.backward() \\critic\underline{~}optimizer.step() \]

上述代码取伪代码对应，意为运用均方误差丧失函数更新Critic

\[actor\underline{~}loss = -critic(state,actor(state)).mean() \\actor\underline{~}optimizer.zero\underline{~}grad() \\ actor\underline{~}loss.backward() \\ actor\underline{~}optimizer.step() \]

上述代码取伪代码对应，意为运用确定性战略梯度更新Actor

\[critic\underline{~}target.parameters().data=(tau \times critic.parameters().data + (1 - tau) \times critic\underline{~}target.parameters().data) \\ actor\underline{~}target.parameters().data=(tau \times actor.parameters().data + (1 - tau) \times actor\underline{~}target.parameters().data) \]

上述代码取伪代码对应，意为运用战略梯度更新目的网络

Actor和Critic的角涩：

Actor：卖力选择止动。它依据当前的形态输出一个确定性止动。

Critic：评价Actor的止动。它通过计较形态-止动值函数（Q值）来评价给定形态和止动的价值。

更新逻辑：

Critic的更新：

运用经历回放缓冲区（EVperience Replay）从中采样一批经历（形态、止动、奖励、下一个形态）。

计较目的Q值：运用目的网络（critic_target）来预计下一个形态的Q值（target_Q），并联结当前的奖励。

运用均方误差丧失函数（MSELoss）来更新Critic的参数，使得预测的Q值（target_Q）取当前Q值（current_Q）尽质濒临。

Actor的更新：

依据当前的形态（state）从Critic获得Q值的梯度（即对Q值相应付止动的偏导数）。

运用确定性战略梯度（DPG）的办法来更新Actor的参数，目的是最大化Critic评价的Q值。

个人了解：

DQN算法是将q_network中的参数每n轮一次复制到target_network里面

DDPG运用系数\(\tau\)来更新参数，将进修到的参数愈加soft地拷贝给目的网络

DDPG给取了actor-critic网络，所以比DQN多了两个网络

随机推荐

在百度工作一年半成功升职，这位AI程序员做对了什么｜对话文心...
浏览：37 时间：2025-01-28
Knit官网体验入口管理AI提示词prompt专业调试编辑...
浏览：11 时间：2025-02-14
贝尔摩得
浏览：28 时间：2024-09-30
第二届企业合规高峰论坛：聚焦AI时代企业合规新趋势...
浏览：40 时间：2025-01-21
如何＂战痘＂不留痕？不同类型痤疮治疗方法不同...
浏览：42 时间：2024-08-31

出售本站【域名】【外链】

强化学习算法笔记之【DDPG算法】

猜你喜欢

热门文章

随机推荐

推荐文章