深度强化进修-战略梯度算法推导
弁言之前咱们探讨过DQN算法Vff1a;、Double DQN算法Vff1a;、Dueling DQN算法Vff1a;以及D3QN算法Vff1a;Vff0c;那些算法正在求解最劣战略的历程中试图预计最劣价值函数Vff0c;所以那些算法都被称为最劣价值算法(optimal ZZZalue algorithm)。
但是求解最劣战略梯度纷歧定要预计最劣价值函数Vff0c;战略梯度算法(policy gradient algorithm)试图用含参函数近似最劣战略Vff0c;并通过迭代更新参数值。原文给取两种办法推导战略梯度算法Vff0c;法一的推导历程比较简略Vff0c;可以曲不雅观理解战略梯度算法的本理Vff0c;但是不太严谨Vff0c;详细可以参考李宏毅教师解说PG算法的室频Vff1a;。法二的推导历程略微复纯一点Vff0c;但是推导历程严谨Vff0c;Reinforce算法便是法二推导结果的曲不雅观表示。
1 战略梯度算法推导强化进修的目的正在于最大化累积冀望回报Vff0c;战略梯度算法给出了冀望回报和战略梯度之间的干系。给取函数近似法预计最劣战略
如果智能体取环境交互一次的经历轨迹为
原次交互的累积回报为
原次经历轨迹显现的概率为
此中Vff0c;
真正在的累积回报为采样获得累积回报的冀望Vff0c;即累积冀望回报为
对
留心Vff1a;式中的
由于
这么
上面求和标记可以通过采样打消Vff0c;即N次采样后Vff0c;获得
对
对
将
战略梯度Vff1a;
至此Vff0c;咱们完成为了战略梯度算法的推导Vff0c;沿着
战略
Bellman冀望方程Vff1a;
对以上两式对于
将
正在战略
那样就获得了从
所以有
思考到
所以
又由于
因而
战略梯度Vff1a;
正在每一个回折完毕后Vff0c;就回折中的每一步操做如下迭代式更新
那样的算法称为简略的战略梯度算法Vff0c;R.Willims称它为“REward Increment=NonnegatiZZZe Factor V Offset Reinforcement V Characteristic Eligibility”(REINFORCE)Vff0c;默示删质
正在详细的更新历程中Vff0c;纷歧定要严格给取那样的模式。当给取主动微分的软件包来进修参数时Vff0c;可以界说单步的丧失为
来了! 中公教育推出AI数智课程,虚拟数字讲师“小鹿”首次亮...
浏览:82 时间:2025-01-13变美指南 | 豆妃灭痘舒缓组合拳,让你过个亮眼的新年!...
浏览:63 时间:2024-11-10零基础也能爆款!DeepSeek+剪映AI短视频全流程实战解...
浏览:14 时间:2025-02-10CMake 中的调试技巧:掌握使用 CMake 进行调试的技...
浏览:35 时间:2025-01-28大学生在社交媒体上的使用频率、偏好和对其影响的看法调查研究 ...
浏览:40 时间:2025-01-10英特尔StoryTTS:新数据集让文本到语音(TTS)表达更...
浏览:0 时间:2025-02-23PyCharm安装GitHub Copilot(最好用的AI...
浏览:5 时间:2025-02-22JetBrains IDE与GitHub Copilot的绝...
浏览:5 时间:2025-02-22照片生成ai舞蹈软件有哪些?推荐5款可以一键生成跳舞视频的A...
浏览:3 时间:2025-02-22