主页 > 手机 >

强化学习笔记7——DDPG到TD3

手机
2025-09-09 08:33:02

强化学习笔记7——DDPG到TD3

前提：基于TD 的方法多少都会有高估问题，即Q值偏大。原因两个：一、TD目标是真实动作的高估。二：自举法高估。

DDPG 属于AC方法：异策略，适合连续动作空间，因为他的策略网络直接输出的动作，是向量就表示执行的动作。而之前的PPO是输出动作的均值和方差，DQN 等输出每个动作的概率

################## ### ###################相当于 TDerror 的两部分用两个网络预测 ###################### ########

TD3参考

TD3 相比DDPG 改进其实就是针对不稳定、高估问题，加了两个策略网络和价值网络。即targetNet 和 mainNet ,和之前DQN的做法很像。

针对 Critic网络预测Q 偏大问题，设置两个Critic 同时估计Q ，然后选择小的那一个Q再做error

标签：

强化学习笔记7——DDPG到TD3由讯客互联手机栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“强化学习笔记7——DDPG到TD3”

上一篇
SpringAI发布！让Java紧跟AI赛道！

下一篇
用命令模式设计一个JSBridge用于JavaScript与