强化学习笔记7——DDPG到TD3
- 手机
- 2025-09-09 08:33:02

前提:基于TD 的方法多少都会有高估问题,即Q值偏大。原因两个:一、TD目标是真实动作的高估。 二:自举法高估。
DDPG 属于AC方法:异策略,适合连续动作空间,因为他的策略网络直接输出的动作,是向量就表示执行的动作。 而之前的PPO是输出动作的均值和方差,DQN 等输出每个动作的概率
################## ### ###################相当于 TDerror 的两部分用两个网络预测 ###################### ########
TD3参考
TD3 相比DDPG 改进其实就是 针对不稳定、高估问题,加了两个策略网络和价值网络。即targetNet 和 mainNet ,和之前DQN的做法很像。
针对 Critic网络预测Q 偏大问题,设置两个Critic 同时估计Q ,然后选择小的那一个Q再做error
强化学习笔记7——DDPG到TD3由讯客互联手机栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“强化学习笔记7——DDPG到TD3”