主页 > 手机  > 

强化学习入门

强化学习入门
1 强化学习分类 1.1 是否理解环境 不理解环境 Model-free RL a. 必须根据真实世界的反馈进行调整理解环境 Model-based RL a. 可以根据模型推理未来变化,不必依赖当前世界的反馈 1.2 概率/价值 基于概率 Policy-based a. 输出每个动作的概率 b. Policy gradients基于价值 Value-based a. 输出每个动作的价值 b. Q learning / Sarsa 1.3 回合/单步更新 回合更新 Monte-Carlo update a. 游戏直到结束,才能更新一次单步更新 Temporal-Difference update a. 游戏每进行一步,就可以更新一次 1.4 在线/离线 在线学习 a. 走一步更新一步 b. Sarsa离线学习 a. 可以先存储知识,到一定步之后再更新 b. Q learning / Deep Q network 2 PPO与GRPO

去掉Value model(Critic model),无需额外的价值函数

标签:

强化学习入门由讯客互联手机栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“强化学习入门