强化学习入门
- 手机
- 2025-08-25 23:12:02

1 强化学习分类 1.1 是否理解环境 不理解环境 Model-free RL a. 必须根据真实世界的反馈进行调整理解环境 Model-based RL a. 可以根据模型推理未来变化,不必依赖当前世界的反馈 1.2 概率/价值 基于概率 Policy-based a. 输出每个动作的概率 b. Policy gradients基于价值 Value-based a. 输出每个动作的价值 b. Q learning / Sarsa 1.3 回合/单步更新 回合更新 Monte-Carlo update a. 游戏直到结束,才能更新一次单步更新 Temporal-Difference update a. 游戏每进行一步,就可以更新一次 1.4 在线/离线 在线学习 a. 走一步更新一步 b. Sarsa离线学习 a. 可以先存储知识,到一定步之后再更新 b. Q learning / Deep Q network 2 PPO与GRPO
去掉Value model(Critic model),无需额外的价值函数
上一篇
MySQL(2)索引篇
下一篇
redis的缓存击穿,雪崩,穿透