强化学习-价值学习算法

IT业界
2025-08-27 08:24:02

Sarsa 理论解释

Sarsa是基于时序差分算法的，它的公式非常简单且易理解，不像策略梯度算法那样需要复杂的推导过程。

Sarsa的核心函数是 Q ( s , a ) Q(s, a) Q(s,a)，它的含义是在状态 s s s下执行 a a a，在后续轨迹中获取的期望总奖励。时序差分算法的核心思想，就是用当前获得的奖励加上下一个状态的价值估计来作为当前状态的价值估计，因此有以下公式，其中 V ( s t + 1 ) V(s_{t+1}) V(st+1)的含义是以状态 s t + 1 s_{t+1} st+1为起点，在后续的轨迹中获取的期望总奖励。 Q ( s t , a t ) ← r t + γ ⋅ V ( s t + 1 ) Q(s_t, a_t) \leftarrow r_t + \gamma \cdot V(s_{t+1}) Q(st,at)←rt+γ⋅V(st+1)

在这里我们做一步近似，在相同策略下智能体实际采取的动作为 a t + 1 a_{t + 1} at+1，那么我们认为 V ( s t + 1 ) V(s_{t+1}) V(st+1)和 Q ( s t + 1 , a t + 1 ) Q(s_{t+1}, a_{t+1}) Q(st+1,at+1)是近似相等的，因此我们可以得到Sarsa算法的核心公式： Q ( s t , a t ) ← r t + γ ⋅ Q ( s t + 1 , a t + 1 ) Q(s_t, a_t) \leftarrow r_t + \gamma \cdot Q(s_{t+1}, a_{t+1}) Q(st,at)←rt+γ⋅Q(st+1,at+1)

在这里，我们使用神经网络来拟合 Q ( s , a ) Q(s, a) Q(s,a)，在选取动作时采用 ϵ \epsilon ϵ-greedy策略，即有 ϵ \epsilon ϵ的概率随机选取一个动作， 1 − ϵ 1 - \epsilon 1−ϵ的概率选取 Q ( s , a ) Q(s, a) Q(s,a)最大的动作。

按照此策略我们在状态 s t s_t st时选取动作 a t a_t at，此时环境会返回状态 s t + 1 s_{t+1} st+1，则再按照此策略选取动作 a t + 1 a_{t+1} at+1，然后按照上述的公式来更新 Q ( s , a ) Q(s, a) Q(s,a)参数。由于这里我们使用神经网络来拟合参数，所以我们更新的方式是计算loss值，然后进行梯度下降。如下面所示，其中 l o s s f n loss_{fn} lossfn是指根据现有值和目标值来计算loss值的函数，在代码中采取的MSE均方误差函数。 q v a l u e = Q ( s , a ) q_{value} = Q(s, a) qvalue=Q(s,a) q t a r g e t = r t + γ ⋅ Q ( s t + 1 , a t + 1 ) q_{target} = r_t + \gamma \cdot Q(s_{t+1}, a_{t+1}) qtarget=rt+γ⋅Q(st+1,at+1) l o s s = l o s s f n ( q v a l u e , q t a r g e t ) loss = loss_{fn}(q_{value}, q_{target}) loss=lossfn(qvalue,qtarget)

代码

环境为python3.12，各依赖包均为最新版。

import random import gymnasium as gym import torch import torch.nn as nn from torch import tensor class QNet(torch.nn.Module): def __init__(self, action_state_dim, hidden_dim): """ 网络的输入由action和state连接而成，网络的输出是长度为1的向量，代表 q value。 action用one-hot向量表示，例如动作空间为A = {0, 1, 2}时，向量(1, 0, 0)和(0, 1, 0)分别代表动作a = 0和动作a = 1。 """ super(QNet, self).__init__() # 一个线性层 + 激活函数 + 一个线性层 self.network = nn.Sequential( nn.Linear(action_state_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, 1), ) def forward(self, x): x = self.network(x) return x class Agent: def __init__(self, state_dim, hidden_dim, action_dim, learning_rate, gamma, device, epsilon): # 策略网络 self.action_value_net = QNet(state_dim + action_dim, hidden_dim).to(device) # 创建优化器，优化器的作用是根据每个参数的梯度来更新参数 self.optimizer = torch.optim.Adam(self.action_value_net.parameters(), lr=learning_rate) # 折扣因子 self.gamma = gamma # 进行神经网络计算的设备 self.device = device # 探索策略，有epsilon的概率随机选取动作 self.epsilon = epsilon # 状态维度 self.state_dim = state_dim # 动作维度 self.action_dim = action_dim # 损失函数，根据当前值和目标值来计算得出损失值 self.loss_fn = nn.MSELoss() def take_action(self, state): # 随机探索 if random.random() < self.epsilon: return random.choice(range(self.action_dim)) # 生成一个对角线矩阵，矩阵的每一行元素代表一个动作 actions = torch.eye(self.action_dim).to(self.device) # 对state进行复制，actions中有多少个动作，就state复制为多少行 state = tensor(state, dtype=torch.float).to(self.device) states = state.unsqueeze(0).repeat(actions.shape[0], 1) # 连接actions和states矩阵，得到的action_states可以看做是一个batch的动作状态向量 action_states = torch.cat((actions, states), dim=1) # 将一个batch的动作状态向量输入到Q网络中，得到一组Q值 # 注意q_values的形状是(batch_size, 1)，我们将它转换成一维向量 q_values = self.action_value_net(action_states).view(-1) # 获取最大Q值对应的下标，下标的值就是采取的最优动作 max_value, max_index = torch.max(q_values, dim=0) return max_index.item() def update(self, transition): # 取出相关数据 reward = torch.tensor(transition['reward']).to(self.device) state = torch.tensor(transition['state']).to(self.device) next_state = torch.tensor(transition['next_state']).to(self.device) terminated = transition['terminated'] # 将数字action转换成one-hot action向量 action = torch.zeros(self.action_dim, dtype=torch.float).to(self.device) action[transition['action']] = 1. # 将数字next_action转换成one-hot next_action向量 next_action = torch.zeros(self.action_dim, dtype=torch.float).to(self.device) next_action[transition['next_action']] = 1. # 连接action和state向量 action_state = torch.cat((action, state), dim=0) next_action_state = torch.cat((next_action, next_state), dim=0) # 获取Q值 q_value = self.action_value_net(action_state)[0] # 计算目标Q值。一定要注意如果terminated为true，说明执行action后游戏就终止了 # 那么next_state和next_action是无意义的，它们的Q值应该为0 # 通过将Q值乘以(1. - float(terminated))的方式，来使其在终止时为0 q_target = reward + self.action_value_net(next_action_state)[0] * self.gamma \ * (1. - float(terminated)) # 计算损失值，第一个参数为当前Q值，第二个参数为目标Q值 loss = self.loss_fn(q_value, q_target) # 更新参数 self.optimizer.zero_grad() loss.backward() self.optimizer.step() if __name__ == '__main__': # 更新网络参数的学习率 learning_rate = 1e-3 # 训练轮次 num_episodes = 1000 # 隐藏层神经元数量 hidden_dim = 128 # 计算累计奖励时的折扣率 gamma = 0.98 epsilon = 0.2 # 如果存在cuda就用cuda，否则用cpu device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu") env = gym.make('CartPole-v1') # 获取状态维度，为4 state_dim = env.observation_space.shape[0] # 获取离散动作数量，为2 action_dim = env.action_space.n # 强化学习智能体 agent = Agent(state_dim, hidden_dim, action_dim, learning_rate, gamma, device, epsilon) for episode in range(num_episodes): # transition含义是，在state执行action后，环境返回reward、next_state、terminated # 根据next_state，继续采取next_action作为下一动作 transition = { 'state': None, 'action': None, 'next_state': None, 'next_action': None, 'reward': None, 'terminated': None } # 统计信息，游戏结束时获得的总奖励 sum_reward = 0 # reset返回的是一个元组，第一个元素是初始state值，第二个元素是一个字典 state = env.reset()[0] # 游戏终止信号 terminated = False action = agent.take_action(state) while not terminated: next_state, reward, terminated, _, _ = env.step(action) next_action = agent.take_action(next_state) # 为transition中添加当前的状态、动作等信息 transition['state'] = state transition['action'] = action transition['next_state'] = next_state transition['reward'] = reward transition['next_action'] = next_action transition['terminated'] = terminated # 一定确保这里会学习到terminated为true的那一步 agent.update(transition) sum_reward += reward # 进入下一状态 state = next_state action = next_action # 每10轮打印一次统计信息 if episode % 10 == 0: print(f"Episode: {episode}, Reward: {sum_reward}") DQN 理论解释

DQN全程Deep Q Learning，与Sarsa算法十分类似，依然是使用时序差分算法来优化 Q ( s , a ) Q(s, a) Q(s,a)函数。不过DQN的 Q ( s , a ) Q(s, a) Q(s,a)函数含义和优化方式与Sarsa略有不同。

DQN中 Q ( s , a ) Q(s, a) Q(s,a)的含义是在状态 s s s执行动作 a a a后，在后续的轨迹中所能获得的最大累积奖励，为了作区分也有人把DQN的 Q ( s , a ) Q(s, a) Q(s,a)表示为 Q ⋆ ( s , a ) Q^\star(s, a) Q⋆(s,a)，本文就不在作区分表示了。

DQN中 Q ( s , a ) Q(s, a) Q(s,a)的时序差分优化过程如下，其中 A A A是动作空间： Q ( s t , a t ) ← r t + γ ⋅ max ⁡ a ′ ∈ A Q ( s t + 1 , a ′ ) Q(s_t, a_t) \leftarrow r_t + \gamma \cdot \max\limits_{a' \in A} Q(s_{t+1}, a') Q(st,at)←rt+γ⋅a′∈AmaxQ(st+1,a′)

使用神经网络来拟合 Q ( s , a ) Q(s, a) Q(s,a)，在选取动作时依然采用 ϵ \epsilon ϵ-greedy策略。按照此策略我们在状态 s t s_t st时选取动作 a t a_t at，此时环境会返回状态 s t + 1 s_{t+1} st+1，然后遍历所有的动作，选取 Q ( s t + 1 , a ′ ) Q(s_{t+1}, a') Q(st+1,a′)最大的动作 a ′ a' a′，然后计算loss值。 q v a l u e = Q ( s , a ) q_{value} = Q(s, a) qvalue=Q(s,a) q t a r g e t = r t + γ ⋅ max ⁡ a ′ ∈ A Q ( s t + 1 , a ′ ) q_{target} = r_t + \gamma \cdot \max\limits_{a' \in A} Q(s_{t+1}, a') qtarget=rt+γ⋅a′∈AmaxQ(st+1,a′) l o s s = l o s s f n ( q v a l u e , q t a r g e t ) loss = loss_{fn}(q_{value}, q_{target}) loss=lossfn(qvalue,qtarget)

与Sarsa相同，损失函数的计算方式依然选择MSE均方误差。

代码

环境为python3.12，各依赖包均为最新版。实现代码与Sarsa基本相同，仅有两处做了修改，修改位置已在代码中注释。

import random import gymnasium as gym import torch import torch.nn as nn from torch import tensor class QNet(torch.nn.Module): def __init__(self, action_state_dim, hidden_dim): """ 网络的输入由action和state连接而成，网络的输出是长度为1的向量，代表 q value。 action用one-hot向量表示，例如动作空间为A = {0, 1, 2}时，向量(1, 0, 0)和(0, 1, 0)分别代表动作a = 0和动作a = 1。 """ super(QNet, self).__init__() # 一个线性层 + 激活函数 + 一个线性层 self.network = nn.Sequential( nn.Linear(action_state_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, 1), ) def forward(self, x): x = self.network(x) return x class Agent: def __init__(self, state_dim, hidden_dim, action_dim, learning_rate, gamma, device, epsilon): # 策略网络 self.action_value_net = QNet(state_dim + action_dim, hidden_dim).to(device) # 创建优化器，优化器的作用是根据每个参数的梯度来更新参数 self.optimizer = torch.optim.Adam(self.action_value_net.parameters(), lr=learning_rate) # 折扣因子 self.gamma = gamma # 进行神经网络计算的设备 self.device = device # 探索策略，有epsilon的概率随机选取动作 self.epsilon = epsilon # 状态维度 self.state_dim = state_dim # 动作维度 self.action_dim = action_dim # 损失函数，根据当前值和目标值来计算得出损失值 self.loss_fn = nn.MSELoss() def take_action(self, state): # 随机探索 if random.random() < self.epsilon: return random.choice(range(self.action_dim)) # 生成一个对角线矩阵，矩阵的每一行元素代表一个动作 actions = torch.eye(self.action_dim).to(self.device) # 对state进行复制，actions中有多少个动作，就state复制为多少行 state = tensor(state, dtype=torch.float).to(self.device) states = state.unsqueeze(0).repeat(actions.shape[0], 1) # 连接actions和states矩阵，得到的action_states可以看做是一个batch的动作状态向量 action_states = torch.cat((actions, states), dim=1) # 将一个batch的动作状态向量输入到Q网络中，得到一组Q值 # 注意q_values的形状是(batch_size, 1)，我们将它转换成一维向量 q_values = self.action_value_net(action_states).view(-1) # 获取最大Q值对应的下标，下标的值就是采取的最优动作 max_value, max_index = torch.max(q_values, dim=0) return max_index.item() def update(self, transition): # 取出相关数据 reward = torch.tensor(transition['reward']).to(self.device) state = torch.tensor(transition['state']).to(self.device) next_state = torch.tensor(transition['next_state']).to(self.device) terminated = transition['terminated'] # 将数字action转换成one-hot action向量 action = torch.zeros(self.action_dim, dtype=torch.float).to(self.device) action[transition['action']] = 1. # 连接action和state向量 action_state = torch.cat((action, state), dim=0) # 获取Q值 q_value = self.action_value_net(action_state)[0] """ 与Sarsa算法主要不同的地方，在于q_target的计算方式：类似于take_action函数中的内容，这里需要把所有动作都进行one-hot操作，与状态连接并输入到网络中，获取所有动作的q_value中最大的值，作为计算q_target的一部分。 """ next_actions = torch.eye(self.action_dim).to(self.device) next_states = next_state.unsqueeze(0).repeat(next_actions.shape[0], 1) next_action_states = torch.cat((next_actions, next_states), dim=1) q_target = reward + torch.max(self.action_value_net(next_action_states)) \ * self.gamma * (1. - float(terminated)) # 计算损失值，第一个参数为当前Q值，第二个参数为目标Q值 loss = self.loss_fn(q_value, q_target) # 更新参数 self.optimizer.zero_grad() loss.backward() self.optimizer.step() if __name__ == '__main__': # 更新网络参数的学习率 learning_rate = 1e-3 # 训练轮次 num_episodes = 1000 # 隐藏层神经元数量 hidden_dim = 128 # 计算累计奖励时的折扣率 gamma = 0.98 epsilon = 0.2 # 如果存在cuda就用cuda，否则用cpu device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu") env = gym.make('CartPole-v1') # 获取状态维度，为4 state_dim = env.observation_space.shape[0] # 获取离散动作数量，为2 action_dim = env.action_space.n # 强化学习智能体 agent = Agent(state_dim, hidden_dim, action_dim, learning_rate, gamma, device, epsilon) for episode in range(num_episodes): # transition含义是，在state执行action后，环境返回reward、next_state、terminated # 根据next_state，继续采取next_action作为下一动作 transition = { 'state': None, 'action': None, 'next_state': None, 'next_action': None, 'reward': None, 'terminated': None } # 统计信息，游戏结束时获得的总奖励 sum_reward = 0 # reset返回的是一个元组，第一个元素是初始state值，第二个元素是一个字典 state = env.reset()[0] # 游戏终止信号 terminated = False while not terminated: """与Sarsa算法略有不同的地方，这里不需要再获取next_action""" action = agent.take_action(state) next_state, reward, terminated, _, _ = env.step(action) # 为transition中添加当前的状态、动作等信息 transition['state'] = state transition['action'] = action transition['next_state'] = next_state transition['reward'] = reward transition['terminated'] = terminated # 一定确保这里会学习到terminated为true的那一步 agent.update(transition) sum_reward += reward # 进入下一状态 state = next_state # 每10轮打印一次统计信息 if episode % 10 == 0: print(f"Episode: {episode}, Reward: {sum_reward}")

标签：

强化学习-价值学习算法由讯客互联IT业界栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“强化学习-价值学习算法”

上一篇
【深度学习在图像配准中的应用与挑战】

下一篇
NPM环境搭建指南