Day4：强化学习之Qlearning走迷宫

开源代码
2025-09-02 07:09:01

一、迷宫游戏 1.环境已知

迷宫环境是定义好的，障碍物位置和空位置是已知的；

# 定义迷宫 grid = [ [0, 0, 0, 1, 0], [0, 1, 0, 1, 0], [0, 1, 0, 0, 0], [0, 0, 0, 1, 0], [0, 1, 1, 1, 0] ] 2.奖励方式已知

如果碰到障碍物则得-1，如果到终点则得10分，正常走一步-0.1分。

# 检查是否越界或碰到障碍 if 0 <= row < self.rows and 0 <= col < self.cols and self.grid[row][col] == 0: # 满足在边界内部，且网格为空（对应数值为0） self.state = (row, col) #可以走到这个位置 else: return self.state, -1, False # 碰到障碍或越界，返回惩罚-1，标记未完成 # 检查是否到达终点 if self.state == self.goal: return self.state, 10, True # 到达终点，返回奖励10，标记完成 else: return self.state, -0.1, False # 正常移动，返回小惩罚-0.1，标记未完成 3.动作选择策略

ε-greedy策略选择动作。

def choose_action(self, state): # 根据ε-greedy策略选择动作，以epsilon的概率选择探索，以1-epsilon的概率选择利用 # 一般随着时间的推移，epsilon逐渐减小，即减小探索，增大利用概率 # 如果随机抽样小于epsilon，则选择探索，即随机抽取动作 if random.uniform(0, 1) < self.epsilon: return random.choice([0, 1, 2, 3]) # 探索 # 如果随机抽样大于等于epsilon，则选择利用，即利用现有规则进行动作选择 else: return np.argmax(self.q_table[state]) # 利用，state是当前状态，为二维坐标 4.Q值更新方法

# Q值更新参数方法 q(st,at)=q(st,at)+alpha*(reward+gamma*max(q)-q(st，at)) self.q_table[state][action] += self.alpha * (reward + self.gamma * best_next_q - self.q_table[state][action]) state = next_state # 状态更新 5.Qlearning计算流程图

二、代码实现 import numpy as np import random # 定义迷宫环境 class Maze: def __init__(self, grid, start, goal): self.grid = grid # 迷宫网格，0表示空地，1表示障碍 self.start = start # 起点 self.goal = goal # 终点 self.rows, self.cols = len(grid), len(grid[0]) # 网格行、列边界 self.state = start # 当前状态 def reset(self): # 重置迷宫状态 self.state = self.start return self.state def step(self, action): # 根据动作移动智能体 row, col = self.state if action == 0: # 上 row -= 1 # 行减1 elif action == 1: # 下 row += 1 # 行加1 elif action == 2: # 左 col -= 1 # 列-1 elif action == 3: # 右 col += 1 # 列+1 # 检查是否越界或碰到障碍 if 0 <= row < self.rows and 0 <= col < self.cols and self.grid[row][col] == 0: # 满足在边界内部，且网格为空（对应数值为0） self.state = (row, col) #可以走到这个位置 else: return self.state, -1, False # 碰到障碍或越界，返回惩罚-1，标记未完成 # 检查是否到达终点 if self.state == self.goal: return self.state, 10, True # 到达终点，返回奖励10，标记完成 else: return self.state, -0.1, False # 正常移动，返回小惩罚-0.1，标记未完成 def render(self): # 可视化迷宫 for r in range(self.rows): # 遍历状态 for c in range(self.cols): # 遍历动作 if (r, c) == self.state: # 对于当前位置，用字母A表示 print("A", end=" ") # 智能体位置 elif (r, c) == self.goal: #对于目标位置用字母G表示 print("G", end=" ") # 终点 elif self.grid[r][c] == 1: # 对于障碍物用＃表示 print("#", end=" ") # 障碍 else: # 对于空地用0表示 print("0", end=" ") # 空地 print() print() # Q-learning算法 class QLearning: def __init__(self, maze, alpha=0.1, gamma=0.99, epsilon=0.1): self.maze = maze # 迷宫环境 self.alpha = alpha # 学习率 self.gamma = gamma # 折扣因子 self.epsilon = epsilon # 探索概率 self.q_table = np.zeros((maze.rows, maze.cols, 4)) # Q表，4个动作，三个维度 def choose_action(self, state): # 根据ε-greedy策略选择动作，以epsilon的概率选择探索，以1-epsilon的概率选择利用 # 一般随着时间的推移，epsilon逐渐减小，即减小探索，增大利用概率 # 如果随机抽样小于epsilon，则选择探索，即随机抽取动作 if random.uniform(0, 1) < self.epsilon: return random.choice([0, 1, 2, 3]) # 探索 # 如果随机抽样大于等于epsilon，则选择利用，即利用现有规则进行动作选择 else: return np.argmax(self.q_table[state]) # 利用，state是当前状态，为二维坐标 def train(self, episodes): # 训练 for episode in range(episodes): state = self.maze.reset() # 重置状态 done = False # 训练完成标志 total_reward = 0 # 总奖励 while not done: action = self.choose_action(state) # 选择动作，根据1-epsilon策略 next_state, reward, done = self.maze.step(action) #根据动作移动智能体 total_reward += reward # Q-learning更新规则 best_next_q = np.max(self.q_table[next_state]) # Qtable里面下一状态对应Q的最大值 # Q值更新参数方法 q(st,at)=q(st,at)+alpha*(reward+gamma*max(q)-q(st，at)) self.q_table[state][action] += self.alpha * (reward + self.gamma * best_next_q - self.q_table[state][action]) state = next_state # 状态更新 # 每当完成100回合，则输出一次总奖励数据 if (episode + 1) % 100 == 0: print(f"Episode {episode + 1}: Total Reward = {total_reward}") def test(self): # 测试训练后的策略 state = self.maze.reset() done = False steps = [] while not done: action = np.argmax(self.q_table[state]) #选择Q表中最大的动作 next_state, _, done = self.maze.step(action) steps.append(action) state = next_state self.maze.render() # 可视化迷宫 print("Steps taken:", steps) #输出动作集合，每一步动作都被储存倒steps【】列表中 # 定义迷宫 grid = [ [0, 0, 0, 1, 0], [0, 1, 0, 1, 0], [0, 1, 0, 0, 0], [0, 0, 0, 1, 0], [0, 1, 1, 1, 0] ] start = (0, 0) # 起点 goal = (4, 4) # 终点 # 创建迷宫和Q-learning对象 maze = Maze(grid, start, goal) ql = QLearning(maze) # 训练和测试 ql.train(episodes=1000) #训练1000轮 ql.test() #测试三、结果展示

标签：

Day4：强化学习之Qlearning走迷宫由讯客互联开源代码栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“Day4：强化学习之Qlearning走迷宫”

上一篇
第二章：16.3构建决策树的过程

下一篇
ELF，链接，加载