Python强化学习入门教程_Q-learning与策略优化实践

日期：2025-12-30 00:00 / 作者：舞夢輝影

Q-learning是一种无模型强化学习算法，通过Q表存储状态-动作价值，按贝尔曼方程迭代更新：Q(s,a)←Q(s,a)+α[r+γmaxₐ′Q(s′,a′)−Q(s,a)]，结合ε-greedy策略实现探索与利用平衡。

Q-learning 是强化学习中最经典、最易上手的无模型（model-free）算法之一，适合初学者理解“试错—奖励—价值更新”的核心逻辑。它不依赖环境动态模型，仅靠与环境交互产生的状态-动作-奖励序列，就能逐步学习最优策略。

Q-learning 维护一张 Q 表（Q-table），行是状态（state），列是动作（action），每个单元格存的是当前估计的“动作价值”——即从该状态执行该动作后，未来能获得的累计奖励期望值（带折扣）。算法通过贝尔曼方程不断迭代更新：

Q(s, a) ← Q(s, a) + α [r + γ maxₐ′ Q(s′, a′) − Q(s, a)]

其中：
α 是学习率（如 0.1），控制更新步长；
γ 是折扣因子（如 0.99），决定未来奖励的重要性；
r 是即时奖励；
s′ 是执行 a 后到达的新状态。

关键点：
• 每次更新只依赖当前经验（s, a, r, s′），无需完整轨迹；
• maxₐ′ Q(s′, a′) 体现“贪婪选择”，即假设后续都选最优动作；
• 算法本身是 off-policy，行为策略（如 ε-greedy）可探索，但更新始终朝向最优动作价值靠拢。

FrozenLake 是 OpenAI Gym 中的经典网格世界环境：4×4 冰面，有起点 S、目标 G、陷阱 H 和安全冰块 F。智能体需在不掉进陷阱的前提下走到目标，每步奖励为 0，成功抵达得 +1，掉坑得 0。

代码要点（精简版）：

运行 10000 轮后，典型表现是胜率从接近 0% 稳步升至 70–85%，说明 Q 表已学到较稳健路径。

基础 Q-learning 在简单环境效果好，但面对高维状态（如图像）、连续动作或稀疏奖励时会失效。实际应用中常结合以下优化：

很多初学者卡在“Q 表不收敛”或“策略始终乱走”，问题往往不在代码，而在：

建议先打印中间 Q 表、记录每轮总奖励、可视化策略热力图，比盲目调参更有效。