强化学习

强化学习入门笔记,主要整理 MDP、价值函数、Bellman 方程、Q-learning、Policy Gradient、Actor-Critic 以及强化学习训练中常见的问题。

2026-04-06 · 804 words · 强化学习 · MDP · Q-learning · PPO | AI笔记