# 马尔可夫决策过程(MDP)
强化学习课堂笔记 2 / 2
4 min read 863 字
从马尔可夫链出发,系统梳理 MDP 的形式化定义(马尔可夫性、时齐性),并延伸到 TMDP 与 POMDP 的现实意义与转化技巧,为后续 Value Function 与 Bellman 方程打基础。面向统计/机器学习初学者的推导型笔记
从马尔可夫链出发,系统梳理 MDP 的形式化定义(马尔可夫性、时齐性),并延伸到 TMDP 与 POMDP 的现实意义与转化技巧,为后续 Value Function 与 Bellman 方程打基础。面向统计/机器学习初学者的推导型笔记
从问题定义、价值估计、增量更新到 epsilon-greedy,UCB 和 Thompson Sampling算法的多臂老虎机入门笔记。