# 多臂老虎机问题(MAB)
强化学习课堂笔记 1 / 2
7 min read 1,334 字
从问题定义、价值估计、增量更新到 epsilon-greedy,UCB 和 Thompson Sampling算法的多臂老虎机入门笔记。
从问题定义、价值估计、增量更新到 epsilon-greedy,UCB 和 Thompson Sampling算法的多臂老虎机入门笔记。
从马尔可夫链出发,系统梳理 MDP 的形式化定义(马尔可夫性、时齐性),并延伸到 TMDP 与 POMDP 的现实意义与转化技巧,为后续 Value Function 与 Bellman 方程打基础。面向统计/机器学习初学者的推导型笔记