// Series / 强化学习课堂笔记

# 多臂老虎机问题（MAB）

2026年04月22日 7 min read 1,334 字

从问题定义、价值估计、增量更新到 epsilon-greedy，UCB 和 Thompson Sampling算法的多臂老虎机入门笔记。

2026年04月22日 4 min read 863 字

从马尔可夫链出发，系统梳理 MDP 的形式化定义（马尔可夫性、时齐性），并延伸到 TMDP 与 POMDP 的现实意义与转化技巧，为后续 Value Function 与 Bellman 方程打基础。面向统计/机器学习初学者的推导型笔记