Kyle 的强化学习与机器学习博客

// Archive

# 马尔可夫决策过程（MDP）

强化学习课堂笔记 2 / 2

2026年04月22日 4 min read 863 字

从马尔可夫链出发，系统梳理 MDP 的形式化定义（马尔可夫性、时齐性），并延伸到 TMDP 与 POMDP 的现实意义与转化技巧，为后续 Value Function 与 Bellman 方程打基础。面向统计/机器学习初学者的推导型笔记

强化学习机器学习 MDP 随机过程 Sequential Decision Making

# 多臂老虎机问题（MAB）

强化学习课堂笔记 1 / 2

2026年04月22日 7 min read 1,334 字

从问题定义、价值估计、增量更新到 epsilon-greedy，UCB 和 Thompson Sampling算法的多臂老虎机入门笔记。

强化学习 bandit 机器学习 epsilon-greedy UCB Thompson Sampling