马尔可夫决策过程(常缩写为 MDP):一种用于描述“在不确定环境中做序列决策”的数学框架。它通常由状态(states)、动作(actions)、状态转移概率(transition probabilities)和奖励(rewards)组成,核心假设是“马尔可夫性”——下一步只依赖当前状态与动作,而不依赖更久远的历史。(该术语在强化学习、运筹学与控制理论中非常常见。)
/ˈmɑːrkoʊv dɪˈsɪʒən ˈprɑːsɛs/
A Markov decision process models how an agent chooses actions to maximize reward.
马尔可夫决策过程用于刻画智能体如何选择动作以最大化奖励。
In reinforcement learning, many problems are formulated as a Markov decision process with unknown transition dynamics.
在强化学习中,许多问题会被表述为具有未知状态转移规律的马尔可夫决策过程。
“Markov” 来自俄国数学家 Andrey Markov(安德烈·马尔可夫),指具有“无记忆性/马尔可夫性”的随机过程思想;“decision process” 指“决策过程”。合起来强调:在随机环境里做连续决策时,只需要当前状态(及所选动作)就能描述未来的概率与回报结构。