V2EX  ›  英汉词典

Q-Learning

释义 Definition

Q-learning(Q 学习):一种无模型(model-free)的强化学习算法,通过反复试错来学习在每个状态下选择动作的“价值”(Q 值),从而得到能获得更高长期回报的策略。常见于马尔可夫决策过程(MDP)与控制问题。(在更广义语境里也可泛指基于 Q 函数的学习方法。)

发音 Pronunciation (IPA)

/ˈkjuː ˌlɝːnɪŋ/

例句 Examples

The agent uses Q-learning to find the best action in each state.
智能体使用 Q 学习来找到每个状态下的最佳动作。

With enough exploration, Q-learning can converge to an optimal policy even without knowing the environment’s transition model.
在进行足够探索的情况下,即使不知道环境的状态转移模型,Q 学习也可能收敛到最优策略。

词源 Etymology

“Q”来自强化学习中的 Q-function(quality function,动作价值函数),用来表示“在某个状态采取某个动作的长期价值”。“learning”表示通过数据与经验进行学习。该术语与经典算法通常归功于 Christopher Watkins(20 世纪 80 年代末提出)。

相关词 Related Words

文学与经典著作 Literary Works

  • **Watkins, C. J. C. H.**(1989/1992 相关成果):提出并系统化 Q-learning 的早期论文与博士研究工作中讨论该算法。
  • Sutton & Barto, Reinforcement Learning: An Introduction:作为强化学习经典教材,介绍 Q-learning、TD 方法与收敛性质。
  • Russell & Norvig, Artificial Intelligence: A Modern Approach:在强化学习/序列决策相关章节中提及并概述 Q-learning 及其应用背景。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   819 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 23:17 · PVG 07:17 · LAX 15:17 · JFK 18:17
♥ Do have faith in what you're doing.