上置信界(UCB):在给定置信水平下,对某个未知量(如均值、回报、概率)可能取值范围的上限估计。在机器学习/强化学习中常用作一种决策规则:用“估计值 + 不确定性奖励”来兼顾利用(exploitation)与探索(exploration)。
/ˈʌpər ˈkɑːnfɪdəns baʊnd/
该短语由三部分构成:upper(上方的)+ confidence(统计学中的“置信”,表示把握程度)+ bound(界限/上界)。它源自统计推断里“置信区间(confidence interval)”的概念,其中区间的上端点就是 upper confidence bound;后来被广泛用于多臂老虎机(multi-armed bandit)与贝叶斯优化等算法命名与描述中(如 UCB、GP-UCB)。
The algorithm chooses the option with the highest upper confidence bound.
算法会选择上置信界最高的那个选项。
In a multi-armed bandit setting, UCB adds an uncertainty bonus to the estimated reward so that rarely tried actions are explored more.
在多臂老虎机问题中,UCB 会在回报估计上加上“不确定性奖励”,从而让较少尝试的动作获得更多探索机会。