最大熵原理:在已知约束条件(如均值、总量、某些统计量等)下,选择熵最大的概率分布作为最合理的推断,因为它在不违背已知信息的前提下最少引入额外假设。常用于统计物理、信息论、机器学习与自然语言处理等领域。(在不同学科中也可能有不同表述与扩展。)
/ˈmæksɪməm ˈɛntrəpi ˈprɪnsəpəl/
The maximum entropy principle helps us choose a probability distribution when data is limited.
最大熵原理帮助我们在数据有限时选择一个概率分布。
Subject to constraints on expected features, the maximum entropy principle yields the least biased model consistent with what we know.
在满足特征期望等约束的前提下,最大熵原理会给出与已知信息一致且偏见最小的模型。
该术语由三部分构成:maximum(最大)+ entropy(熵)+ principle(原理)。其中 entropy 源自希腊语词根,后来在热力学中用于度量“无序/分散”,在信息论中转化为对“不确定性”的度量;“最大熵原理”的核心思想是:在信息不足时,用“最大不确定性”的方式来避免主观臆断。现代形式在20世纪由 E. T. Jaynes 在统计物理与推断框架中系统化推广。