一篇文章读懂 A/B 测试背后的统计学原理

排版控戳这里啦：

为了可以让大家更好地理解 A/B Testing 背后的统计学知识，我们之前已经发过几篇深度分析文章；但是这些文章中涉及的一些术语和统计学知识，对一些基础不太好的同学难免会造成困惑，为了可以让大家更好地理解这后面蕴藏的学术逻辑和算法基础，我们特地从非学术的角度整理出一期内容，献给大家参考。

A/B 测试是一种对比试验，在试验过程中，我们从总体中抽取一些样本进行数据统计，进而得出对总体参数的一个评估。我们能从试验数据中得出有效结论的科学基础是基于统计学原理。

从 A/B 测试的试验原理来看，它是统计学上假设检验(显著性检验)的一种形式。

既然涉及统计学了，我们先来了解一些基础概念，这些会对我们理解这些内容有很大帮助。在现在的 Appadhoc 平台做测试时，我们通过对试验数据的解读来确认哪个版本的效果更好；整个过程就其实相当于在做一个对比试验，通过综合对比原始版和试验版本的样本数据，从而判断这两个版本存在差异或者相同的结论。

首先，在试验过程中存在 2 个假设，这两个假设的关系我们需要先搞清楚。原假设：我们希望通过试验结果推翻的假设备择假设：我们希望通过试验结果验证的假设

我们在做 A/B 测试时，利用试验样本数据判断备择假设是否成立。逻辑上运用反证法，统计上依据小概率思想。原假设和备择假设是一个完备事件组，而且相互对立。在一项假设检验中，原假设和备择假设必有一个成立，而且如果其中一个不成立则必须无条件接受另一个。

在 A/B 测试过程中，因为我们试验的目的是通过反证法证明测试版本和对照版本有明显的不同（提升），所以在这个场景中，原假设就是原始版本和试验版本无差异，而备择假设就是这两个版本存在差异；这也很好理解，因为我们肯定不希望做了半天测试，得到的结果是两个版本一点差异都没有吧？

现在中心思想明确了，我们的做 A/B 测试的试验的目的就是推翻 2 个版本无差异的原假设，验证他们有差异的备择假设。

既然做试验时，我们通过样本数据去验证我们的观点，那肯定会有犯错的概率，为了得到科学的试验结果，我们则需要尽可能减少这些可能导致我们队试验结果做出误判的概率。第一类错误：原假设为真时拒绝了原假设首先我们容易犯的就是第一类错误，就是原假设为真时拒绝了原假设，说白了就是过来就是 2 个版本无差异时候，我们错误的认为他们有差异（从统计学角度讲也叫弃真错误）这个错误的后果非常严重，所以我们把这它的标准设一个值 0.05 ，它其实就是一个概率，这个概率就是我们容许自己出错的概率。

这个就是 5%就是在统计学里称作 α , 它代表着我们这个试验结果的置信水平。与这个置信水平相对应的就是置信区间的置信度，由 1- α 得出，所以你在这里看到如果 α 是 0.05 ，那置信度就是 0.95 ，也就是说，如果我们容许自己出错的几率是 5%，那我们将得到一个有 95% 的可能性包含真实的总体均值区间范围，如果你把这个 α 调整成 0.07 ，那你的置信区间的置信度将变成 93%。

由于 α 是我们自己设置的，那么当然需要通过数据去验证一下，这个通过计算出来的值就是 p-value ， p 的定义就是，如果两个版本无差异的前提下，我们得到这个试验数据的概率。

p-value 是计算出的， α 是我们自己设定的。

p <= α 则意味着我们的测试得到了统计显著的结果, 因为只有我们得到的这个 p 的概率越小，我就可以越有信心的地根据小概率事件不会发生的判断依据，从而推翻原假设，接受备择假设。（假设 p 值 0.04 那么意味着如果原假设为真，我们通过抽样得到这样一个样本数据的可能性只有 4%。则我可以认为此次试验发生了小概率事件。根据小概率事件不会发生的判断依据，我们可以反证认为原假设不成立，接受备择假设的事实。）

p 值核算涉及样本均值，样本数量，和标准差。第二类错误：原假设为假时接受了原假设减少了第一类错误后，还有另一种错误会影响我们的决断，

那就是原假设为假时接受了原假设，说白了就是 2 个版本有差异时候，我们错误的认为他们没有差异，这个错误的概率在统计学角度也称为取伪错误，记为 β ），这个概率可以相对大一些，业界大约定俗成的一个标准就是 10%和 20%的概率。

和显著性水平一样，为了避免我们犯第二类错误，我们需要通核算 β 从而计算出另一个参数来给我们参考，就是统计功效，和核算置信区间的置信度类似，它是的思路是 1-β 来得出（统计功效 power = 1 – β ）

统计功效是指版本差异（效果）为某个指定值时，通过显著性检验能正确地把差异检验出来的概率。说白了就是，假设两个版本的确存在差异，我们能够正确拒绝原假设，获得统计显著性结果（ 95%置信区间中数据）的概率。

统计功效的核算涉及样本数量，方差， α 、以及最小变化度或者置信区间下限。

由此可见，只有我们把第一类错误控制在 5%以内，第二类错误控制在 10%-20%左右，我们才可以说得出具有参考价值的出的试验数据。

换句话说，我们在做 A/B 测试时，试验结果达到 95%的置信度，以及 80%-90%的统计功效时，它对我们来说才是有意义、可以作为决策参考的。

本文作者：吆喝科技 CSM 团队傅礼阳，如果你对这篇文章感兴趣，或者还有不理解的问题，可以添加作者微信讨论： fly415 。更多内容，吆喝科技博客： www.appadhoc.com/blog.