V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
JCZ2MkKb5S8ZX9pq
V2EX  ›  程序员

请问各位怎么理解方差?

  •  
  •   JCZ2MkKb5S8ZX9pq · 2018-10-20 18:27:41 +08:00 · 3248 次点击
    这是一个创建于 2259 天前的主题,其中的信息可能已经有所发展或是发生改变。

    忽然脑子有点混,想讨论下。

    假设案例

    • 假设一个平台有 N 个主播,每个主播各自有一定地付费人数。
    • 这里想知道付费的分布情况,有没有集中在个别大土豪付费。
    • 但每个房间的付费情况差很多,直接用方差不大公平。同样的离散度付费大的方差大很多。

    所以我考虑的方法是这样的:

    • 先取平均值 avg
    • 计算每个付费 C 和 avg 的比例关系 P = C / avg
    • 用 P 来统计方差 sum((P-1)^2) / (N-1)

    然后有几个疑问

    • 方差和标准差有没有几何的解释?
    • 为什么是方差,而不是绝对值?比如 sum(abs(P-1)) / (N-1)
    • 如果把 avg 换成中间数会怎么样?
    • 如果增加数据维度,离散程度怎么算?

    PS

    一些代码就觉得自己数学底子差,不少公式查了都看不大懂。
    有什么补数学基础的东西可以看嘛?

    19 条回复    2018-10-22 18:04:23 +08:00
    ryd994
        1
    ryd994  
       2018-10-20 19:22:11 +08:00 via Android   ❤️ 2
    Baymaxbowen
        2
    Baymaxbowen  
       2018-10-20 19:27:33 +08:00 via Android
    张宇的高等数学 36 讲
    ytterbium
        3
    ytterbium  
       2018-10-20 19:36:23 +08:00 via Android
    取绝对值是一阶范数。想做数据分析画箱线图是不是更好
    kx5d62Jn1J9MjoXP
        4
    kx5d62Jn1J9MjoXP  
       2018-10-20 20:00:31 +08:00
    为什么是平方而不是绝对值, 为什么不用中值, 都是因为好算吧
    byaiu
        5
    byaiu  
       2018-10-20 20:03:08 +08:00 via Android
    聚类可能比较方便
    JCZ2MkKb5S8ZX9pq
        6
    JCZ2MkKb5S8ZX9pq  
    OP
       2018-10-20 20:38:41 +08:00
    @ssynhtn 我后来想想,绝对值和平方值的区别。
    其中一点是,平方值能 **放大远端的数据** 。
    但伴随的问题是,碰到小于 1 的时候,效果就反了。

    中值可能也是会影响结果。
    比如咱们 10 个码农和 1 个马云,计算财富方差。
    按中值的话就是 10 个码农的方差很小+1 个马云方差很大。
    按平均值的话,就是 10 个码农方差很大+1 个马云方差很大。
    在这个特例下,平均值求出来的,可能更接近期望结论。
    yidinghe
        7
    yidinghe  
       2018-10-20 20:40:59 +08:00 via Android
    简单的办法就是按照用户在房间内打赏的量倒排即可。
    JCZ2MkKb5S8ZX9pq
        8
    JCZ2MkKb5S8ZX9pq  
    OP
       2018-10-20 20:42:09 +08:00
    @ryd994 第一次听说这词,不过其中几个方法倒是经常用到。
    alixali
        9
    alixali  
       2018-10-20 21:27:24 +08:00
    在这里的付费都是正值,有中位数和平均值,根据两个的数比较,也是大致可以判断分布的是不是有偏的,和对应偏离程度啊。
    JCZ2MkKb5S8ZX9pq
        10
    JCZ2MkKb5S8ZX9pq  
    OP
       2018-10-20 21:50:47 +08:00
    @alixali 也是个思路 不过我也就是举例 主要问题还是怎么理解方差
    alixali
        11
    alixali  
       2018-10-20 21:55:59 +08:00
    我看统计上也只是说用来衡量分布的离散程度,或者是一个簇类的紧密程度吧,也不知道对不对。。
    JCZ2MkKb5S8ZX9pq
        12
    JCZ2MkKb5S8ZX9pq  
    OP
       2018-10-20 22:13:55 +08:00
    而且如果是纯平方和,再开个根号,还能理解为多个维度中的距离。
    比如
    (x^2 + y^2)^0.5 = 二维平面原点到点的距离
    (x^2 + y^2 + z^2)^0.5 = 三维空间原点到点的距离
    这样可以扩展到 N。

    但除以 N 或 N-1 放在这里又很难解释。
    而且标准差直接开根号,等于对分母也开了根号,还是觉得有点别扭啊。
    newton108
        13
    newton108  
       2018-10-21 03:09:18 +08:00   ❤️ 1
    几何意义:demean 之后标准差是这个 r.v. 在希伯特空间中的 norm.
    知道这个有啥用?
    mingl0280
        14
    mingl0280  
       2018-10-21 03:52:33 +08:00
    你这不就是搞了个标准分数做统计么……
    enenaaa
        15
    enenaaa  
       2018-10-21 12:26:46 +08:00
    概率论和数理统计
    JCZ2MkKb5S8ZX9pq
        16
    JCZ2MkKb5S8ZX9pq  
    OP
       2018-10-21 14:24:27 +08:00
    @newton108 我有点晕 我查查哈
    l00t
        17
    l00t  
       2018-10-22 09:21:00 +08:00
    不理解,直接用。

    从小学第一次接触到方差的概念开始就没理解过。我也觉得绝对值就足够了,方差不知道有啥意义。
    alixali
        18
    alixali  
       2018-10-22 15:33:19 +08:00
    @JCZ2MkKb5S8ZX9pq 正好今天看到一个有关无偏估计的解释,这里用到 n-1 也可能是为了得到无偏的数值。实际上上面那个公式的是 n/n-1。
    JCZ2MkKb5S8ZX9pq
        19
    JCZ2MkKb5S8ZX9pq  
    OP
       2018-10-22 18:04:23 +08:00
    @alixali 嗯 用 N-1 是爲了無偏 這點我理解
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2833 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 15:01 · PVG 23:01 · LAX 07:01 · JFK 10:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.