一个关于主成分得分的讨论,稍具争议。请大佬指路。

2022-02-24 15:18:33 +08:00
 huzhikuizainali
请看下图,我在一篇论文中的确看到了应用主成分得分的方法对样本排序,当时就觉得很奇怪,为什么方差越大的主成分给的权重就越大,这样做的理论依据是什么?想达到什么目的?
关于下图中的内容我有如下疑问,原文引用基本都来自书中划线部分。

1 ,“ 而仅是体现在数据的变异性上,把反映数据变异性信息的前 m 个主成分线性组合起来将会瓦解主成分在变异性信息上的优势,”-----既然主成分反映了数据的变异性,为什么把它们线性组合起来,反而破坏了变异性上的优势?

2 ,“ 这是因为,原始变量的含义是实在的、确切的,这是看懂和理解线性组合含义的基础;而主成分是人为定义、意义含糊的”----------我也有这种感觉,觉得主成分意义模糊。但是否有针对性的方法克服上述障碍呢?总不能让主成分分析的结果闲置吧。

其次,大家是否有专门讨论“主成分分析结果如何应用”的书籍或文章推荐?(不涉及如何计算主成分)。




摘自上海财经大学王学民老师应用多元统计分析
1269 次点击
所在节点    数学
2 条回复
bilberry
2022-02-27 01:12:01 +08:00
重新复习了上学期讲的 PCA ,说下我的理解。

为什么方差越大的主成分给的权重就越大?
多维数据求的是协方差矩阵,协方差矩阵分解,如使用奇异值分解,会得到特征向量和特征值,每个特征向量对应由特征值。空间坐标系中,特征向量所表示的是各个成分的方向,特征值表在各方向上的大小。这个时候,某个方向上的协方差越大,其特征值就越大,对应“方差越大的主成分给的权重就越大”,我是这么觉得。这就好比初中物理的受力分解,可以随机找点数据测试下。

比如随便一个三维数据,x 分布[0,1],y 分布[0,5],z=0 ,分解后会发现 y 的特征值最大,z 的最小为 0 ,后面降维时 z 可以去掉,基本不会影响主成分。
huzhikuizainali
2022-02-27 09:58:30 +08:00
如使用奇异值分解,会得到特征向量和特征值----------协方差矩阵是实对称矩阵。而且是个方阵。所以没必要用奇异值分解,直接正交对角化就可以得到特征值特征向量(特征值分解可以看成奇异值分解的特殊形式,既被分解的是一个方阵。而奇异值分解可以看成特征值分解的普遍形式,方阵非方阵都适用)

某个方向上的协方差越大,其特征值就越大,---------你是不是想说方差越大就……。在某个方向上只有方差,只有不同方向间才有协方差,且 pca 后协方差=0

对应“方差越大的主成分给的权重就越大”,---------书中批判的就是这种方法或者说是理念。认为这样做没有理论依据!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/836166

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX