不懂就问,机器学习,已知关联度矩阵,应该用什么算法进行高维聚类?

2020-07-25 17:13:24 +08:00
 black11black

如题,目前手里有 1000 个条目,每个条目代表一个用户,有 20 个特征向量表示该用户行为。

我可以使用皮尔逊系数计算每两两用户间的相关系数,则该矩阵大小为 1000*1000

之后如何进行聚类呢?聚类算法有很多,哪种在当前这种条件下取得的效果比较好呢?

(为了使分类准确表达用户群体,假定预计分为 5 类,同一用户可以在多个不同类中)

937 次点击
所在节点    问与答
4 条回复
VelvetExodus
2020-07-25 22:40:32 +08:00
有试过特征降维吗?可以先降纬聚类看着直观些。dbscan 试试
leimao
2020-07-25 23:08:23 +08:00
你这个相关系数个人感觉没必要计算,直接用 clustering 算法就行了。是想你要是有一万个用户,你电脑就爆了。
black11black
2020-07-26 18:56:31 +08:00
@leimao
具体用那种算法呢,如果不算相关系数的话维度太高了,效果能好吗,我没什么经验
leimao
2020-07-27 10:56:28 +08:00
@black11black 做好 feature engineering,然后准备好 validation dataset,然后每个 clustering 都试一下,看看哪个最好。KNN 比较常用。你之前做 1000 x 1000 correlation 的思路是做 recommendation 的思路。所以你得先搞清楚你是要干嘛。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/693051

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX