V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
black11black
V2EX  ›  问与答

不懂就问,机器学习,已知关联度矩阵,应该用什么算法进行高维聚类?

  •  
  •   black11black · Jul 25, 2020 · 1382 views
    This topic created in 2106 days ago, the information mentioned may be changed or developed.

    如题,目前手里有 1000 个条目,每个条目代表一个用户,有 20 个特征向量表示该用户行为。

    我可以使用皮尔逊系数计算每两两用户间的相关系数,则该矩阵大小为 1000*1000

    之后如何进行聚类呢?聚类算法有很多,哪种在当前这种条件下取得的效果比较好呢?

    (为了使分类准确表达用户群体,假定预计分为 5 类,同一用户可以在多个不同类中)

    4 replies    2020-07-27 10:56:28 +08:00
    VelvetExodus
        1
    VelvetExodus  
       Jul 25, 2020 via Android
    有试过特征降维吗?可以先降纬聚类看着直观些。dbscan 试试
    leimao
        2
    leimao  
       Jul 25, 2020 via iPhone
    你这个相关系数个人感觉没必要计算,直接用 clustering 算法就行了。是想你要是有一万个用户,你电脑就爆了。
    black11black
        3
    black11black  
    OP
       Jul 26, 2020
    @leimao
    具体用那种算法呢,如果不算相关系数的话维度太高了,效果能好吗,我没什么经验
    leimao
        4
    leimao  
       Jul 27, 2020
    @black11black 做好 feature engineering,然后准备好 validation dataset,然后每个 clustering 都试一下,看看哪个最好。KNN 比较常用。你之前做 1000 x 1000 correlation 的思路是做 recommendation 的思路。所以你得先搞清楚你是要干嘛。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2129 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 00:40 · PVG 08:40 · LAX 17:40 · JFK 20:40
    ♥ Do have faith in what you're doing.