数据挖掘大家有思路吗：几十万个微博用户，几百万条微博，然后推荐相似用户？

2016-07-04 15:13:44 +08:00

lijinma

数据挖掘新手，有以下需求：

几十万个微博用户，几百万条微博
需要给定一个用户，然后推荐相似的用户。

什么是相似？

有共同爱好

不知道如果给你这样一个需求，会怎么做？

我现在的做法特别 Low:

使用 http://bosonnlp.com/ 分词和词云来提取一个人所有微博的关键字，然后选取低频的词汇，然后通过这些词汇去找人。

但出现一些情况：

低频词很难找到匹配的人（但是如果可以找到的话，效果很好）
高频词匹配并不准确。

哎，大家有什么好的思路吗？数据挖掘新手，希望大家赐教。

5033 次点击

所在节点

程序员

29 条回复

murmur

2016-07-04 15:18:33 +08:00

思路就错了兴趣相似的用户基本就粉了或者互粉了么肯定先从互粉的人抓起
而且以微博那个超口语化的行文分词也分不出什么来

lijinma

2016-07-04 15:24:17 +08:00

@murmur 哈哈，谢谢你给了我另外一个思路。

但是我的做法有没有价值？

mayokaze

2016-07-04 15:35:27 +08:00

从纯文本分析的话可以考虑 LDA 做主题模型，分词不准的话用 ngram 来做

XianZaiZhuCe

2016-07-04 15:38:14 +08:00

关键字越多相似，用户相似度越高？

mayokaze

2016-07-04 15:39:39 +08:00

更简单点的方法是基于词做 embedding 然后对每个短文本做 bow 的 sparse encoding, 然后对每一条短文本再做一次 sparse encoding 最后用 distance 求相似度，如果维度太高用 pca 或者 sparse coder / auto encoder 降个维

lijinma

2016-07-04 15:45:03 +08:00

@XianZaiZhuCe 对，你的思路是对的，问题是，如果我现在给定你用户 A ，难道你要把几十万用户都跑一遍，按照相似性来排序吗。。

你还有别的思路吗？

lijinma

2016-07-04 15:45:55 +08:00

@mayokaze 一看你就是大神，我没太看懂你的想法，但是我会好好查一下你提到的模型和方法

manhere

2016-07-04 15:47:15 +08:00

1 楼正解，不要分析内容，找共同关注。

mayokaze

2016-07-04 15:48:00 +08:00

@lijinma 不是大神_(:з」∠)_ ，工作是做 nlp 对这方面有点了解，你在 6 楼提到的问题可以用 knn 来算，维度在 100 以下还可以用 kd-tree 来加快检索

lijinma

2016-07-04 15:50:58 +08:00

@mayokaze 哈哈，多谢你提供想法，我先消化下你提到的内容。。

mayokaze

2016-07-04 15:52:02 +08:00

最简单的思路是做一个超级大的向量，对于词表里面的词如果这个用户提过就记 1 否则记 0 ，分布到向量空间里面通过求欧氏距离来做聚类，数据用 kd-tree 来存这样每次查找都是 log 时间了。但是你这样做维度肯定非常大，可以用 kmeans 直接聚中心点，我做过的 case 聚到 300 维效果还是非常好的

lijinma

2016-07-04 15:55:58 +08:00

@mayokaze 恩恩，我想请教下，你是怎么分词的？

mayokaze

2016-07-04 16:00:09 +08:00

@lijinma 我们公司语料比较特殊，为了处理多语言分词是自己定制的。一般对于分词不准的情况可以使用 2gram ，就是比如“我爱北京天安门”分成我爱爱北北京京天天安安门

lijinma

2016-07-04 16:16:07 +08:00

@manhere 恩恩，我会尝试从这个维度来推荐的。

lijinma

2016-07-04 16:17:46 +08:00

@mayokaze 恩，但是用 ngram 分词后，词确实有点多，我暂时使用 Boson 的分词来弄，继续谢谢你。

YORYOR

2016-07-04 16:21:38 +08:00

通过微博分词挖掘用户兴趣，给用户打标签，分类，新浪微博就是这么做的

lijinma

2016-07-04 16:27:48 +08:00

@YORYOR 恩，请教你个问题：

你们的标签和分类是提前定义好的吗？

还是根据用户的微博动态生成的？

————————————————

恩，我的问题其实是：

1. 给微博分词了，但是如何分词更合理？
2. 分词后，哪些词应该打在用户的身上，不应该把用户所有词都打上去吧？另外如何确定分类？

谢谢你

murmur

2016-07-04 16:58:21 +08:00

是这样的，如果你的数据是最近抓取的，而且没有经过筛选，那么可能很多都是营销号、抽奖号、僵尸号
这样的数据是没有处理意义的
几十万个微博用户真不多随便一个抽奖就几万个小号转发

lijinma

2016-07-04 17:45:40 +08:00

@murmur 恩恩，用户数据是可靠的数据，没有营销号、抽奖号、僵尸号

menc

2016-07-04 17:47:59 +08:00

@mayokaze 短文本用 LDA 并不好用，尤其对于微博这种口语化的新词众多的文本来说。

劝楼主，
recommending system 就按照 recommending system 的套路来搞，好好学习机器学习，@mayokaze 提的至少是一个上道的建议，帖子里面其他人的土方法大多数不值得一试。

几个点：
1. 构建用户向量，所有的用户都抽象成向量
2. 协同过滤是推荐系统的常用方法
3. 想办法使用合适的主题模型， LDA 对于短文本显然还是不太够用，如果有主题了可以拿来做用户聚类
4. 尝试各种算法来衡量向量的相似度，包括 pmi ，包括 pearson 系数，包括各种距离公式， cosine distance 或者 hamming distance 等等
5. 现有分词足够使用了， n gram 对算力的要求成倍增加，显然不是个好方案。

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/290177

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.