昨天花费了整整一天时间用前几天怕的空间说说数据做了这么一个盘点: 2018,年终,不过又是一个叉子
这也不是我第一年尝试用这种方式做年终盘点了,前年我也写了这么一篇: 对 QQ 空间指定好友 2017 年说说数据的分析
但是,总觉得自己分析完全不知所云,完全是在浪费数据,基本上就是在纯粹的罗列数据而已。
我想问问各位 v2exer,我能否用这些数据分析出来一些有意思的东西呢?
还有在分析类似数据时应该从哪一方面入手呢?
1
VDimos 2019-01-01 21:41:17 +08:00 via Android
闷声发大财,你这是生怕腾讯不知道你爬了它数据吗
|
2
jugelizi 2019-01-01 21:42:18 +08:00
分词
按时间维度 各个节日大家在说什么 按性别 也可以分析热点什么的 |
4
equationl OP @jugelizi 分词我使用 jieba 进行分词时发现高频词都是类似 一个、我们、自己 之类的“无意义”的词,是不是我使用方式不对?
|
8
equationl OP @TimePPT 嗯,其实我的做法是导出词频前 50 的词组,然后手动排除我认为没意义的词,然后我发现排除完后基本就不剩几个词了...
我还是学习一下停用词的用法吧 |
9
muhaocd 2019-01-01 22:29:02 +08:00
只取形容词、动词、名词分别比较?算一下 tgi 指数?
|
10
TimePPT 2019-01-01 22:42:25 +08:00 via Android
@equationl 这个 repo 可以参考 https://github.com/goto456/stopwords
|
12
oyhw92 2019-01-01 23:47:40 +08:00 via iPhone
分词可以筛选一下,分享的归一类消极的归一类,看看大家都是开心了发还是难过了发?
|
14
jookr 2019-01-02 01:11:17 +08:00
以前我的 QQ 空间小偷程序因为很多关键词被机房掐了 N 次网线
|
15
atonku 2019-01-02 09:02:45 +08:00
你的空间里废话有点儿多哦
|