想要做一个舆论分析 主要就是看看网络上对什么电视剧啊 电影啊 歌手啊 新番(?)的评价吐槽和最近动态什么的 V2 众有什么好点的想法么?

2016-12-22 00:09:11 +08:00
 soulmine
暂定是用爬虫去爬 然后按时间存数据库 用 TEXTRANK 来算关键词 最后根据关键词的多少排出高频词这么一套思路 =.= 有什么意见或者其他什么更好的办法么 想自己试试
2336 次点击
所在节点    奇思妙想
7 条回复
em70
2016-12-22 00:18:38 +08:00
我想知道舆情习惯有 3 个渠道:
1.微信搜索
2.知乎搜索
3.新闻下面的评论

聚合的需求并不大
em70
2016-12-22 00:19:07 +08:00
对不起,是微博搜索
Kilerd
2016-12-22 00:30:25 +08:00
机器学习 NLP
shoumu
2016-12-22 09:31:21 +08:00
看一下 opinion mining, opinion extraction 之类的
xvx
2016-12-22 10:39:29 +08:00
好像百度、新浪这些内部都有内置的舆情监控体系吧,如果可以综合百度、新浪、 QQ 空间之类使用人数比较多的网站进行爬取分析效果应该不错。
不过,爬虫能不能爬才是个问题。
jingniao
2016-12-24 21:47:10 +08:00
政府部门的维.稳,不是业内人一般不怎么了解的。
一定地区级别的热点词汇聚合通过技术手段还是可以过滤出来的,至于数据来源……
另外说句题外话,据说西部的 ip 配备策略不像其他地区一样是个大局域网……
changwei
2016-12-25 23:59:47 +08:00
我自己平时写过一些爬虫,然后通过一些免费的分词 api 进行简单分析。其实这些技术都不是很难的。

主要还是能不能爬到数据。

我上次就是这样,辛辛苦苦写了一个爬虫,并且发现了他的 anti-spider 策略,然后写好了反反爬虫策略,没想到我爬了才两天,他们策略就改了,还把我号封了(登陆才能获取数据)。所以我觉得爬虫如何抓那么大规模数据才是真正的问题。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/329278

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX