微博数据爬取,老师说要实现实时抓取实时分析, API 残废情况下如何解决?

2016-05-03 14:54:40 +08:00
 stcasshern

学校项目,老板说要能实时获取数据并且实时分析,做到突发事件预警,其实现有系统已经能做到日获取 600W 数据,但是实时数据量比较少,所以设定的计算分析会有一到两个小时之间的延迟。现在老师认定要做到实时爬取,但是目前新浪微博 API 很残废(比如不能获取指定用户的微博数据,不能获取微博转发内容。)
除了网页爬虫(试过很多次,除了换 IP 其他防反爬策略都试过,但是基本一天就会被封,要实现快速和大量数据的爬取,爬虫真不是有效办法),想请问下大家有什么好的办法?(我已经给老师解释过了, API 不能用,网页爬虫不能用在系统里面作为获取数据的有效途径,但是老师不听,让自己想办法)

4974 次点击
所在节点    微博
6 条回复
am241
2016-05-03 15:35:00 +08:00
大量账号关注并等推送?
一个账号关注 2000 人, 100 个账号能关注 20w 人,不知道新浪的推送机制能不能这样用。
stcasshern
2016-05-03 15:45:10 +08:00
@am241 曾经试过淘宝买账号(现在账号需要手机号才能注册,账号解封也需要手机短信验证), 60 个账号,现在也就一两个能用了,而且现在普通 API 已经不能获取指定用户微博数据了。</br>
谢谢回复!
graetdk
2016-05-03 15:52:43 +08:00
要真搞出来会非常值钱的,你的老师可能是把你当免费劳动力了吧
XianZaiZhuCe
2016-05-03 16:05:18 +08:00
突发事件预警。感觉你们老师接了个不小的项目。不少钱。。
Kirscheis
2016-05-03 16:38:38 +08:00
微博反爬虫很厉害,不知道你们老师拿到多少经费。爬虫也有,但是实现方法不可能免费公布,这个很值钱,开发成本也不低。
某些舆情监控项目最好直接联系新浪公司合作。
stcasshern
2016-05-03 16:40:13 +08:00
@graetdk 也觉得很难,现在数据都难以获得= =

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/276003

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX