学校项目,老板说要能实时获取数据并且实时分析,做到突发事件预警,其实现有系统已经能做到日获取 600W 数据,但是实时数据量比较少,所以设定的计算分析会有一到两个小时之间的延迟。现在老师认定要做到实时爬取,但是目前新浪微博 API 很残废(比如不能获取指定用户的微博数据,不能获取微博转发内容。)
除了网页爬虫(试过很多次,除了换 IP 其他防反爬策略都试过,但是基本一天就会被封,要实现快速和大量数据的爬取,爬虫真不是有效办法),想请问下大家有什么好的办法?(我已经给老师解释过了, API 不能用,网页爬虫不能用在系统里面作为获取数据的有效途径,但是老师不听,让自己想办法)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.