分享一个分布式微博爬虫开源项目

2017-05-30 10:34:56 +08:00
 resolvewang

用 celery+requests 撸了一个分布式微博爬虫,对 Python 数据采集有兴趣或者对微博数据采集有需求的同学可以看看,目前实现了用户信息抓取、特定话题微博搜索、用户主页所有微博抓取、指定微博所有评论抓取、指定微博所有转发抓取。四台机器大概一天可以抓 100w 条用户数据,微博可以抓上千万条。

项目地址: https://github.com/ResolveWang/WeiboSpider

求 fork & star

5527 次点击
所在节点    分享创造
26 条回复
resolvewang
2017-06-03 09:58:34 +08:00
@xiubin 你说的前三个功能我都实现了啊,你看看项目介绍就明显可以得知啊。我说的给定微博,有两个来源,一个是搜索关键词获取,一个是通过给定用户来抓。不过有一点需要明确,不可能获取某个用户的所有关注和粉丝,只能获取前五页。确实你说的这个并不是项目的初衷,但也可以依托它较为轻松的实现
gogobody
2017-06-06 20:43:36 +08:00
马克
resolvewang
2017-06-07 13:00:26 +08:00
@gogobody 感谢支持
sobigfish
2017-06-07 13:12:26 +08:00
改成 serverless 架构 ? (不知道 AWS Lambda 每次运行时会不会是不同的动态 IP )
https://github.com/Miserlou/Zappa
https://github.com/awslabs/chalice

感觉爬虫和 serverless 很搭
resolvewang
2017-06-07 16:45:53 +08:00
@sobigfish serverless 没怎么了解,如果可以轻松切换弹性公网 ip,那么我觉得是非常棒的
gitopen
2018-05-29 08:08:11 +08:00
@goodluck 最近有这方面的需求,就来翻 v2。好奇爬这么多数据是干嘛用的😄

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/364697

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX