GitHub:爬虫集合:微博、Twitter、玩加、知网、虎牙、斗鱼、B 站、WeGame、猫眼、豆瓣、安居客、居理新房等

2020-07-03 19:21:39 +08:00
 zhijieju

hello,小伙伴们大家好,今天给大家推荐的开源项目是 :CxSpider,这个开源整合了作者自己的采集过的所有产品,包括微博、Twitter 、玩加、知网、虎牙、斗鱼、B 站、WeGame 、猫眼、豆瓣、安居客、居理新房感兴趣的小伙伴可以下载看看,应该可以给你提供一个可借鉴的思路。

Project


爬虫详情


1. Twitter 用户信息爬虫(twitter.user_info)

@author ChangXing @version 4.1 @create 2017.12.25 @revise 2020.06.08

使用第三方模块 twitter-scraper 采集 Twitter 用户信息;因为该模块采集的粉丝数和关注数可能存在偏差,因此再通过 Selenium 抓取 Twitter 用户信息,以更正该模块采集的数量。

2. Twitter 用户推文爬虫(twitter.user_tweet)

@author ChangXing @version 4.0 @create 2017.12.30 @revise 2020.06.08

微博热搜榜实时爬虫(weibo.hot_ranking)


@author ChangXing @Version 1.1 @create 2020.05.29 @revise 2020.06.08

定时采集微博热搜榜。

环境变量


爬虫功能的正常使用需要配置如下环境变量,可以直接修改 environment.py 中的环境变量值,也可以修改配置 Json 文件。

环境配置


Python/Pip 环境

开源地址: https://github.com/ChangxingJiang/CxSpider

今天的推荐不知道大家喜欢吗?如果你们喜欢话,请在文章底部留言或点赞,以表示对我的支持,你们的留言,点赞,转发关注是我持续更新的动力哦!

关注公众号回复:"1024",免费领取一大波学习资源,先到先得哦!

1971 次点击
所在节点    Python
1 条回复
iwukong
2020-07-31 19:01:47 +08:00
怎么爬金融 PDF 数据

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/686987

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX