这是项目地址 https://github.com/shuizhengqi1/MaiMaiSpider/
目前想采集脉脉网上的用户信息,拿来做数据分析。通过对前端代码分析之后找到了请求的 api。 我的思路是以一个用户为入口,获取到对他有兴趣的人然后往下爬。 现在找到了两个 api,https://maimai.cn/contact/comment_list/(简称 clist ) 和 https://maimai.cn/contact/interest_contact/(简称 ilist ) clist 里面可以获取到用户的信息以及拿来构建 url 的 encode_mmid ilist 里面能获取到对用户感兴趣的人的 encode_mmid
现在我的做法是先开一个进程,不断请求 ilist 获取到 encode_mmid,然后存储到队列里,然后使用多线程去从队列里面取 encode_mmid 加工成 url,获取到相关的信息并存入到数据库中
现在遇到的问题是经常跑着跑着就停止了,而且由于圈子的问题,例如程序员的圈子里面对他有兴趣的基本都是程序员,感觉是一直在一个圈子里面重复的爬取。另外脉脉网队这个 api 还做了限制,连续访问多次的话就会回复报错信息,但我访问网页的话信息还是能正常显示的,不晓得该怎么解决。。。
求各位大神指点
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.