如何高效爬取脉脉用户数据

2017-08-10 11:55:40 +08:00
 shuizhengqi

这是项目地址 https://github.com/shuizhengqi1/MaiMaiSpider/

目前想采集脉脉网上的用户信息,拿来做数据分析。通过对前端代码分析之后找到了请求的 api。 我的思路是以一个用户为入口,获取到对他有兴趣的人然后往下爬。 现在找到了两个 api,https://maimai.cn/contact/comment_list/(简称 clist ) 和 https://maimai.cn/contact/interest_contact/(简称 ilist ) clist 里面可以获取到用户的信息以及拿来构建 url 的 encode_mmid ilist 里面能获取到对用户感兴趣的人的 encode_mmid

现在我的做法是先开一个进程,不断请求 ilist 获取到 encode_mmid,然后存储到队列里,然后使用多线程去从队列里面取 encode_mmid 加工成 url,获取到相关的信息并存入到数据库中

现在遇到的问题是经常跑着跑着就停止了,而且由于圈子的问题,例如程序员的圈子里面对他有兴趣的基本都是程序员,感觉是一直在一个圈子里面重复的爬取。另外脉脉网队这个 api 还做了限制,连续访问多次的话就会回复报错信息,但我访问网页的话信息还是能正常显示的,不晓得该怎么解决。。。

求各位大神指点

8107 次点击
所在节点    问与答
16 条回复
ys0290
2017-08-10 12:11:39 +08:00
脉脉是不是含情脉脉的意思?
shuizhengqi
2017-08-10 12:19:04 +08:00
@ys0290 一款职业社交软件
ctsed
2017-08-10 12:21:01 +08:00
@ys0290 人脉的脉
lwwenlong
2017-08-10 13:31:32 +08:00
什么原因停止没有说啊,请求次数限制的话,可以使用代理。
shuizhengqi
2017-08-10 14:02:56 +08:00
@lwwenlong 感觉是我的 cookie 被禁了,换了 ip 也是访问不了
joyqi
2017-08-10 14:07:04 +08:00
入职脉脉,哈哈,开个玩笑,这是违法的
shuizhengqi
2017-08-10 14:08:33 +08:00
@joyqi 爬虫哪个不违法。。。就是对脉脉这个社交圈子比较好奇
regicide
2017-08-10 14:29:59 +08:00
将大量的手机号导入到测试机通讯录(用 qq 同步助手),用手机陌陌扫通讯录,然后用 web 抓。
shuizhengqi
2017-08-10 14:44:35 +08:00
@regicide 是脉脉,不是陌陌。。。
shuizhengqi
2017-08-10 14:45:17 +08:00
@regicide 而且脉脉上有二度人脉跟三度人脉之分的,三度人脉想看都看不到
regicide
2017-08-10 14:50:06 +08:00
@shuizhengqi 打错了。。。。 三度确实看不到 这个方法你前面量扑上去,后面人脉会多起来的
shuizhengqi
2017-08-11 10:21:06 +08:00
大神在哪。。。
RiceChen
2018-03-09 17:06:06 +08:00
哥们,这个问题有下文了?
shuizhengqi
2018-03-09 17:44:57 +08:00
@RiceChen 我后来就没搞这个东西了,或许现在能够解决这个问题
RiceChen
2018-03-12 08:54:13 +08:00
@shuizhengqi 这个方向有很高价值,值得深究啊。
shuizhengqi
2018-03-12 09:35:27 +08:00
@RiceChen 主要是当时天天看脉脉,感觉影响工作,然后就不看了。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/381882

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX