有偿求 Python 爬虫思路指点

2020-03-22 09:48:41 +08:00
 ljc864921462

需求:一个需要的登录的网页,对效率有需求,需多线程爬取 登录网页我只会 selenium 模拟,写不了多线程。还有些其他细节问题,故有偿求指点

q:864921462

587 次点击
所在节点    外包
7 条回复
ljc864921462
2020-03-22 09:50:42 +08:00
价格详谈,预期 200,如果能提供更多帮助,可加
yingxiangyu
2020-03-22 13:15:15 +08:00
selenium 也可以多窗口同时爬,一个窗口登陆后把 cookie 在其他窗口同步下就可以了,一般都能解决,除非服务器端做了访问频率限制
chzb
2020-03-22 23:43:12 +08:00
你可以不用多线程,试试异步,如果单主机跑用 pyputeer,多个爬取试试 splash
zhanghelin
2020-03-23 11:46:25 +08:00
用 selenium 登陆后,记录 cookie,在用多线程的方式。
freakxx
2020-03-23 16:59:52 +08:00
把过程 切分成

登陆 + 爬取 + 清洗

登陆:做一个 cookies 池,登陆完将 cookies 存起来,如果笨点,手动去收集也可以

爬取:做一个待爬取列表,N 线程 = 取出 N 个链接, 每次从 cookies 池捞个上来 + 捞个代理 ip 上来(如果需要的话),爬取成功就继续走,爬取失败,如果是 cookies 失效了,扔掉。
warcraft1236
2020-03-23 17:22:30 +08:00
对效率有要求不应该关注多线程,应该关注分布式,部署到不同的机器上。或者关注高匿代理,要不然你的 ip 迟早被 ban
zhiguang
2020-03-23 17:22:35 +08:00
多用阻塞队列

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/655019

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX