爬取 x 宝的商品信息,休息一下弹窗怎么解决?

2021-02-27 08:45:32 +08:00
 iscurry

需求: 根据商品 sku 获取商品的 一些属性和评论

目前: 使用 python 的 selenium 模拟登录,然后通过 request 请求重定向,xpath 分析数据

问题: 每一次 request 后睡眠 1s,但是发送 20 次后就会出现休息一下的界面,即使手动划过去也不行, 有没有什么好的办法?或者其他的方法?

8773 次点击
所在节点    Python
49 条回复
kaiki
2021-02-27 08:57:50 +08:00
网页版正常浏览都很困难,你还想爬它
wangxinpier
2021-02-27 09:00:24 +08:00
随机休息时间
xihefeng
2021-02-27 09:20:21 +08:00
抓 app 吧,web 人工都难用
murmur
2021-02-27 09:38:32 +08:00
你这速度就是比正常人快啊,1 秒看一页是不是以为淘宝的风控是傻子
love
2021-02-27 09:46:07 +08:00
我看不行,我正常浏览只要超几分钟都会出现,且划不过去,那个验证就是个摆设,划了没有一点鸟用
invalid522
2021-02-27 09:56:36 +08:00
某宝以至阿里系的反爬都是出了名的恶心,如果脸黑的话,连用 app 都会被强制休息一下
lawler
2021-02-27 11:52:20 +08:00
x 宝采集一定要做分布式,刷新间隔 60s 以上。
Smash
2021-02-27 12:41:39 +08:00
我正常刷网页都要弹,你还想爬??
westoy
2021-02-27 12:51:48 +08:00
淘客 API,一方和三方都行


@xihefeng
app 现在多浏览几页也要登录, 登录之后频繁访问也会触发验证, 有时候验证码锁是锁全平台的, 包括高德、阿里妈妈....... 一样绕不过的
imgbed
2021-02-27 13:08:22 +08:00
换 ip 了吗
OHyn
2021-02-27 13:11:39 +08:00
正常使用都困难的东西。。。
Dvel
2021-02-27 13:12:55 +08:00
Web 上高德地图也老弹这个。。。
wqzjk393
2021-02-27 13:13:23 +08:00
模拟点击吧
alexbigbigworld
2021-02-27 13:36:06 +08:00
我自己店铺是在应用市场买的接口做的退货管理之类,你要是采集别人的话估计不好弄,彩多了直接给你 404
systemcall
2021-02-27 14:15:13 +08:00
没救了的东西,你正常浏览,只要不下单,要不了半个小时就会卡弹窗,没办法跳过的那种
感觉是只要看了 20 个商品左右就会开始弹,谁让你只看不买的?
dbow
2021-02-27 15:41:08 +08:00
淘宝风控非常严格,我以前买东西搜索一下都会让拖滑块,现在不上淘宝了, 基本在京东买。
leega0
2021-02-27 15:43:55 +08:00
正常搞快了都休息,你还机器人爬。。。分布式吧
yaoye555
2021-02-27 16:00:28 +08:00
淘宝 web 就不是给人用的玩意
yaapoo
2021-02-27 17:26:08 +08:00
time.sleep()
annielong
2021-02-27 18:57:41 +08:00
正常访问都弹窗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/756671

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX