爬取 x 宝的商品信息,休息一下弹窗怎么解决?

2021-02-27 08:45:32 +08:00
 iscurry

需求: 根据商品 sku 获取商品的 一些属性和评论

目前: 使用 python 的 selenium 模拟登录,然后通过 request 请求重定向,xpath 分析数据

问题: 每一次 request 后睡眠 1s,但是发送 20 次后就会出现休息一下的界面,即使手动划过去也不行, 有没有什么好的办法?或者其他的方法?

8813 次点击
所在节点    Python
49 条回复
Lemeng
2021-02-28 17:28:32 +08:00
淘宝以前被爬的太多了吧,有时候正常看都会出来,不知道怎么个算法
不过加点时间,总不会错。相对会少点
RiESA
2021-02-28 17:28:48 +08:00
收购阿里
iscurry
2021-02-28 17:45:11 +08:00
@xihefeng 怎么抓,可以更加详细的说吗?我对这个并不熟悉
iscurry
2021-02-28 17:45:33 +08:00
@xihefeng 也可以有偿学习
iscurry
2021-02-28 17:50:04 +08:00
@imgbed 每个 ip 能用几十次
iscurry
2021-02-28 17:51:49 +08:00
@lawler 分布式的目的是什么呢?
z5e56
2021-02-28 22:03:18 +08:00
淘宝的员工满意地笑了并关闭了本标签页
imgbed
2021-03-01 11:52:23 +08:00
@iscurry 那要有足够的 IP 才行
xihefeng
2021-03-04 08:45:10 +08:00
@iscurry 我见到的是破解 app 端特定参数,例如 https://github.com/xzh0723/Taobao,然后使用代理 ip 等方式搞的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/756671

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX