关于爬取淘宝详情页的问题

2020-03-31 23:06:59 +08:00
 changwenrui2310

python 用 request 库爬虫爬取淘宝详情页碰到了个奇葩问题 为了分析请求,我用的 fiddle,当开启 fiddle 代理,运行代码,无论请求多么频繁,都不会报错 拿掉代理,直接请求,稍稍频繁就报错,这是为什么呢?怎么解决? 下面是报错 requests.exceptions.ConnectionError: ('Connection aborted.', RemoteDisconnected('Remote end closed connection without response')) 代理就是个本地的代理,和 ip 没有关系,为什么有代理就行,没代理就完蛋? fiddle 对请求做了什么处理呢

5202 次点击
所在节点   淘宝
15 条回复
jugelizi
2020-03-31 23:10:33 +08:00
证书吧
changwenrui2310
2020-03-31 23:14:47 +08:00
@jugelizi 已经移除对 SSL 的认证 verify=False,如果是证书有问题的话恐怕直接请求不到吧,我这里是请求频繁就拒绝
learningman
2020-03-31 23:27:09 +08:00
估计是用 js 做了反爬
changwenrui2310
2020-03-31 23:29:10 +08:00
@learningman 我不太明白,如果是做了反爬,为什么加个 fiddle 代理就能开爬呢?
None123
2020-03-31 23:30:28 +08:00
@learningman 这 tm 和 js 有什么关系 不懂就不要瞎说
None123
2020-03-31 23:34:07 +08:00
@changwenrui2310 改一下请求头
changwenrui2310
2020-03-31 23:39:33 +08:00
@None123 改什么呢?你的意思是每次请求都改一下?
ArJun
2020-03-31 23:48:57 +08:00
为啥要爬淘宝详情呢,直接调淘宝接口不行吗
None123
2020-03-31 23:50:02 +08:00
changwenrui2310
2020-03-31 23:54:29 +08:00
@None123 改 headers 的那个参数?
changwenrui2310
2020-03-31 23:56:19 +08:00
@ArJun 有些东西淘宝官方的接口没有
dxasqw
2020-04-01 09:46:35 +08:00
是不是提交了 gzip 的协议头,然后没有解压处理
learningman
2020-04-01 13:37:03 +08:00
@None123 如果说我在发送主请求的同时,js 补一个校验呢?
写爬虫第 1 步就是查 js 吧,不查你写个屁,年轻人不要太暴躁。
None123
2020-04-01 13:59:50 +08:00
@learningman 别逗 楼主这个问题和 js 没关系的
None123
2020-04-01 14:03:37 +08:00
@changwenrui2310 照着 游览器的该改

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/658128

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX