大家是怎样爬取亚马逊(美国)的数据?爬取速度怎么样?

2017-08-24 09:00:08 +08:00
 adapalene
我在爬取亚马逊(美国)详情页时发现反扒虫比较厉害,因此购买了某代理爬取,但每天只能爬取 15w 条 ASIN 的数据。请教各位都是怎样爬取的?爬取速度如何?
7066 次点击
所在节点    Python
9 条回复
JerryKwan
2017-08-24 09:11:25 +08:00
@adapalene amazon 的反扒机制是挺有意思的,如果有大量信息要爬取的话,不仅仅需要采用代理,还需要注意代理的使用策略
free9fw
2017-08-24 09:18:43 +08:00
要注意请求频率和速度,amazon 上有很多 ajax 的数据,可以直接拉取
huangfs
2017-08-24 09:22:15 +08:00
难道是昨天那个抓取外包的活?
cqcn1991
2017-08-24 10:18:31 +08:00
我是数据量很小,大概 1w 条,所以基本不需要做反爬,控制时间就好了…
nicktogo
2017-08-24 10:33:15 +08:00
我好像前年这个时候也用 ASIN 爬过美亚数据(怀念当时做的课程项目 233 ),当时是用美亚的 API,楼主可以查查看
adapalene
2017-08-24 13:19:55 +08:00
@JerryKwan 谢谢,能稍具体介绍下使用策略吗?
adapalene
2017-08-24 13:20:26 +08:00
@huangfs
不是,我已经爬了快 3 个月了
adapalene
2017-08-24 13:24:39 +08:00
@nicktogo
谢谢,我看下 API
qq12345454
2017-08-24 21:42:37 +08:00
我也想爬点数据,不过爬了不晓得怎么换钱

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/385343

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX