大家是怎样爬取亚马逊(美国)的数据？爬取速度怎么样？

2017-08-24 09:00:08 +08:00

adapalene

我在爬取亚马逊(美国)详情页时发现反扒虫比较厉害，因此购买了某代理爬取，但每天只能爬取 15w 条 ASIN 的数据。请教各位都是怎样爬取的？爬取速度如何？

7153 次点击

所在节点

9 条回复

JerryKwan

2017-08-24 09:11:25 +08:00

@adapalene amazon 的反扒机制是挺有意思的，如果有大量信息要爬取的话，不仅仅需要采用代理，还需要注意代理的使用策略

free9fw

2017-08-24 09:18:43 +08:00

要注意请求频率和速度，amazon 上有很多 ajax 的数据，可以直接拉取

huangfs

2017-08-24 09:22:15 +08:00

难道是昨天那个抓取外包的活？

cqcn1991

2017-08-24 10:18:31 +08:00

我是数据量很小，大概 1w 条，所以基本不需要做反爬，控制时间就好了…

nicktogo

2017-08-24 10:33:15 +08:00

我好像前年这个时候也用 ASIN 爬过美亚数据（怀念当时做的课程项目 233 ），当时是用美亚的 API，楼主可以查查看

adapalene

2017-08-24 13:19:55 +08:00

@JerryKwan 谢谢，能稍具体介绍下使用策略吗？

adapalene

2017-08-24 13:20:26 +08:00

@huangfs
不是，我已经爬了快 3 个月了

adapalene

2017-08-24 13:24:39 +08:00

@nicktogo
谢谢，我看下 API

qq12345454

2017-08-24 21:42:37 +08:00

我也想爬点数据，不过爬了不晓得怎么换钱

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.