现在大家爬虫爬淘宝都是用什么办法能全站大量爬取啊?给个思路吧?能用手机 app 端爬取吗?

2019-06-22 13:12:10 +08:00

z1421012325

目前在搞电商爬虫,
京东还行,还是能爬取的,一台机使用 scrapy 开个四个假的分布式窗口(配置差,不敢开太多,怕一觉起来电脑卡死),ip 被 ban 也不是很严重,除了一些页面需要使用 selenium 抓取之外(图书页面要下滑加载 js),其他的页面都可以直接抓取,不过如果中间掺杂需要 selenium 的页面会很慢,12 小时总共能爬 8w 页面(因为 scrapy 回调函数),一台机器能爬 3w 数据算多的了..

但是淘宝就恶心到我了........ 反爬很严重,用 selenium 爬几下就 gg, cookies 之后也用不了,除非用新的,再说我也没有那么多账号弄 cookies

根据用户行为来判断是否爬虫的吗?

还是查找原始 ip 来 ban 掉 ip?高匿 ip 不行吗?

那么能使用 app 加 mitmdump 拦截抓取数据保存,还是通过 pc 端加自制脚本(非 selenium)模拟用户点击+mitmweb 拦截数据?

17980 次点击

所在节点

Python

49 条回复

bigbigeggs

2019-06-23 00:22:26 +08:00

这个爬取好像市场价，两毛一条。
selenium 好像不行，会有下拉框。
可以试试 ip，那种有真实用户下单的 ip 段

kingfalse

2019-06-23 04:08:13 +08:00

周瑜打黄盖，常威咬来福。

zzy578

2019-06-23 04:47:42 +08:00

我爬过一个店铺的，在 network 里找对数据的请求，分析 json 拿数据
这个 url 没有反爬，把 cookie 加上就可以

z1421012325

2019-06-23 11:17:36 +08:00

@zzy578 详情页没啥反爬,只是列表页不好弄

UFc8704I4Bv63gy2

2019-06-23 23:11:08 +08:00

@zdb1115 当然可以

Jaho

2019-06-24 09:05:03 +08:00

要付费爬算我一个[手动狗头]

yebo777

2019-06-24 09:16:16 +08:00

淘宝现在都不能正常使用，动不动就要验证

fank99

2019-06-24 10:45:26 +08:00

淘宝大众点评都是出了名的难爬。。没发现百度都说"由于该网站的 robots.txt 文件存在限制指令（限制搜索引擎抓取），系统无法提供该页面的内容描述"

gxlonline

2020-07-10 12:02:28 +08:00

需要挂上代理 IP，推荐：酷鱼代理 IP

第 3 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/576429

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.