[阿里爬虫] 如何应对反爬?

2022-02-23 13:57:41 +08:00
 SoulClinic

最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

https://sf.taobao.com/item_list.htm

正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡

请问该如何道高一尺魔高一丈?🎃

12107 次点击
所在节点    程序员
158 条回复
murmur
2022-02-23 13:59:12 +08:00
这里有京东的人么,你们的法务部该行动了
9c04C5dO01Sw5DNL
2022-02-23 14:00:07 +08:00
楼主可真刑啊
cweijan
2022-02-23 14:00:58 +08:00
对, 不能太频繁, 而且请求后要用新 cookie 替换掉当前 cookie
registerrr
2022-02-23 14:01:33 +08:00
很可铐,我看刑
einq7
2022-02-23 14:03:36 +08:00
我铐,家人们,太刑了,日子越来越有判头了
westoy
2022-02-23 14:05:01 +08:00
V 站京东的程序员呢? 楼主这样挑衅你们能忍么? 快点去肝反爬
deplivesb
2022-02-23 14:09:24 +08:00
楼主离国家饭越来越近了
SoulClinic
2022-02-23 14:14:09 +08:00
你们太纯真善良了,这些数据“好像”是公开的啊,已经有类似的 app 了,例如这个: https://www.yfbudong.com/
@cweijan 替换 cookie 我试了确实可行,但是只能人工,请教自动替换怎么整( puppeteer 有点点被阿里打压了一样)
YUyu101
2022-02-23 14:14:20 +08:00
对不知道有没有用无头浏览器爬的
statement
2022-02-23 14:17:36 +08:00
看是否追究了 公开的数据爬应该可以 但可以给你安一个 破坏计算机系统罪 而且你爬公开信息 也只能自用 不能对外提供服务吧
QK8wAUi0yXBY1pT7
2022-02-23 14:19:36 +08:00
我就正常用 Chrome 打开淘宝都时不时出现那个验证。
掏包网太瓷了。
wunonglin
2022-02-23 14:19:36 +08:00
@SoulClinic #8 你知道什么是口袋罪么?
googlefans
2022-02-23 14:19:49 +08:00
@einq7 hahaha
SoulClinic
2022-02-23 14:21:36 +08:00
咱暂时的底牌就是:如果阿里的爬不到,就爬这个海豚网
大部分需要的阿里的数据好像在这个海豚里都有 🤖
TtTtTtT
2022-02-23 14:22:11 +08:00
@SoulClinic 马路也是公开的,也不能说躺就躺啊 =。= 公开和数据的归属权本来就是两回事。
ChicC
2022-02-23 14:22:26 +08:00
反爬做到牺牲用户体验了
ospider
2022-02-23 14:22:54 +08:00
一谈爬虫就开始玩儿梗,要真去逆向板块反倒一群大佬能谈点技术。某些 V 友真是魔怔了,恨不得马上替阿里用口袋罪给抓住。就这个来说,去搜下各种指纹吧,TCP 指纹、TLS 指纹、浏览器指纹,会有些思路的。
SoulClinic
2022-02-23 14:28:28 +08:00
@wunonglin 不知道,听起来 Google 好像是罪大恶极了?
用户跟我说的主要目的就是节省用户(主要是律师)的时间 /效率,现在他们要一时搜京东,一时搜阿里,白花了很多时间精力
这就是货真价实,名正言顺的“为人民服务”啊!!
Jooooooooo
2022-02-23 14:34:14 +08:00
@SoulClinic 公开数据当然不能随便爬. 搜 爬虫 坐牢 有惊喜.
winnerczwx
2022-02-23 14:35:47 +08:00
@SoulClinic #8 绕过反爬已经属于违法行为了, 即使是公开信息... 只要对面公司起诉必被抓

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/835907

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX