[阿里爬虫] 如何应对反爬?

2022-02-23 13:57:41 +08:00
 SoulClinic

最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

https://sf.taobao.com/item_list.htm

正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡

请问该如何道高一尺魔高一丈?🎃

12106 次点击
所在节点    程序员
158 条回复
statement
2022-02-23 14:40:11 +08:00
@ospider 也不是单纯的玩梗 只是提示风险 毕竟已经有很多案例了 如果真想送你进去 一定可以送你进去。确实是违法的 只是影响力不大 没造成破坏和竞争 追究没有收益罢了 。 和建梯子出售差不多 道德上没啥问题但违法 你在这里说 肯定回你我看刑 你到相应社区就会和你交流技术
gongquanlin
2022-02-23 14:40:11 +08:00
淘宝连正常用户都 ban , 我正常访问都动不动出来个验证码反爬
wanguorui123
2022-02-23 14:44:56 +08:00
准备免费就餐吗?
murmur
2022-02-23 14:48:59 +08:00
@ospider 希望你以后做内容提供的时候能这么淡定哦
SoulClinic
2022-02-23 14:49:33 +08:00
这个违法问题咱是提前问了客户的啊,他说没问题,这是合法的😹
咱主要是冲着玩技术去,有点挑战更好玩
传说中爬虫都要用 Python 似的,咱可是要替 node/JavaScript 取回公道啊
SoulClinic
2022-02-23 14:53:55 +08:00
难道你们不想做黑客吗?不想的快去买一本《黑客与画家》
deplivesb
2022-02-23 14:54:59 +08:00
@SoulClinic #8 公开的数据不代表比可以通过非正常技术手段获取。给你找一些案例,https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China
这里面哪一个的数据不是公开的。说不好听的,如果你爬的是 gov 网站,请求量过大,把人家系统搞崩了。那反手就是一个 非法侵入计算机信息系统罪,给你说一个真事。我的一个同学现在在某银行的清算机构,今年年前因为要对接数字人民币,他的同事和数字人民的人测试联调,在测试环境,因为发送了较多的不合规的数据(测试嘛,再尝试各种条件下的错误之类的),被人家直接报警了。理由就是 “尝试” 进行破解,最后我这个同学的同事被派出所拉过去各调查问话,最后还被开除了。
所以说,远离爬虫,自己玩玩就行了,数据握在自己手里。别公开声张。你这个还用跑来的数据做小程序。然后后期再进行了盈利,那你真是离牢饭不远了
westoy
2022-02-23 14:58:40 +08:00
@SoulClinic

客户买的是方案

具体做实现方案的是你啊

客户当然不怕了, 数据本身又不违法, 有法律风险的是绕过平台风控的解决方案本身和提供解决方案方啊.......
westoy
2022-02-23 15:00:19 +08:00
@SoulClinic

类似案例就是做虚拟打卡或者外挂方案和卖这些方案的进去了, 买虚拟打卡和游戏外挂的都没事, 买方表示我怕个锤子啊......
lithiumii
2022-02-23 15:00:35 +08:00
确实没见过能绕过阿里的滑块的爬法,正常使用都会跳,何况爬虫。淘宝天猫还好,印象中考拉和高德之类的阿里系,同款滑块但要求更严,真人正常使用都会滑不过
herozzm
2022-02-23 15:02:50 +08:00
有很多人先行把自己先锁上了,字节跳动不就是靠这个发家的嘛
ElegantOfKing
2022-02-23 15:07:08 +08:00
真的违法。客户说不违法,那是客户不知道的。
我关注的一个博主,爬虫能力特别强,做了所谓的淘宝每日商品排名,主要是免费提供给大家看看热度。直接被淘宝的律师警告+杭州法院出庭。从此之后他没再碰淘宝的任何业务。
他免费的都栽了,更何况你这都是盈利了。
westoy
2022-02-23 15:11:17 +08:00
@herozzm

时政新闻的互联网管制这块一向很厉害的, 搞垃圾站的都不敢碰的, 你去做流量一大被盯上, 当地的文化、新闻各种管局绝对会来抄你服务器的。

而且当时备案严打最厉害的时候, 各种 IDC 清退个人用户, 企业网站甚至连留言簿都要下, 不然可能机房都会被封。 而头条还敢做评论。

你想想当时头条的业务, 字节能做, 你能做么, 你敢做么?
icy37785
2022-02-23 15:16:38 +08:00
@ospider #16 可不是玩梗。这事儿真就看追不追不追究,追究的话这些大公司的法务一告一个准,我可见太多爬公开信息戴银手镯的了。
mrhhsg
2022-02-23 15:16:58 +08:00
我看刑,有判头,很可铐!
楼主加油,争取早日吃上官家饭
musi
2022-02-23 15:17:41 +08:00
@SoulClinic #25 你要不猜一下阿里为什么花大力气做反爬?单纯做着玩?还有爬虫和用什么语言无关,就别纠结 Python 还是 nodejs 了。违不违法你竟然去问客户而不是问律师,你这方便了客户客户当然高兴,那肯定让你做喽。还管你违不违法
azuis
2022-02-23 15:26:43 +08:00
淘宝页面反爬很难的。要么你养足够多的账号,要么就是去逆向 App
ospider
2022-02-23 15:27:07 +08:00
回楼上的诸位:梯子被抓的多还是爬虫被抓的多?在法律边缘试探的事情多了去了,我就是好奇为啥唯独爬虫讨论下边这种『警示』和自我阉割的言论特别多。爬人家的商业数据当然违法了,我不想洗白这一点,纯好奇。
westoy
2022-02-23 15:30:27 +08:00
@azuis

app 也有反爬的, 它那个反爬是全系全端全局的(甚至涵盖了千牛)

它那个反爬有个动态权重的,app 端稍微加权低一点, 但是命中+解锁频率一频, 权重就会上去, 究极形态是一段时间内无限命中验证码
murmur
2022-02-23 15:41:53 +08:00
@ospider 做的事不要脸就不要大声说出来,这是砸其他用户的饭碗,别人辛辛苦苦收集内容是给你爬来偷的么

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/835907

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX