[阿里爬虫] 如何应对反爬？

最近在做房产拍卖的爬虫，京东的很好爬，很容易就爬到需要的几千条记录（包括图片，附件，自动生成海报），自动生成数据库需要的数据 (node.js + puppeteer)，在小程序显示：

但要爬淘宝的就难多了，时不时要求登陆或者验证（如果请求频繁），也会让你休息，看网上也有很多普通用户抱怨这个关键是滑滚过去还会失败：

https://sf.taobao.com/item_list.htm

正在摸索，阿里主要是根据 cookie 来判别请求是否过于频繁，网上也说了每个请求最好相隔几秒

更可恶的是，在阿里自己的阿里云服务器根本就请求不到（无论是什么 cookie ），我要本地定时爬然后发到远程服务器~~ 😡

请问该如何道高一尺魔高一丈？🎃

statement

2022-02-23 14:40:11 +08:00

@ospider 也不是单纯的玩梗只是提示风险毕竟已经有很多案例了如果真想送你进去一定可以送你进去。确实是违法的只是影响力不大没造成破坏和竞争追究没有收益罢了。和建梯子出售差不多道德上没啥问题但违法你在这里说肯定回你我看刑你到相应社区就会和你交流技术

SoulClinic

2022-02-23 14:49:33 +08:00

这个违法问题咱是提前问了客户的啊，他说没问题，这是合法的😹
咱主要是冲着玩技术去，有点挑战更好玩
传说中爬虫都要用 Python 似的，咱可是要替 node/JavaScript 取回公道啊

deplivesb

2022-02-23 14:54:59 +08:00

@SoulClinic #8 公开的数据不代表比可以通过非正常技术手段获取。给你找一些案例，https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China
这里面哪一个的数据不是公开的。说不好听的，如果你爬的是 gov 网站，请求量过大，把人家系统搞崩了。那反手就是一个非法侵入计算机信息系统罪，给你说一个真事。我的一个同学现在在某银行的清算机构，今年年前因为要对接数字人民币，他的同事和数字人民的人测试联调，在测试环境，因为发送了较多的不合规的数据（测试嘛，再尝试各种条件下的错误之类的），被人家直接报警了。理由就是 “尝试” 进行破解，最后我这个同学的同事被派出所拉过去各调查问话，最后还被开除了。
所以说，远离爬虫，自己玩玩就行了，数据握在自己手里。别公开声张。你这个还用跑来的数据做小程序。然后后期再进行了盈利，那你真是离牢饭不远了

westoy

2022-02-23 14:58:40 +08:00

@SoulClinic

客户买的是方案

具体做实现方案的是你啊

客户当然不怕了，数据本身又不违法，有法律风险的是绕过平台风控的解决方案本身和提供解决方案方啊.......

lithiumii

2022-02-23 15:00:35 +08:00

确实没见过能绕过阿里的滑块的爬法，正常使用都会跳，何况爬虫。淘宝天猫还好，印象中考拉和高德之类的阿里系，同款滑块但要求更严，真人正常使用都会滑不过

ElegantOfKing

2022-02-23 15:07:08 +08:00

真的违法。客户说不违法，那是客户不知道的。
我关注的一个博主，爬虫能力特别强，做了所谓的淘宝每日商品排名，主要是免费提供给大家看看热度。直接被淘宝的律师警告+杭州法院出庭。从此之后他没再碰淘宝的任何业务。
他免费的都栽了，更何况你这都是盈利了。

westoy

2022-02-23 15:11:17 +08:00

@herozzm

时政新闻的互联网管制这块一向很厉害的，搞垃圾站的都不敢碰的，你去做流量一大被盯上，当地的文化、新闻各种管局绝对会来抄你服务器的。

而且当时备案严打最厉害的时候，各种 IDC 清退个人用户，企业网站甚至连留言簿都要下，不然可能机房都会被封。而头条还敢做评论。

你想想当时头条的业务，字节能做，你能做么，你敢做么?

musi

2022-02-23 15:17:41 +08:00

@SoulClinic #25 你要不猜一下阿里为什么花大力气做反爬？单纯做着玩？还有爬虫和用什么语言无关，就别纠结 Python 还是 nodejs 了。违不违法你竟然去问客户而不是问律师，你这方便了客户客户当然高兴，那肯定让你做喽。还管你违不违法

ospider

2022-02-23 15:27:07 +08:00

回楼上的诸位：梯子被抓的多还是爬虫被抓的多？在法律边缘试探的事情多了去了，我就是好奇为啥唯独爬虫讨论下边这种『警示』和自我阉割的言论特别多。爬人家的商业数据当然违法了，我不想洗白这一点，纯好奇。

westoy

2022-02-23 15:30:27 +08:00

@azuis

app 也有反爬的，它那个反爬是全系全端全局的(甚至涵盖了千牛)

它那个反爬有个动态权重的，app 端稍微加权低一点，但是命中+解锁频率一频，权重就会上去，究极形态是一段时间内无限命中验证码

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/835907

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.