求教~ 前后端分离网站,怎么应对爬虫

2022-11-21 13:33:15 +08:00
 pokeyou

web 前端代码都是公开的,做了任何加解密,签名验证都会被看到,并且直接做到爬虫程序里~ 如何应对呢。 API 签名有多大意义呢。

6705 次点击
所在节点    程序员
46 条回复
sss495088732
2022-11-21 13:40:05 +08:00
专业的事交给专业的人 0.0(akamai)
proxytoworld
2022-11-21 13:42:31 +08:00
用 js 做运算,同时判断是否是真的浏览器发起的请求,headless 和普通的还是有一定区别的
ThanksSirAlex
2022-11-21 13:42:50 +08:00
这和分不分离有关系吗,就算是集成式框架,到了浏览器也是 js html css ,该能看的都能看到,同一的加密解密算法就应该放到服务端去做,防爬虫只能靠一些风控手段去做,比如请求频率什么的去做。
molvqingtai
2022-11-21 14:19:05 +08:00
敏感信息,字符用定位,或者用图片
Features
2022-11-21 14:23:08 +08:00
1.破解混淆和加密是有成本的,并且不低
2.参考下大厂基本都是通过各种验证码来防机器人的
youngce
2022-11-21 14:30:12 +08:00
先想 10 个反爬方案,然后不定时随机上线一种方案
ml1344677
2022-11-21 14:33:01 +08:00
主要思路不是防止所有爬虫,而是提高爬虫花费的成本。我之前爬取过某网站,请求接口后返回一个 list ,这个 list 可以按顺序组成一个多边形,当我调试了两三天,全部部署好了后,大概跑了一周多,完全没异常。后来检查数据的时候发现,几万条之后,返回的 list 全是做了乱序的。。。。
GoCoV2
2022-11-21 14:37:49 +08:00
逆向思维,爬爬别人的网站,就知道该怎么防了
yekern
2022-11-21 14:39:04 +08:00
浏览器指纹,把爬虫的指纹都丢在黑名单里
copymaster
2022-11-21 14:56:35 +08:00
@ThanksSirAlex op 意思可能是保护接口不被破解,除了他的代码调用以外不准别人调用
copymaster
2022-11-21 14:58:32 +08:00
首先要明确一点,完全防爬虫是不可能的,只能无限提高门槛,具体思路可以参考其他回复给的建议
op351
2022-11-21 15:03:01 +08:00
学习 discuz 之类的论坛 直接后台把单 ip 每天的请求次数写死 超过频率就永远拉黑
zhangkunkyle
2022-11-21 15:05:30 +08:00
极验啊,瑞数啊,安域啊。。。
libook
2022-11-21 15:07:46 +08:00
用 webassembly 写就不公开了吧
kozalak
2022-11-21 15:09:25 +08:00
学 cloudflare 的 5 秒盾,加验证码
Radom
2022-11-21 15:32:44 +08:00
这个真的太难了
chengkai1853
2022-11-21 15:33:38 +08:00
如果你说的是防止抓页面内容,那几乎防不了!
horou
2022-11-21 15:39:42 +08:00
@libook 用 wabt 等工具还是可以逆向,只是成本又会提升一个量级
vacuitym
2022-11-21 15:40:42 +08:00
可以试试非对称加密+代码混淆
fournoas
2022-11-21 15:48:46 +08:00
captcha captcha 还是 captcha

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/896776

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX