求教~ 前后端分离网站，怎么应对爬虫

2022-11-21 13:33:15 +08:00

pokeyou

web 前端代码都是公开的，做了任何加解密，签名验证都会被看到，并且直接做到爬虫程序里~ 如何应对呢。 API 签名有多大意义呢。

7176 次点击

所在节点

程序员

46 条回复

sss495088732

2022-11-21 13:40:05 +08:00

专业的事交给专业的人 0.0(akamai)

proxytoworld

2022-11-21 13:42:31 +08:00

用 js 做运算，同时判断是否是真的浏览器发起的请求，headless 和普通的还是有一定区别的

ThanksSirAlex

2022-11-21 13:42:50 +08:00

这和分不分离有关系吗，就算是集成式框架，到了浏览器也是 js html css ，该能看的都能看到，同一的加密解密算法就应该放到服务端去做，防爬虫只能靠一些风控手段去做，比如请求频率什么的去做。

molvqingtai

2022-11-21 14:19:05 +08:00

敏感信息，字符用定位，或者用图片

Features

2022-11-21 14:23:08 +08:00

1.破解混淆和加密是有成本的，并且不低
2.参考下大厂基本都是通过各种验证码来防机器人的

youngce

2022-11-21 14:30:12 +08:00

先想 10 个反爬方案，然后不定时随机上线一种方案

ml1344677

2022-11-21 14:33:01 +08:00

主要思路不是防止所有爬虫，而是提高爬虫花费的成本。我之前爬取过某网站，请求接口后返回一个 list ，这个 list 可以按顺序组成一个多边形，当我调试了两三天，全部部署好了后，大概跑了一周多，完全没异常。后来检查数据的时候发现，几万条之后，返回的 list 全是做了乱序的。。。。

GoCoV2

2022-11-21 14:37:49 +08:00

逆向思维，爬爬别人的网站，就知道该怎么防了

yekern

2022-11-21 14:39:04 +08:00

浏览器指纹,把爬虫的指纹都丢在黑名单里

copymaster

2022-11-21 14:56:35 +08:00

@ThanksSirAlex op 意思可能是保护接口不被破解，除了他的代码调用以外不准别人调用

copymaster

2022-11-21 14:58:32 +08:00

首先要明确一点，完全防爬虫是不可能的，只能无限提高门槛，具体思路可以参考其他回复给的建议

op351

2022-11-21 15:03:01 +08:00

学习 discuz 之类的论坛直接后台把单 ip 每天的请求次数写死超过频率就永远拉黑

zhangkunkyle

2022-11-21 15:05:30 +08:00

极验啊，瑞数啊，安域啊。。。

libook

2022-11-21 15:07:46 +08:00

用 webassembly 写就不公开了吧

kozalak

2022-11-21 15:09:25 +08:00

学 cloudflare 的 5 秒盾，加验证码

Radom

2022-11-21 15:32:44 +08:00

这个真的太难了

chengkai1853

2022-11-21 15:33:38 +08:00

如果你说的是防止抓页面内容，那几乎防不了！

horou

2022-11-21 15:39:42 +08:00

@libook 用 wabt 等工具还是可以逆向，只是成本又会提升一个量级

vacuitym

2022-11-21 15:40:42 +08:00

可以试试非对称加密+代码混淆

fournoas

fournoas

2022-11-21 15:48:46 +08:00

captcha captcha 还是 captcha

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/896776

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX