网站被拥有强大 ip 代理池的爬虫搞, ua 随机变化,怎么办

2022-02-18 20:20:01 +08:00
 herozzm

每个 ip 只访问 1-2 页面,没法封锁 ip ,ua 也是随机变化

9247 次点击
所在节点    信息安全
86 条回复
Puteulanus
2022-02-18 20:22:58 +08:00
看看 tls 指纹?
herozzm
2022-02-18 20:26:26 +08:00
@Puteulanus 能否再详细?
ch2
2022-02-18 20:32:17 +08:00
只访问一个页面没办法,人肉用这种办法也能把你的网站搬空
爬虫本质上是无法阻止,只要你把信息放出去了迟早会被别人全拿走
herozzm
2022-02-18 20:39:06 +08:00
@ch2 看来信息没法公开了
DeWjjj
2022-02-18 20:40:25 +08:00
@herozzm
普通用户降权看不到全部文字。
herozzm
2022-02-18 20:41:04 +08:00
@DeWjjj 爬虫注册用户加上 cookie 也一样
Darkside
2022-02-18 20:41:06 +08:00
@herozzm #2

英文关键词叫 tls fingerprint ,这个网站 https://tlsfingerprint.io/ 提供了比较详细的介绍。

简单来说,不同的 TLS implementation (浏览器 / 各种语言的 HTTP 库)在建立 TLS 连接的时候发送的信息(支持的密码学套件 / 签名算法之类的)不一样。如果对面使用了某些流行的 HTTP 库,并且没有试图模仿浏览器的行为的话,你可以利用 tls fingerprint 把它和正常的浏览器区分开来。

比如目前 Chrome 的 tls fingerprint 是 e47eae8f8c4887b6 ,可以在这里查看详细信息 https://tlsfingerprint.io/id/e47eae8f8c4887b6
herozzm
2022-02-18 20:42:28 +08:00
@Darkside 谢谢
0ZXYDDu796nVCFxq
2022-02-18 20:42:41 +08:00
加 cookie ,cookie 需要 js 来运算
这样爬虫需要 js 引擎才能正常访问

或者接入 cloudflare 算了
justs0o
2022-02-18 20:43:16 +08:00
如果代理 IP 很多,除了商业方案,基本无解
herozzm
2022-02-18 20:43:25 +08:00
@gstqc 这类爬虫就是用模拟浏览器发起访问的,支持 js 预算
0ZXYDDu796nVCFxq
2022-02-18 20:44:29 +08:00
@herozzm 是模拟还是真实的浏览器?
还是接入 cloudflare 吧
justs0o
2022-02-18 20:44:57 +08:00
@gstqc cloudflare 是 WAF ,这个需要 BOT WAF
herozzm
2022-02-18 20:45:17 +08:00
@gstqc 无头 chrome ,headless chrome
herozzm
2022-02-18 20:46:57 +08:00
@gstqc cloudflare 实际上在国内访问有抽风问题,不敢用
justs0o
2022-02-18 20:47:45 +08:00
@herozzm 直接上阿里的 WAF 吧,按量付费
des
2022-02-18 20:49:38 +08:00
限制只允许家宽访问?
herozzm
2022-02-18 20:50:54 +08:00
@des 他们的爬虫就是家宽 ip ,估计是很多家庭肉鸡
justs0o
2022-02-18 20:51:13 +08:00
@des 现在的代理 IP 都是家宽
des
2022-02-18 20:51:53 +08:00
这,所以你是怎么看出来是爬虫?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/834902

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX