V 友们有没有防止灰产爬虫的方法?

2020-04-24 11:08:40 +08:00
 zhuwd

公司平台每天都会被灰产爬到很多数据,用的代理池和大量真实用户帐号,模拟登录并直接请求接口,请教 V 友大佬有啥应对策略吗

7104 次点击
所在节点    程序员
55 条回复
zgzhang
2020-04-24 17:08:27 +08:00
@mrzx 问题的点不在于池子有多大,而是这种 IP 可能会被重新分配给正常用户,如果你的应用体量很大,这样引发的客诉是不可控的
freeup
2020-04-24 17:09:16 +08:00
可以接入第三方反爬虫 比如 极验
freeup
2020-04-24 17:10:46 +08:00
但是无论怎么搞 总会有大佬能破 只能尽可能减少被爬的风险
clague
2020-04-24 17:15:31 +08:00
谷歌验证码,不过对正常用户的体验损坏也很大。
mrzx
2020-04-24 17:21:15 +08:00
@zgzhang 嗯,明白了,误伤率很高吗。

因为我做过类似项目,我们对地址池的划分都是严格按照运营商的的区域进行划分的,最多按照客户数量的 90%来分,比如该区域有 1 万个用户,早期我们给的地址池就 9000 个,实际我们测过,持续在线的客户数量平均只有 60%。也就是说,这地址池里,同一时间最多 3000 个地址能供秒拨机来使用啊。。。当然,实际情况会更小。上面说有几百万个不重复地址,我就在想它怎么来的?除非对方办了不同区域,且办理 n 个宽带。。

我最多一个区域也就分配一个 B 的地址段而已。。。。
heiheidewo
2020-04-24 17:22:28 +08:00
哈哈,爬站无数,除非你限制账号访问,否则无解
zgzhang
2020-04-24 17:29:45 +08:00
@mrzx 现在的 IP 地址供应商基本上都是会在 N 个地区用不同用户办理 N 很大的宽带,提供给客服的基本上是 VPS 或者是一个 VPN 账号,实际上就是把他的网络资源云化了,客户甚至可以通过接口指定出口 IP 的区域,类似这种 https://www.kuaidaili.com/
gz911122
2020-04-24 17:34:26 +08:00
@zgzhang 这个不错...收藏了.
mxT52CRuqR6o5
2020-04-24 17:35:52 +08:00
我有个不靠谱的想法,如果判断出是爬虫可以返回正确格式的假数据,让爬虫很难判断自己有没有失效,污染对方爬到的数据,不过感觉风险很大不靠谱,如果影响正常用户会造成损失
darksand
2020-04-24 17:37:46 +08:00
@dearmymy 最后一条太毒了
newmlp
2020-04-24 17:49:59 +08:00
接口请求参数加密一下啊
mrzx
2020-04-24 18:04:01 +08:00
@zgzhang 谢谢,第一次听说这种骚操作。。学习了,除非运营商的 bras 服务器针对这种方式做限制。
HUALIAN
2020-04-25 13:14:48 +08:00
接入滑块验证码和加密 js 验证参数是最有效的
forgottencoast
2020-04-25 16:33:48 +08:00
@zgzhang 这个网站不违法吗?怎么就不需要整改了?手工狗头。
darksand
2020-04-27 09:52:21 +08:00
@adminPUBG 求教一下,大佬的 ip 池是怎么搭建的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/665594

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX