如何控制多 IP 低频率的采集

2017-07-17 18:55:26 +08:00
 tianxiacangshen
查看了一下对方的方式:

几百个 ip,ip 之间基本上很少有三段相同(难以实施屏蔽 IP 和 IP 段);

一个 IP 一小时访问 15 次左右,躲过验证码,并且和正常用户没差别;

几百个 ip 一小时也就采集 5000-6000 次,目前不影响网站速度等性能;

但是,尼玛,看对方模拟发送的 url 配置的参数,总量在一百万以上,这就必须得管管了,不然流量费也要耗掉不少,目前分析对方是模拟 curl 模拟 post 提交的,各项参数齐全,我设置的检测$_SERVER['HTTP_REFERER']已经被他绕过。

还有啥办法?
3540 次点击
所在节点    PHP
26 条回复
johnnie502
2017-07-18 01:37:57 +08:00
补充一下,假数据也不能 100%喂,这样也容易被对方识别出来,半真半假就行了。
15015613
2017-07-18 07:59:37 +08:00
@sunwei0325 @aqqwiyth
NoScript、Cookie Monster、RequestPolicy Continued 的走起。
gam2046
2017-07-18 08:48:46 +08:00
尝试在页面中加入一个随机的长宽为 0 的 image,如果服务端发现客户端没有请求这个钓鱼 image,就基本可以断定对方没有使用浏览器访问,那么除了爬虫 应该也只有 Google Spider 了
cyrh
2017-07-18 11:49:45 +08:00
好拼啊,几百个 ip 每小时爬取 5000 数据,这个频率都被楼主发现了
glogger
2017-07-18 18:27:29 +08:00
并且和正常用户没差别;
就凭这一条,根本不用管。。
ericgui
2017-10-02 21:35:38 +08:00
你开放 API,收费。
说真的,对大家都合适。他也省劲,你也赚点钱。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/375973

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX