小白用云锁防采集发现的一些疑惑

2017-12-09 19:57:22 +08:00
 ybyqiji

网站经常被一些人恶意采集,烦不胜烦,也没什么好的办法,以前网上查到云锁的防 cc 功能可以防采集

就想到了 云锁的 防 cc 功能,实验结果,确实可以防采集,

但是也发现了一些事情,有些比较疑惑

① 因为我设置的请求规则比较严格,所以屏蔽了不少 ip 后来查询得知,是阿里云的 ip (也就是神马搜索)和 360 搜索的蜘蛛 ip 比较多,屏蔽多了没事吧,查询资料也发现 他们两家的蜘蛛太疯狂,

② 为了防采集,一天也屏蔽了不少疑似采集的 ip 其中 比较多的是 爬取 https://www.***.com/news/page/1 的比较多,但是 网站是没有 /page/1 的 大家都知道 目录第一页就是 https://www.***.com/news 第二页直接是 https://www.***.com/news/page/2 是不是爬取了 page/1 的都是采集我网站的 ip 呢

2166 次点击
所在节点    分享发现
3 条回复
newworld
2017-12-09 20:01:22 +08:00
你看请求参数判断行为啊 采集的肯定和人的正常访问不同的
gamexg
2017-12-09 20:36:18 +08:00
你看一下从第二页点击 1 后 url 是什么,大部分系统这时候都会访问到 /page/1。
ybyqiji
2017-12-09 21:23:09 +08:00
@gamexg 从第二页点击 1 后 直接就是目录网址 不会出现 /page/1 的 WordPress 网站 就像这个 http://www.daqianduan.com/design/page/2 第一页 就是 http://www.daqianduan.com/design ,就算访问 http://www.daqianduan.com/design/page/1 也会跳到 http://www.daqianduan.com/design 一般只有采集会出现 page/1 但是 云锁里面屏蔽 page/1 的的 ip 有点多了 几十上百个了,有那么多采集我的吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/413383

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX