网站经常被一些人恶意采集,烦不胜烦,也没什么好的办法,以前网上查到云锁的防 cc 功能可以防采集
就想到了 云锁的 防 cc 功能,实验结果,确实可以防采集,
但是也发现了一些事情,有些比较疑惑
① 因为我设置的请求规则比较严格,所以屏蔽了不少 ip 后来查询得知,是阿里云的 ip (也就是神马搜索)和 360 搜索的蜘蛛 ip 比较多,屏蔽多了没事吧,查询资料也发现 他们两家的蜘蛛太疯狂,
② 为了防采集,一天也屏蔽了不少疑似采集的 ip 其中 比较多的是 爬取 https://www.***.com/news/page/1 的比较多,但是 网站是没有 /page/1 的 大家都知道 目录第一页就是 https://www.***.com/news 第二页直接是 https://www.***.com/news/page/2 是不是爬取了 page/1 的都是采集我网站的 ip 呢
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.