怎么最大限度的做防采集?

2015-06-01 14:34:37 +08:00
 haopic
RT,最近网站被采集的厉害,怎么才能有效的防采集!
我知道肯定不可能完全做到防止,但是能防一步一分防一部分。
2931 次点击
所在节点    问与答
15 条回复
simapple
2015-06-01 14:37:37 +08:00
但凡有一点工具基础,防采集 基本上不成立,实在不行 做个chrome插件 一页一页的翻 总可以吧
shootsoft
2015-06-01 14:40:47 +08:00
用HTML增加随机水印,经常更换模板,用redis记录每个IP访问的次数,超过一定次数的时候就block,再不行你就随机把文字替换成文字图片...
wy315700
2015-06-01 14:42:47 +08:00
防采集 == 搜索引擎也很难采集
thankyourtender
2015-06-01 14:44:00 +08:00
法律途径就可以解决,报警
mhycy
2015-06-01 14:45:49 +08:00
网址无规律就挡掉一批写采集规则的了
搜索引擎是按照链接爬取的,采集是按照URL规律爬取的.
zhangchax
2015-06-01 14:53:23 +08:00
其实整页用图片输出是个不错的防采集方法
就是代价比较大...
dingzi
2015-06-01 14:54:48 +08:00
最后结论防不胜防
haopic
2015-06-01 14:56:09 +08:00
@shootsoft redis限制IP怎么做?
binux
2015-06-01 14:57:32 +08:00
防爬的代价是爬的10倍
shootsoft
2015-06-01 16:45:30 +08:00
@haopic 来一个请求,在redis里面记录一下当前IP在当前小时/天的访问次数,就跟每个IP只能投一次票一样,可以设置24小时之后自动过期,可以重新访问。 @binux 说的对,你要付出的代价是很大的,这套逻辑需要比较大内存的机器来做,或者是redis集群
cszhiyue
2015-06-01 17:15:50 +08:00
点进去看了一下。。运来是图片站
Mizzi
2015-06-01 17:28:10 +08:00
用微信扫码验证
dong3580
2015-06-01 17:36:10 +08:00
这个问题貌似我回答过不少次,对于防采集,给点方法,不过也都是得不偿失:
1.页头加上刷新重载,可以刷掉一个低级的爬虫(例如:webup等);
2.动态生成关键数据的标签,注意,生成的标签要缺HTML标签半边之类的,也就是故意让页面报错,浏览器都会自动处理,不影响阅读体验或者页面布局即可。这样,用xpath的爬虫会报错。(例如:火车头,用xpath方式写的爬虫,用正则的影响不大吧)
3.上面两种如果采集你的页面,正则过滤所有标签样式 也是没法防的。
4.只要有入口一样采集,链接没规律一样可以采集,只是难度加大了而已,动态链接倒是可以让爬虫蛋碎一下,不过对于搜索引擎不太好。其他的,将文字转成图片,加验证码的,都是不合适的方式和或者会改变体验。当然,1,2方式实际上对自己的网站也是非常不友善,正如 @binux 所说的,代价太大,防爬之路任重道远,流氓有文化了你还能咋办。
lyragosa
2015-06-01 17:38:29 +08:00
很难。
最好的办法是无视,眼不见心不烦。
sohoer
2015-06-01 17:47:20 +08:00
只有在网站数据量很大如:10W、100W级,并且爬虫需要比较快的更新数据时如:每天一次、两次或更多次
反爬才有意义,不然防的也只是小白。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/195284

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX