如何反制内容采集器?

2015-06-30 12:00:38 +08:00
 baskice
老被人爬,火大啊
2259 次点击
所在节点    问与答
17 条回复
em70
2015-06-30 12:04:35 +08:00
监控日志,单位时间内超过一定量自动封IP 24小时
lk09364
2015-06-30 12:05:27 +08:00
Septembers
2015-06-30 12:23:00 +08:00
如果不是面向大众的话
可以专有化(专有客户端 专有设备 专有网络 等等)
(可控因素越多就越能达到你的目的
dong3580
2015-06-30 12:31:10 +08:00
@em70
你封了一堆长宽用户可以不用上来了,
cst4you
2015-06-30 12:38:02 +08:00
关站
neo2015
2015-06-30 12:44:34 +08:00
我有一招,迄今为止还没有人能采集到我的内容。哪怕是他去手动复制都不可以。。。



此招就是:不建网站
dangge
2015-06-30 12:46:09 +08:00
DZ有个插件,在正文后面随机加随机字符,白色的,正常浏览看不到。
sobigfish
2015-06-30 12:51:54 +08:00
这样对搜索的bot也不友好了吧
em70
2015-06-30 12:58:34 +08:00
你分析日志嘛,爬虫只抓页面,不抓CSS,JS吧,把这种IP可以分析出来封掉
49
2015-06-30 13:46:14 +08:00
@em70
gamexg
2015-06-30 13:48:59 +08:00
发现后爬虫后别直接暴力封锁,而是对爬虫随机的提供错误的内容。
qiuai
2015-06-30 13:50:32 +08:00
你可以解析一下规则,然后去搜一点H小说返回给采集器..
反正采集的人基本上只看标题和前面一段,后面的东西都不看...你就给他塞一些H小说进去...
你要是再狠就给他插上几张H图...
lshero
2015-06-30 14:03:13 +08:00
@qiuai 然后恰好遇到了警察蜀黍的爬虫自动截图并保存时间戳
liujiantao
2015-06-30 14:55:49 +08:00
百度知道防采集就是给短时间较大访问进行分析给出错误结果了,不过公用一个IP的用户(我不是黑长宽)有一个作死就23333了
sumhat
2015-06-30 15:01:27 +08:00
制作过一个 WordPress 插件,本意是用于防止敏感词被墙的,也可用于反采集。当然对搜索引擎有一定的限制作用。

介绍: https://leonax.net/p/1969/wp-plugin-enigma/
guesskiss
2015-06-30 15:53:32 +08:00
css和js用php输出,凡是这个php没获得客户端ip的全部ban掉,前提是伪静态要做好 要不别人一眼就分析出原因了
qiuai
2015-06-30 19:54:29 +08:00
@lshero =.=都分析出来了,干嘛还在自己的网站显示...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/202125

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX