关于如何阻止网络爬虫

2015-03-17 09:36:56 +08:00
 1023400273
最近我一个网站被别人扒了,未避免广告嫌疑url就不贴了,不知道有什么有效的方法可以防止爬虫呢?

我想到的几个方法:
1、限制IP访问频率(无效,后台看不到有异常ip访问,我猜想爬虫大约五六分钟来一次)
2、用js动态加载数据内容(无效,爬虫支持js,且网站不利于seo)
3、抛出js异常,部分爬虫会无法解析(仅仅只是部分)

感觉爬虫和正常访问没啥区别,不知道有没有有效防止爬虫的方法

做爬虫的法律风险都有啥?感觉好像不太容易举证,求解答
9853 次点击
所在节点    程序员
52 条回复
oott123
2015-03-17 11:33:47 +08:00
做陷阱…藏普通用户看不到的链接,一点就封 ip 或者开始返回垃圾内容…
文字随机翻转然后用 css 转回来…
JoeShu
2015-03-17 11:39:12 +08:00
爬虫技术上的难点主要有:
1. ip限制,不过你的网站没有那么多的页面或者页面更新频率不多的话,这个可以用代理池来解决。
2. 登录验证码识别,目前的验证码识别率不高,这个目前只能通过图片识别、验证码库以及人肉来解决,不过这个会影响正常用户的访问。

其实搜索引擎本身就是通过爬虫来收录你的网站,楼主不希望影响seo,又不想影响流量,如果网站内容是原创的,不如试着收集证据直接给对方发律师函更有用。
sohoer
2015-03-17 11:41:49 +08:00
如果你的网站有海量数据,并且别人需要实时性较高的抓取你的数据,你可以考虑些策略对爬虫做限制
em70
2015-03-17 11:42:19 +08:00
写一段脚本每个小时分析一下日志,如果某个IP访问页面的数量超过一定值,就加入防火墙,每天凌晨解封全部IP
randyzhao
2015-03-17 11:44:22 +08:00
模拟browser行为的爬虫 怎么防
验证码都能破
anguskwan
2015-03-17 11:45:43 +08:00
我跟你说,只要能看得见,我就能怕得到。
1023400273
2015-03-17 11:49:18 +08:00
@JoeShu 我也认为走法律途径比较有效
1023400273
2015-03-17 11:50:25 +08:00
zhicheng
2015-03-17 12:35:45 +08:00
加一个隐藏的 flash 。
FrankFang128
2015-03-17 12:37:02 +08:00
图灵机测试
imlonghao
2015-03-17 12:42:07 +08:00
陷阱url,点中自动iptables见
Anybfans
2015-03-17 13:05:10 +08:00
@imlonghao 那搜索引擎的爬虫不就完蛋了。。。
est
2015-03-17 13:13:52 +08:00
@zhicheng 再写点AS检测鼠标轨迹。。。
ryd994
2015-03-17 13:49:54 +08:00
主要是搜索引擎本质上也就是个爬虫啊……
你要封爬虫,还想不影响SEO……
qdwang
2015-03-17 14:30:02 +08:00
针对搜索引擎返回文本文字,其他用户一律返回转曲的文字。
invite
2015-03-17 16:18:35 +08:00
1、限制IP访问频率(无效,后台看不到有异常ip访问,我猜想爬虫大约五六分钟来一次)
2、用js动态加载数据内容(无效,爬虫支持js,且网站不利于seo)
3、抛出js异常,部分爬虫会无法解析(仅仅只是部分)

一个爬虫做到了以上几个,跟人在浏览不是一个样了?

或者你跟踪鼠标吧,一般人鼠标都会动来动去的。
YonionY
2015-03-17 16:47:38 +08:00
爬虫是自动化的,有个思路。

在页面插入隐藏url,还有url规则随机插入钓鱼页。

准备一些轮子资料给他,访问到钓鱼页就送上轮子资料让他爬,如果这个爬虫是自动输出到网站的,然后马上举报他传播不良信息,他就有麻烦了。
northisland
2015-03-17 17:30:11 +08:00
37楼目前领先!!
我们公司有批人就是做爬虫的,手机端都能通过协议给你爬数据=_=
ioschen
2015-03-17 17:33:33 +08:00
@YonionY 真坏
c3538378
2015-03-17 17:46:30 +08:00
各位号称爬虫技术牛逼的大侠们,你们不如来采集一下alibaba试试?小弟才疏学浅,反正我是搞不定啦。

sample: http://szhlxkjyxgs.1688.com/page/creditdetail.htm

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/177430

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX