关于如何阻止网络爬虫

2015-03-17 09:36:56 +08:00
 1023400273
最近我一个网站被别人扒了,未避免广告嫌疑url就不贴了,不知道有什么有效的方法可以防止爬虫呢?

我想到的几个方法:
1、限制IP访问频率(无效,后台看不到有异常ip访问,我猜想爬虫大约五六分钟来一次)
2、用js动态加载数据内容(无效,爬虫支持js,且网站不利于seo)
3、抛出js异常,部分爬虫会无法解析(仅仅只是部分)

感觉爬虫和正常访问没啥区别,不知道有没有有效防止爬虫的方法

做爬虫的法律风险都有啥?感觉好像不太容易举证,求解答
9853 次点击
所在节点    程序员
52 条回复
imlonghao
2015-03-17 17:48:46 +08:00
@Anybfans a链接nofollow
imlonghao
2015-03-17 17:49:51 +08:00
@northisland 手机端走http协议的可以抓的
京东手机端有个接口就可以很好的爬......
1023400273
2015-03-17 17:55:11 +08:00
@c3538378 这个很难爬么?乍一看感觉不难啊,看源代码都能看到数据
c3538378
2015-03-17 18:14:08 +08:00


工商注册信息那部分用的图片,当然如果用手机版可能可以看到源码。
crab
2015-03-17 18:22:53 +08:00
@c3538378
POST地址: http://mapi.1688.com/openapi/json2/1/ali.mobile/company.getCompany/71045
POST参数:_data_={"request":{},"memberId":"szhlxkjyxgs"}
返回的筛选下。
Daniel65536
2015-03-17 20:57:45 +08:00
@Anybfans 爬虫作者一般不会考虑网站的robots协议,搜索引擎会。
zpvip
2015-03-17 22:47:04 +08:00
挑一两百个高频文字生成图片代替,比如 “我, 的,就,是,要。。。”

图片名用 md5 或 随机数,这种关系存在缓存,文章显示前替换一下,

每一小时把所有图片全部换名字,图片防盗链。
ynyounuo
2015-03-17 22:56:19 +08:00
SmiteChow
2015-03-17 23:03:05 +08:00
道高一尺,魔高一丈,真要爬你,怎么都拦不住,反图灵测试只要是技术生成的,破解都是必然的。

现实一点,就是权限验证,任何资源都必须验证权限,频次验证,单位时间内访问次数限制
lshero
2015-03-17 23:30:41 +08:00
如果真针对PC浏览的话不搞手机自适应,我觉得只要他不上图片OCR的话,你可以把一些常用字做成图片,输出的时候把一些常用字图片混入文本之中,这样他采集的内容就是断断续续的这样可读性就会差不少
ericls
2015-03-18 04:22:52 +08:00
用无边框的table动态生成排版
m939594960
2015-03-18 09:32:54 +08:00
@lshero 电脑字体不一样 会很蛋疼的。。 高低参差不齐!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/177430

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX