突然想到一种简单的反爬虫方法，大家觉得可行性如何？

RE

2017-03-21 09:02:42 +08:00

你说的这三点，只要是针对你网站去爬的，不都可以伪造么……

alwayshere

2017-03-21 09:05:15 +08:00

@RE 同时满足这三点的，估计一大部分都过滤掉了吧

friskfly

2017-03-21 09:05:39 +08:00

现在爬虫图省事直接用真实的浏览器去爬了。还是高级验证码什么的靠谱点。

jininij

2017-03-21 09:06:47 +08:00

我都是屏蔽所以 analytics js 的。

alwayshere

2017-03-21 09:07:20 +08:00

@friskfly 我写爬虫很少用浏览器去爬，要不对方一下流量突然暴涨，肯定要追查 ip 的

notgod

2017-03-21 09:07:40 +08:00

我忘记了域名是什么了
就是显示很多域名注册商域名注册量还有 isp 的 IP isp 的 ip 绑定了多少网站
使用的 webserver 等等一个统计网站

最早的时候我是拿来抓淘宝新绑定的网店域名二级域名然后干些不可描述的事

后来抓不到
那边加了个 Cookies 有效期验证这个我尝试 N 多方法爬不到数据
无论如何都爬不到但是人工访问没问题

好像的算法是这个逻辑
A 访问页面生成一个 cookies 这个信息是加密的包括有效期
A 在访问其他页面解密验证 cookies 算有效时有效放行无效显示 spam 验证

alwayshere

2017-03-21 09:09:44 +08:00

@notgod 搜索引擎支持 cookie 么？不会吧可爱的小蜘蛛也给误杀了？

nicevar

2017-03-21 09:11:33 +08:00

只要你的网站能正常访问，就没法屏蔽爬虫，这个事情好无聊

notgod

2017-03-21 09:12:07 +08:00

@alwayshere 封 IP 什么的都是浮云,
我也遇到封 IP 但是使用变态方式解决了
直接拿 AKAMAI 的 CDN 去绑源站 , 然后利用 AKAMAI 的 N 多 IP 轮番上阵
左一遍又一遍的把别人网站轮的不要不要的.......

notgod

2017-03-21 09:13:29 +08:00

@alwayshere 新一代的爬虫都支持 cookie , 而且可以解析 js 内容了差不多和人访问的区别不大
不要认为还是以前爬网页只是提取文本和图片内容

practicer

2017-03-21 09:18:51 +08:00

这两天发现一个没碰到过的防爬例子，
用 css display: inline-block;width: auto 穿插着自动显示文本，蜘蛛和爬虫互不影响
网址： http://club.autohome.com.cn/bbs/thread-c-3170-60727592-1.html

darluc

2017-03-21 09:22:15 +08:00

说一下，以前公司遇到爬虫都是吐脏数据的

alwayshere

2017-03-21 09:22:52 +08:00

@darluc 这个有点贱，不怕对方报复么

alwayshere

2017-03-21 09:24:49 +08:00

@practicer 这个。。。蜘蛛没法识别了吧，全是 css 显示文本。。。

kindjeff

2017-03-21 09:26:51 +08:00

百度知道在你大量访问的时候，返回的是字的图片，就是几个字中间出现一个图片的字，用户看起来没有区别，爬虫就爬不到所有的字。

gamecreating

2017-03-21 09:27:59 +08:00

你还是研究下机器学习...能自住修改反爬规则

jininij

2017-03-21 09:28:15 +08:00

我是每个 session 都随机新建一个密码。然后在输出页面里用这个密码对称加密。在页面 head 里放一个外部 js ，在这个 js 是用 php 生成的，将替换的字替解密换回去。因为 head 里的 js 会阻塞显示，所以用户根本看不出文字错误。但查看源码是一堆乱码。
为了防止复制，这些解密后的字符是通过 canvas 绘制到页面中的。再加点与用户对应的水印最好。
有本事就去逐行调试 js 。

RE

2017-03-21 09:35:02 +08:00

@alwayshere 你想多了，要满足这三点太简单了， V2 的 API 调用限制了每 IP 每小时 120 次，照样都把三十万帖爬下来了，关键就看要不要爬而已

xuan_lengyue

2017-03-21 09:36:06 +08:00

发现爬虫直接返回假数据怎么破。

tabris17

2017-03-21 09:48:21 +08:00

太简单了，根本防不住。

要防爬虫，最彻底的就是让程序抓取到内容也无法解读，而人类却能一眼看懂。

我想到的一个办法是字体替换，类似于“ Font Awesome ”，动态生成字体映射文件，人类看到文字是有意义的文字，而程序抓取出来却是“ asdf ”这样无意义的文本。