大家都怎么防采集的?哪一种性能最高?

2017-05-18 19:49:39 +08:00
 tianxiacangshen
有不少站都有防采集,一般是 IP 和 cookie,还有 session (会员)

1、从 IP 入手一般限制某个时间段内访问的最多次数,超过则出现验证码,弊端是每次访问都要检测该 ip 的访问次数和执行判断

2、从 cookie 入手,较为简单,但是显然防守能力很差

3、从会员入手,页面只有会员才能访问(或者超过多少页面就必须会员才能访问),一个会员一天只能访问多少次,弊端也很明显

有没有更佳的方法?
6213 次点击
所在节点    PHP
44 条回复
actto
2017-05-19 10:07:19 +08:00
还不如加个 api 接口提供给爬虫们,然后收费,每月 5 元。
AllenHai
2017-05-19 10:31:14 +08:00
1:网页中用框架,比如 QQ 空间;
2:写一套流弊的 JS 加密程序,比如网易云音乐;
3:每分钟请求超过一个阈值就弹验证码,检测到爬虫后返回 404 或者弹验证码或者给掺假的数据(半真半假那种);
4:必须用手机号注册账号,检测到异地登录必须输手机验证码,cookies 有效期短一点;
5:换字体,以前去哪儿用过;
6:把阿里云的 IP 段禁掉;
7:自己爬一下网上的免费代理,禁掉 IP ;
8:提取浏览器特征,来反 webdriver ;
9:UA 里做一些排查
silva
2017-05-19 11:12:25 +08:00
@AllenHai
你好,问两个问题,换字体来防御爬虫是个什么原理?
UA 是什么?
ty89
2017-05-19 11:18:30 +08:00
@AllenHai
qq 空间的例子就算了,我刚爬完一批文章
lepture
2017-05-19 11:40:13 +08:00
@silva 改字体对应关系,字符是 A 显示为 B。
AllenHai
2017-05-19 11:42:47 +08:00
@silva UA 是指 user-agent,你去看下 requests,scrapy 的请求头,封它就对了;
字体那个就像凯撒密码那样,把字体里数字换一下,通常数字顺序是 0~9,而自定义的字体里做个转换,比如 0 和 5 对应,1 和 9 对应。这个是挺有意思,但是也容易破解
Reign
2017-05-19 11:47:34 +08:00
@ioriwong 我写爬虫最喜欢你这种动态加载的方式了,一个 ajax 返回数据,连 HTML 解析都省去了
sampeng
2017-05-19 11:47:36 +08:00
特别反感爬虫,特别反感反爬虫

这是一个矛盾的话题,做内容的,自然要去爬数据。如果有公开的接口信息,没人愿意去爬数据。可现实是没有。
如果豆瓣,时光网有非常好的 api 直接提供,我相信没人愿意花费大量的时间精力去爬数据。
这是国内环境造成的,看看国外的,基本有权威的影音数据库,直接公开查询接口。

有些公共信息真的非常反感反爬虫机制,比如影音类的。。新闻类的。做个自定义 rss 都麻烦。。如果有收费的 api。我会直接购买。当然这是个遥不可及的想法。。。因为没有网站希望用户压根不上自己的平台。。国内现在大部分做内容的还是靠广告收费。任重而道远啊。。。。
coolcoffee
2017-05-19 11:51:05 +08:00
看来为了爬虫为了防止垃圾数据产生,还要对爬取的数据进行更换 IP 以及其它特征进行二次校验。
chairuosen
2017-05-19 13:43:09 +08:00
css:before 随机替换文章中的字
tianxiacangshen
2017-05-19 14:14:26 +08:00
@Reign 那还有啥更大的弊端?我以为只是占资源
tianxiacangshen
2017-05-19 14:18:12 +08:00
@mokeyjay 这个很好,抓到的内容不完整了,但是如果写个软件模拟浏览器将网页保存为图片的功能,将该网页保存为图片,然后将图片转换成 word..........
annielong
2017-05-19 14:23:17 +08:00
@mokeyjay 这个已经有破解了,直接建立图片库,采集后自动换成文字,记得无错小说网就是这样防采集的
wildcat007
2017-05-19 14:41:34 +08:00
上次在 V 站看到有个 网站 文字是一部分放到 div 里面,一部分放到 css 里面···看的我头都大了··
phrack
2017-05-19 15:07:27 +08:00
提个稍微偏题的

要注意逻辑越多,代码就会越多,漏洞可能也越多
jccg90
2017-05-19 16:16:18 +08:00
反爬虫、用户体验、SEO 这几个要综合考虑吧。。。光考虑反爬虫了,用户体验和 SEO 都搞得一塌糊涂了,没有意义啊。。。
sunsulei
2017-05-19 16:40:40 +08:00
相爱相杀一百年...你们是没有未来的,放弃吧.
vus520
2017-05-19 16:49:27 +08:00
一句话,用户能看见的,都能采,叼不叼
tianxiacangshen
2017-05-19 17:50:34 +08:00
@phrack 支持你,我看有些人就顾着玩弄技术了,应该各方面均衡,用户体验、网站安全、网站性能等
wizardforcel
2017-05-19 18:21:38 +08:00
不算绩效就不防

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/362301

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX