imn1
2014-09-18 12:47:21 +08:00
老实说,我是不太想教你方法,虽然我不做post(发广告),但做了10年get(爬虫)
上面有些朋友说的对,几近无解、提高成本
我遇到几个情况算是比较麻烦的,但并非我解决不了,只是懒得搞
1.验证码,单纯的copy式验证码不难,难的是一些要思考的,就是答案并不在显示的图片内
听闻清大还弄了个解高数的验证码?
2.服务器端频率限制
3.客户端(主要是js)用一个算法生成一个特征值(每次不同),服务器端反解判断
1/2两种方法我觉得服务器那边算是山穷水尽了,因为这两种方法是严重影响用户体验的,是一种杀敌500自损1000的做法,很容易流失客户
第三种可能只对我有效,其他人无效,因为我做爬虫不赚钱,纯兴趣,目标比较固定是图片和那些图片相关资料,个人对js引擎不太熟,图片到处都是,要我花时间去研究破那个js不值得;但那些发广告的都是有钱收的,性质就大不一样了,可能他们挂js引擎已经很熟悉了……
我的建议是,摸索一下客户的忍耐程度,主要以方法2,不定时用方法1
方法3如果做得很高级,也是有一定作用的,你可以从adblock -> anti adblock -> anti adblock killer 之间的战争往深处想
最最高级的还是搞好站点的氛围,重疏轻堵,这方面我给v2ex点赞