起因:
首先我们的学校认证的内网地址是 http://10.1.1.185
然后我打开火狐调试器,看到界面的源码
于是我就顺着这个地址打开 http://10.1.1.185/eportal/module/style_guest_register.jsp
结果发现:
看到这个验证码及其 low,于是尝试用火狐自带的抓包分析了下
于是乎用 python 写了一个识别验证码的模块和一个简单的爬虫(代码不放出来了~逃)
刚开始,爬下来的验证码不行,无法完成验证
我那时候有点郁闷(主要是爬虫没写过几次~2333)
后面继续用火狐自带的抓包,分析了下获取验证码的接口,发现 header 里有个 Referer 这个参数,于是我就明白了。
最后的效果还是很给力的~配合 tesseract 还是很强力的~
最终的效果图:
至于这个验证码有多容易被识别,简单讲下,就是直接二值化,然后放大两倍就行,虽然有一定的失败率,但识别效果本身就很强,估计 1min 能有 70 个短信(保守估计~)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.