先展示下:
其它特征特征如下:
1.所有的汉字都是方方正正的,大小一致,间距一致,并在同一水平线上。
2.在图像软件里快速切换图片会发现『等于』完全重合。
我觉得可以有方法来解决这个问题。
目前的思路就是,生成所有的组合(10×4×10)然后和验证码依次对比,但是没有接触图像处理这方面的知识,不太清楚具体如何处理。
请给的建议,谢谢!
PS:今天验证码敲得手疼。
1
BGLL 2015-01-07 22:03:42 +08:00 1
这么简单的验证码...字体、位置都不带变的,二值化,去噪点就完了
|
2
halfcrazy 2015-01-07 22:22:18 +08:00 1
搭车关注一下,中文验证码如何识别。相比字母数字,中文汉字的可能性太多了。
|
3
msg7086 2015-01-07 22:24:54 +08:00 via iPhone
Captcha的目的就在于防止批量自动处理。
|
4
aaaa007cn 2015-01-07 22:41:31 +08:00 1
但是顶楼示例就是个典型的对机器友好,对人不友好的反面例子……
|
6
ooxxcc 2015-01-08 00:01:07 +08:00 1
这个验证码简直太机器友好了……
颜色聚类(k均值?)然后按照点数量可以知道那个是字体,去噪,分割字符,对前三个字符ocr 因为字符固定(第一个和第三个有10种,第二个有4种),都好识别,提取个特征最近邻识别就好 剩下的就简单了 |
7
ooxxcc 2015-01-08 00:02:33 +08:00
卧槽位置都固定的直接切出来,提个特征,最近邻就行了,分离前景背景去噪都省了
|
8
9hills 2015-01-08 00:03:52 +08:00 via iPad
我又想起以前在v2ex上看到的一个滑块式验证码了,看起来很高大上,但其实是Post的时候加了个参数,对机器友好的厉害。。
|
9
BGLL 2015-01-08 00:07:31 +08:00
@ooxxcc 就14个字还聚什么类啊,位置、字体都一样,都是不用任何图像算法,直接无脑取一个个像素点与14个标准字比,二值化都不带用的。
|
10
omi4399 2015-01-08 00:07:36 +08:00 1
算上零总共才13*13*2 338种可能性。。。。。
|
13
halfcrazy 2015-01-08 03:22:34 +08:00 via iPad
@BGLL 怪我没说清楚,我这里指的中文是指普遍意义上的。在楼主的case中,中文的独立字体确实有限。
|
14
loveminds 2015-01-08 04:26:16 +08:00 1
|