有如下验证码,是某个游戏的。这个验证码有点阴间,人眼辨别也不简单。于是想走识别。
收集了大几千张,统计出来,大约有 500 个字的选项。然后上面的条纹背景的字自动生成的。
自己主业是写 Java 后端的,然后尝试现学 Python 先用 OpenCV 搞了一下。先做轮廓检测,再二值化,抠字。发现部分能抠出来,但是部分背景和字不太能区分,或者把字当做了背景。字可以走 ocr 问题不大。
由于自己是垃圾本科,没有研究生的机器学习、深度学习的前置知识,所以这块还得重新学。
然后这个图是一张样图。
下面是已经有标注 ABCD 答案的样本,有大几千张,正确率在 90-95%。
现在需要处理的思路,就是,具体需要学习哪些方面的知识,样本大致的处理方向,和识别的方式,还有样本最好的数量规模是多少。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.