求助验证码识别难题

2017-07-02 10:26:58 +08:00
 fjhh
最近想实现这样一需求,全自动登录网站,获取某些内容,保存为 mht 格式文件,上传至 windows 共享文件夹。
现已实现半自动登录,但需要用户手工输入验证码,想用程序实现全自动化。网上搜索各类代码,发现对于验证码的识别酷似难度极高,作为一个业余选手,颇感压力山大。
求大家伙目测此验证码识别的难度如何?
期待能给出 demo 的代码,万分感谢。
也期待能给出一些提纲性的指引。
验证码地址: https://www.cqccms.com.cn/workspace/Captcha.jpg
4385 次点击
所在节点    Python
13 条回复
h4x3rotab
2017-07-02 10:55:53 +08:00
接入打码平台
lsido
2017-07-02 11:00:28 +08:00
fiht
2017-07-02 11:12:30 +08:00
这种空心的不怎么好搞..难度略高,Google 家的 tesseract 应该不能直接搞定。
如果不能搞定的话自己处理就比较复杂了,这方面的博文有很多你可以自己去找一找。
不行的话就直接买打码服务就好,量不大的话也花不了多少钱
misaka19000
2017-07-02 12:25:46 +08:00
多收集点验证码做训练数据,然后用机器学习来搞
ivechan
2017-07-02 16:06:18 +08:00
验证码识别, 如何正确切割是很重要的, 一般来说, 如果能正确切割。 用现在深度学习算法, 像这一种弯曲度很低的验证码很容易达到可用的正确率。
cdwyd
2017-07-02 18:52:24 +08:00
放弃破解吧,接入打码平台
anexplore
2017-07-02 18:58:38 +08:00
打码平台
kylinking
2017-07-02 19:37:57 +08:00
安利一波自己实现的
https://github.com/kylingit/Captcha_recognize

验证码不是通用的,重要的是思路
myself659
2017-07-03 09:13:10 +08:00
@kylinking 思路不错,赞
enenaaa
2017-07-03 09:37:22 +08:00
这种还不算难。 比较好切割。
用简单的卷积神经网络应该有能接受的准确度。
ty0716
2017-07-03 15:06:00 +08:00
看了下,这种还算比较好处理,英文数字的倾斜程度都是一样的,噪点和干扰线也比较明显。
二值化再比对下,当然了,连在一起的就不好玩了。
量小的话可以买验证码 api
或者你可以手动登录一次,记下 cookie,定时刷新以保证在线(固定过期时间的除外)
nosilence
2017-07-03 16:25:38 +08:00
多刷几张验证码图片,你会发现这验证码很有特点。
wulalala
2017-07-05 12:17:14 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/372442

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX