用 Python 写爬虫,请各位坛友推荐一个免费好用的验证码识别方法或者平台

2017-10-25 13:33:54 +08:00
 sniperhgy

如题,遇到有验证码的网站,就完全爬不起来了,请大家指点一下,谢谢了。

5473 次点击
所在节点    Python
15 条回复
tumbzzc
2017-10-25 13:35:20 +08:00
接入打码平台
comeluder
2017-10-25 13:38:25 +08:00
打码兔~~
hcnhcn012
2017-10-25 13:42:59 +08:00
gaojin
2017-10-25 14:37:00 +08:00
如果自己玩的话 ,那就把图片下载下来,手动输入,
大规模的话,可以机器学习识别 或者 接入第三方打码平台。
tcsky
2017-10-25 15:07:29 +08:00
除了手动, 其他都是付费的
toono
2017-10-25 16:48:22 +08:00
安装 tesseract,然后 Python 调用。

觉得不准确的话,自己写配置去训练。
zhangsen1992
2017-10-25 17:27:36 +08:00
机器学习?自己训练?
zbl430
2017-10-25 17:50:13 +08:00
什么样子的验证码,发来瞧瞧
ppwangs
2017-10-25 17:55:41 +08:00
只是登录的话,保存 cookie 定时刷新。

我最近正好做相关的东西,识别验证码真复杂。
Sanko
2017-10-25 18:04:09 +08:00
目前在用阿里云的英数
qq316107934
2017-10-25 18:06:25 +08:00
把验证码发出来看看,不一定要用打码平台
JayFang1993
2017-10-26 10:04:52 +08:00


就微博这种怎么处理?
sniperhgy
2017-10-26 11:17:06 +08:00
谢谢各位的回应,暂时用了 tesseract,但是识别度有点低,验证码只要稍微一变点花样,就不能正确识别了
tumbzzc
2017-10-26 11:37:58 +08:00
@sniperhgy #13 明明可以花几元钱就可以打一两千次的码,偏偏选择成本更高的机器识别
qsnow6
2017-11-03 11:14:14 +08:00
@Sanko 英数是啥,没搜到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/400579

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX