各位爬虫大神怎么过验证码这一关的?

2018-07-18 18:42:42 +08:00
 cnmllll

1.自己 tessorflow 深度学习? 2.第三方验证码接口接入?

5644 次点击
所在节点    Python
12 条回复
suley
2018-07-18 18:46:26 +08:00
验证码难不难?简单的数字和字母可以到 github 上找找看看那些识别验证码的开源代码;
比较复杂的验证码的一般是接入第三方打码平台。
luosuosile
2018-07-18 18:49:50 +08:00
cookid 行不行?爬虫方面不怎么会
ml1344677
2018-07-18 19:01:08 +08:00
1.爬虫应该尽可能的避免或减少触发验证码,找其他的接口或者换 ip 地址,需要登录的另说。
2.如真的触发,图片验证码应该比较容易解决的,不需要 tessorflow 深度学习什么的,有开源的库,滑块和各种奇葩还是接打码平台吧
Nick2VIPUser
2018-07-18 20:15:40 +08:00
同问...量级比较大的话买验证码接口成本略高
supervipcard
2018-07-18 20:46:21 +08:00
简单的字母验证码跟复杂的点选啥的都可以自己训练模型来识别,不过一般得标注训练集,自己标注费时费力,可以花钱找人标注,想省事就直接接入第三方。
karot
2018-07-19 08:00:44 +08:00
我想做成滑两个或三个块的验证码,哈哈
Leigg
2018-07-19 08:53:25 +08:00
建议别想着自己搞,会花很多精力还不一定有结果,你若能用 tf 搞定各种验证码的话,就不用干爬虫了。
RicardoScofileld
2018-07-19 09:47:55 +08:00
容易识别的可以用 tesseract,复杂的就大码平台 吧
GoPHP
2018-07-19 10:57:17 +08:00
先想办法研究如何不触发验证码验证吧? ip,ua... 还是根据账号?

话说都上了验证码肯定不是根据账号来,想封你账号太简单了,那估计就是 ip 了,ip 可以找代理,这比你破验证码简单多了!
crawl3r
2018-07-19 12:24:18 +08:00
1. 先尝试能否绕过,比如某些网站的验证码明文写在 cookie 里并在本地校验
2. 不能绕过如果是简单验证码,比如没有变形的,只要进行简单的处理(二值化,反相等)后扔给 tesseract 就行了
3. 有轻微变形或干扰的,去躁->svm
4. 干扰严重或变形严重的,keras 搭个 cnn+mlp
cnmllll
2018-07-21 10:27:32 +08:00
@ml1344677
@supervipcard
@Leigg
@RicardoScofileld
有没有打码比较快的平台推荐,之前用的若快,感觉速度不太行啊
Leigg
2018-07-21 10:28:24 +08:00
云打码,还行

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/472097

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX