1
dawe 2019-10-03 13:44:40 +08:00 via iPhone
不是有打码平台么 就是不知道价格怎么样
|
2
eason1874 OP @dawe 国外三哥的打码平台才几分钱一个,但小数怕长计。其实用开源代码可以识别大部分了,不用主要是不想写异常处理,自己手动打还可以顺便看一眼数据有没有问题
|
3
wafm 2019-10-03 13:56:35 +08:00 1
你用代码识别大部分,失败的扔打码平台去
不就 OK 了吗? 我之前做过车牌识别的项目,相机识别失败的就直接扔给 OCR 平台,准确率比现在的停车场不知道高多少了 后面甲方觉得没必要 OCR 识别了 项目就停止了 |
4
eason1874 OP @wafm #3 个人项目做着玩,我连服务器都没买,直接本地生成 HTML 传到云存储。现在打码当消遣感觉还不错,将来有必要再接打码平台了。
|
5
ClericPy 2019-10-03 15:09:17 +08:00
一些不是超大规模抓取, 确实人肉就够了...
微信公众平台继承了微信一贯的怎么不方便怎么搞的风格(就像 PC 微信一样...), 所以我基本上服务器里就是 headless chrome 访问填入帐号密码, cdp 截到验证码流量(实际上也可以拿到 cookie 二次请求, 我懒得), encode 成 b64 发到服务器上, 一次扫好几个图片还是挺爽的 以前也搞过搜狗, 用了很多 cookie 漏洞做了长时间伪造身份, 后来漏洞封了, 发现... 小规模的时候就是无脑反爬验证码也不麻烦, 起码不去考虑 safe interval 的估算了... 我也是无聊水一帖 |
6
eason1874 OP @ClericPy #5 以前我强迫症很严重,能程序跑的东西坚决不让人工介入,哪怕写程序的时间比人工操作的时间还要多。
后来我看到一些企业发家史说,他们业务刚开始的时候,很多功能其实只是在前端可以用户自助操作,后端实际配置还是技术手动搞的,显示的配置生效时间其实是给技术客服手动配置的时间。 慢慢的我心态就不一样了,业务能跑起来是第一位,自动化的改进后面根据发展需要再去搞了。 |
8
simoncos 2019-10-03 17:10:49 +08:00
你多打一点训练数据不就又有了
|
9
lneoi 2019-10-03 18:30:11 +08:00
验证码不就是要实时性吗,这一次标注的数据下一次又不能重复用,除非当做训练数据来弄
|
10
eason1874 OP |
11
ochatokori 2019-10-03 18:47:58 +08:00 via Android
你人工打也有打错的时候啊,异常处理还是要写的
|
12
eason1874 OP @ochatokori #11 也要写,不过不用提前写,先直接抛出来,遇到一个再处理一个
|
13
CommandZi 2019-10-03 23:30:16 +08:00
「有多少人工就有多少智能」我还以为说另外一件事~
|
14
diggerdu 2019-10-04 09:35:17 +08:00 via iPhone
标好的验证码可以存下来 日后要上模型也比较方便
|
15
eason1874 OP |
17
zhaishunqi 2019-10-08 15:00:58 +08:00
人工智能没毛病。。。
|