另外OCR的图片都是这种理想情况下的,OCR识别率不高会不会是过拟合了,我在这方面也只是有所了解,不知道有没有大佬给个优化方向😅
1
warcraft1236 2020-12-17 11:40:05 +08:00
好东西,看之前先顶一下
|
2
leafleave 2020-12-17 18:58:51 +08:00
所以进能够使用网站提供的小样本进行测试
错别字:进→仅 |
3
ZAXON OP @leafleave 嗯,目前是依赖于 chineseocr_lite 做本地的 OCR,不过也提供了百度的接口,有条件的话用第三方接口识别率可能会更高。
我也不知道现在国内的 OCR 哪家比较厉害,计划是再加一个腾讯的接口。 毕竟 OCR 不能保证 100%的识别率,这也是做成 web 服务的原因,最后必须要经过一次人工核对的。 |
4
leafleave 2020-12-18 16:49:45 +08:00
有没有可能在 ocr 之后再利用输入法的词库检测出来可能的错别字,再尝试匹配其他相近的字符,这样可以提高准确率
|
5
ZAXON OP @leafleave 本质上这是通过将字体文件(fft\woff\woff2)中的每个字转换为 png 图片,来后针对每一张图片做 OCR 。有兴趣的话可以看看[实现思路]( https://blog.harumonia.moe/font-antispider-cracker/)。
最终是对含有单个字的图片进行识别,而不是对一段话的识别。 你说的这个思路倒是可以通过引进不同的 OCR 方式来检测出有争议的识别结果。 其实目前程序的设计还是有问题的。比如如果使用了第三方 OCR 做增补,这个增补只是针对本地 OCR 没识别出来的图片,而不是本地 OCR 识别错的图片(蛋疼的是这个错误只有人工能判断)。诸如此类的,我计划等周末再琢磨琢磨提高准确率的方法。 |