如何从 ocr 识别后的碎片化信息中提取出有效信息,如姓名手机号身份证车牌这种信息。

282 天前
 KOMA1NIUJUNSHENG
目前没有成本和时间搭建一个大模型,能想到的就是比较原始的正则匹配方式。
但是弊端比较多,只能精确匹配,多一个字少一个字都拿不到,或者带*号的,有时候 ocr 出来的也会缺东西多东西。导致肉眼能看到的很多信息正则都匹配不到。
大佬们有什么比较好的方案或者类似工具库吗,可以比较人性化一点的匹配到有效信息,比如多个数字少个数字或者看着比较像人名的都可以匹配到。
1139 次点击
所在节点    问与答
8 条回复
xylitolLin
282 天前
先用 yolo 处理一下图片,把目标区域切下来之后,再进行 OCR ,这样可以提高 OCR 的准确性
lidapang
282 天前
KOMA1NIUJUNSHENG
282 天前
@lidapang 可以啊老哥,这个识别出来的比百度高精度 ocr 还好一点。
KOMA1NIUJUNSHENG
282 天前
@lidapang 但是错别字有点多,文字的识别准确度有待改善。
lidapang
282 天前
你根据文档上面的参数调整下,错别字多的原因可能识别的时候那个临界点没有设置合适,前提不对图片做处理的情况下
SuperMaskv
282 天前
如果是证件,表格这种类型的可以看一下微软的 layoutlm 系列,有中文的预训练模型
https://github.com/microsoft/unilm/tree/master/layoutlmv3
xmuli
282 天前
如百度 ocr 接口也有专门针对车牌,发票等具体的,识别率很高。
KOMA1NIUJUNSHENG
282 天前
@lidapang #5 可以,我试一下。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1023862

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX