如何从 ocr 识别后的碎片化信息中提取出有效信息，如姓名手机号身份证车牌这种信息。 - V2EX

Home Sign Up Sign In

This topic created in 857 days ago, the information mentioned may be changed or developed.

目前没有成本和时间搭建一个大模型，能想到的就是比较原始的正则匹配方式。
但是弊端比较多，只能精确匹配，多一个字少一个字都拿不到，或者带*号的，有时候 ocr 出来的也会缺东西多东西。导致肉眼能看到的很多信息正则都匹配不到。
大佬们有什么比较好的方案或者类似工具库吗，可以比较人性化一点的匹配到有效信息，比如多个数字少个数字或者看着比较像人名的都可以匹配到。

8 replies • 2024-03-15 15:21:50 +08:00

1

xylitolLin

Mar 15, 2024

先用 yolo 处理一下图片，把目标区域切下来之后，再进行 OCR ，这样可以提高 OCR 的准确性

2

lidapang

Mar 15, 2024

2

试试这个 https://gitee.com/hongzai/RapidOcr-Java.git

3

KOMA1NIUJUNSHENG

OP

Mar 15, 2024

@lidapang 可以啊老哥，这个识别出来的比百度高精度 ocr 还好一点。

4

KOMA1NIUJUNSHENG

OP

Mar 15, 2024

@lidapang 但是错别字有点多，文字的识别准确度有待改善。

5

lidapang

Mar 15, 2024

你根据文档上面的参数调整下，错别字多的原因可能识别的时候那个临界点没有设置合适，前提不对图片做处理的情况下

6

SuperMaskv

Mar 15, 2024

如果是证件，表格这种类型的可以看一下微软的 layoutlm 系列，有中文的预训练模型
https://github.com/microsoft/unilm/tree/master/layoutlmv3

7

xmuli

Mar 15, 2024 via iPhone

如百度 ocr 接口也有专门针对车牌，发票等具体的，识别率很高。

8

KOMA1NIUJUNSHENG

OP

Mar 15, 2024

@lidapang #5 可以，我试一下。

About · Help · Advertise · Blog · API · FAQ · Solana · 1305 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 51ms · UTC 17:21 · PVG 01:21 · LAX 10:21 · JFK 13:21
♥ Do have faith in what you're doing.