V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
KOMA1NIUJUNSHENG
V2EX  ›  问与答

如何从 ocr 识别后的碎片化信息中提取出有效信息,如姓名手机号身份证车牌这种信息。

  •  
  •   KOMA1NIUJUNSHENG · 125 天前 · 891 次点击
    这是一个创建于 125 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前没有成本和时间搭建一个大模型,能想到的就是比较原始的正则匹配方式。
    但是弊端比较多,只能精确匹配,多一个字少一个字都拿不到,或者带*号的,有时候 ocr 出来的也会缺东西多东西。导致肉眼能看到的很多信息正则都匹配不到。
    大佬们有什么比较好的方案或者类似工具库吗,可以比较人性化一点的匹配到有效信息,比如多个数字少个数字或者看着比较像人名的都可以匹配到。
    8 条回复    2024-03-15 15:21:50 +08:00
    xylitolLin
        1
    xylitolLin  
       125 天前
    先用 yolo 处理一下图片,把目标区域切下来之后,再进行 OCR ,这样可以提高 OCR 的准确性
    lidapang
        2
    lidapang  
       125 天前   ❤️ 2
    KOMA1NIUJUNSHENG
        3
    KOMA1NIUJUNSHENG  
    OP
       125 天前
    @lidapang 可以啊老哥,这个识别出来的比百度高精度 ocr 还好一点。
    KOMA1NIUJUNSHENG
        4
    KOMA1NIUJUNSHENG  
    OP
       125 天前
    @lidapang 但是错别字有点多,文字的识别准确度有待改善。
    lidapang
        5
    lidapang  
       125 天前
    你根据文档上面的参数调整下,错别字多的原因可能识别的时候那个临界点没有设置合适,前提不对图片做处理的情况下
    SuperMaskv
        6
    SuperMaskv  
       125 天前
    如果是证件,表格这种类型的可以看一下微软的 layoutlm 系列,有中文的预训练模型
    https://github.com/microsoft/unilm/tree/master/layoutlmv3
    xmuli
        7
    xmuli  
       125 天前 via iPhone
    如百度 ocr 接口也有专门针对车牌,发票等具体的,识别率很高。
    KOMA1NIUJUNSHENG
        8
    KOMA1NIUJUNSHENG  
    OP
       125 天前
    @lidapang #5 可以,我试一下。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4981 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 07:28 · PVG 15:28 · LAX 00:28 · JFK 03:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.