V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xuanjiangsara
V2EX  ›  分享创造

现在是不是 AI 都淘汰了 OCR 了?

  •  
  •   xuanjiangsara · 2024-07-02 21:50:45 +08:00 · 4264 次点击
    这是一个创建于 372 天前的主题,其中的信息可能已经有所发展或是发生改变。

    搜索了一遍竟然上一个帖子在去年。。。。 现在如果是单张很方便,扔给 Chatgpt4o 或者 claude 。但是对多张 pdf 就不友好了。或者觉得大材小用?? 有人有解决方案么?

    第 1 条附言  ·  2024-07-04 00:26:57 +08:00
    但是记得看了个新闻说用 AI 识别烧焦的古迹,我觉得就是绝对不是 OCR 识别后才给下一道 AI 继续做这么简单。
    我也是确实发现对比后,AI 的后操作要少很多。比如我用 ABBYY 这个,一旦不是他的字体库内的,训练就要死人。但其实人眼能大致认出来的,就应该识别。至少现在多模 AI 是鸡爪子字都认识的出来的,平时要处理的文稿都是有内容讲人话的句子。所以不想用传统 OCR ,问就是矫情。哈哈
    18 条回复    2024-12-05 16:49:48 +08:00
    gxt92
        1
    gxt92  
       2024-07-02 21:59:09 +08:00
    我觉得 OCR 变成了 AIGC 的前置处理流程或者说一部分了,而不是被淘汰
    lovestudykid
        2
    lovestudykid  
       2024-07-02 23:25:25 +08:00
    @gxt92 #1 现在多模态模型应该是直接处理图片,而不是 OCR 了再处理
    SkywalkerJi
        3
    SkywalkerJi  
       2024-07-02 23:47:35 +08:00
    yolo5 之类的模型不知道能不能有突破。
    lekai63
        4
    lekai63  
       2024-07-02 23:50:44 +08:00 via iPhone
    还是用回 OCR 呗
    czfy
        5
    czfy  
       2024-07-02 23:54:42 +08:00   ❤️ 2
    要经典的,有 白描 https://baimiao.uzero.cn/
    要开源的,有 Umi-OCR https://github.com/hiroi-sora/Umi-OCR
    如果你说要更底层的,那就是 Umi-OCR 上用的 PaddleOCR https://github.com/PaddlePaddle/PaddleOCR
    maolon
        6
    maolon  
       2024-07-03 00:09:05 +08:00 via Android   ❤️ 1
    实际上主流的 rag 开源项目,比如网易的 qanything ,ocr 依然是主力识别的手段,单纯用多模态有两个问题一是太慢,二是不够稳定
    RiESA
        7
    RiESA  
       2024-07-03 09:10:23 +08:00
    但是 AI 又没眼睛,怎么去"看"图片呢? 不也得依赖 OCR 之类的东西来读取图片
    Imr
        8
    Imr  
       2024-07-03 09:25:44 +08:00
    @czfy 还有 https://github.com/tesseract-ocr/tesseract ,不少开源 rag 用
    paidaxtis
        9
    paidaxtis  
       2024-07-03 11:04:37 +08:00
    首先 OCR 也是 AI
    其次目前 VL 大模型对传统 OCR 任务还是比较一般,更适合非结构化的 OCR 任务
    最后 VL 大模型做 OCR 太贵了,成本是几十上百倍.目前没看到有同行敢直接换的
    DjvuLee
        10
    DjvuLee  
       2024-07-03 12:38:59 +08:00
    单纯的 OCR 确实是的,主要是缺少语义,导致有一些识别不了。

    比如 Apple Notes 里面的 checkbox 就很容易识别为字母 O 。但是大模型有语义之后可能就能识别出这个是一个 checkbox 。

    我们正好做了一些这个方面的尝试,有兴趣可以看看我们的产品 ScreenAI: https://v2ex.com/t/1054303
    maemolee
        11
    maemolee  
       2024-07-03 21:12:33 +08:00
    OCR 是一个应用场景吧?就是 图片内文字提取。你通过传统手段或者 AI 手段实现,都没关系,都能达成一样的目的,甚至 AI 还给 OCR 场景提升了使用体验。
    xuanjiangsara
        12
    xuanjiangsara  
    OP
       2024-07-04 00:22:57 +08:00
    @lovestudykid 我觉得你说的对。我没有证据支持,但是就是感觉 AI 肯定用了 OCR ,但是记得看了个新闻说用 AI 识别烧焦的古迹,我觉得就是绝对不是 OCR 识别后才给下一道 AI 继续做这么简单
    xuanjiangsara
        13
    xuanjiangsara  
    OP
       2024-07-04 00:27:51 +08:00
    @maemolee 因为有一个 AI 接手了,我就可以扔掉 N 个本地 ocr apps 。步骤越少越好。
    xuanjiangsara
        14
    xuanjiangsara  
    OP
       2024-07-04 00:30:37 +08:00
    @paidaxtis 我觉得 ocr 本身的 AI 就像黑与白游戏里的宠物的智能。仿佛很 AI 。但是某个场合就降维弱智折腾你。但你说的,说白了还是。。。贵。哈哈,万恶之源
    xuanjiangsara
        15
    xuanjiangsara  
    OP
       2024-07-04 00:33:35 +08:00
    @DjvuLee Apple Notes 还有这么蠢的时候?!用多少没留意过。我那天先看到你们的产品帖子了,只是我还没买 mac 。倒是很期待等 APPLE Intelligence 打磨好了,我想看你们怎么跟系统对接好。一定效率刚刚的。
    xuanjiangsara
        16
    xuanjiangsara  
    OP
       2024-07-04 00:35:01 +08:00
    @czfy
    @Imr 看过这几个,一直没装。这回看看如何。曾装了个熊猫 ocr 对接各种国内大公司,感觉麻烦。
    ko1haha
        17
    ko1haha  
       2024-07-05 17:55:07 +08:00
    有道、谷歌翻译相机 实时 ocr 有可能用多模态?速度没那么快吧。强强配合 才是王道。
    ChanKc
        18
    ChanKc  
       216 天前
    ocr 准确度比多模态高,但是只能做特定的任务,比如识别文字内容、识别人脸、区分猫狗
    多模态更通用但是准确率比较有限,容易有幻觉。如果是做应用的话可以先传统 ocr 做画面主体识别,得到的主体内容再喂给多模态。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5079 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 05:58 · PVG 13:58 · LAX 22:58 · JFK 01:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.