V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
x1n04
V2EX  ›  问与答

关于 OCR 识别截图问题

  •  
  •   x1n04 · 4 天前 · 749 次点击

    看到市面上有很多上传基金页面截图,就能自动获取到买了哪些基金,收益率是多少。 想问下大佬们,这是通过 OCR 特定位置识别的嘛? 感觉实现起来很麻烦,有位置问题,字体问题,暗黑模式问题等等

    9 条回复    2025-03-11 08:55:55 +08:00
    Daimaogou
        1
    Daimaogou  
       4 天前 via Android
    上大模型
    x1n04
        2
    x1n04  
    OP
       4 天前
    大模型没有 OCR 便宜吧。主要是个人产品
    x1n04
        3
    x1n04  
    OP
       4 天前
    @Daimaogou #1 大模型没有 OCR 便宜吧。主要是个人产品
    Mithril
        4
    Mithril  
       4 天前
    单纯背景下,印刷体的数字识别率很高的。特别是你如果是固定布局,还能用相对位置进一步限定识别内容。

    基本的你找 Paddle 就可以了,大模型主要是能提高复杂背景,手写,或者多语言文本方面的识别率。
    fredsunme
        5
    fredsunme  
       4 天前
    如果你要从 0 开始 OCR ,考虑看看这个 base64: aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RtYWNmcmFuay9hcnRpY2xlL2RldGFpbHMvMTM4NDEzMjg0

    原文我记得是 10 年前看的 也不确定是不是这个作者了
    而且现在都是 python 处理,你可以搜对应的 python 版本的,思路应该还是 opencv 做高斯模糊灰度二值膨胀分割那一套
    lower
        6
    lower  
       4 天前
    zhipu 的有个视觉模型 4v-flash 是免费的,白嫖吧
    datocp
        7
    datocp  
       4 天前 via Android
    之前看人家用 excel 做了一个 vba 抓取东方财富页面。后来不知道作者更新了什么,就出现了内存溢出问题。。。
    东方财富就是纯静态页面,用网页抓取软件应该很容易采集自己需要的数据。
    deacyn
        8
    deacyn  
       3 天前
    @x1n04 大模型很便宜,你这应该只是提取文字的需求吧
    Solace202
        9
    Solace202  
       3 天前
    碰巧公司有个业务碰到过类似场景,解决办法是分两步走:
    1. OCR 提取所有文字
    2. 将所有文字和你的要求组成 promot 喂给 gpt 或者 claude ,获得结果。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1586 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 16:57 · PVG 00:57 · LAX 09:57 · JFK 12:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.