关于 OCR 识别截图问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 347 天前的主题，其中的信息可能已经有所发展或是发生改变。

看到市面上有很多上传基金页面截图，就能自动获取到买了哪些基金，收益率是多少。想问下大佬们，这是通过 OCR 特定位置识别的嘛？感觉实现起来很麻烦，有位置问题，字体问题，暗黑模式问题等等

OCR

基金页面截图

自动获取

9 条回复 • 2025-03-11 08:55:55 +08:00

Daimaogou

2025 年 3 月 10 日 via Android

上大模型

x1n04

2025 年 3 月 10 日

大模型没有 OCR 便宜吧。主要是个人产品

x1n04

2025 年 3 月 10 日

@Daimaogou #1 大模型没有 OCR 便宜吧。主要是个人产品

Mithril

2025 年 3 月 10 日

单纯背景下，印刷体的数字识别率很高的。特别是你如果是固定布局，还能用相对位置进一步限定识别内容。

基本的你找 Paddle 就可以了，大模型主要是能提高复杂背景，手写，或者多语言文本方面的识别率。

fredsunme

2025 年 3 月 10 日

如果你要从 0 开始 OCR ，考虑看看这个 base64: aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RtYWNmcmFuay9hcnRpY2xlL2RldGFpbHMvMTM4NDEzMjg0

原文我记得是 10 年前看的也不确定是不是这个作者了
而且现在都是 python 处理，你可以搜对应的 python 版本的，思路应该还是 opencv 做高斯模糊灰度二值膨胀分割那一套

lower

2025 年 3 月 10 日

zhipu 的有个视觉模型 4v-flash 是免费的，白嫖吧

datocp

2025 年 3 月 10 日 via Android

之前看人家用 excel 做了一个 vba 抓取东方财富页面。后来不知道作者更新了什么，就出现了内存溢出问题。。。
东方财富就是纯静态页面，用网页抓取软件应该很容易采集自己需要的数据。

deacyn

2025 年 3 月 11 日

@x1n04 大模型很便宜，你这应该只是提取文字的需求吧

Solace202

2025 年 3 月 11 日

碰巧公司有个业务碰到过类似场景，解决办法是分两步走：
1. OCR 提取所有文字
2. 将所有文字和你的要求组成 promot 喂给 gpt 或者 claude ，获得结果。