windows 平台 ocr 软件有什么好的选择

freedgw

2023-04-28 11:22:57 +08:00

白描，这个收费几块钱吧，但识别准确度很好；
然后 gitee 上还有一个天若 OCR 离线版，我之前用的比较多，应该也是够用的；
现在我主要用的 quicker ，里面有个 OCR 动作，但是这个软件功能太多了，单纯 OCR 的话可能不太推荐专门去下这个

mainjzb

2023-04-28 11:24:52 +08:00

PowerToys 里的 ORC 一言难尽，好像是调的 windows 系统级的 ORC 。目前看来是最拉跨的。被苹果和微信的 ORC 吊打

datocp

2023-04-28 12:56:56 +08:00

上次找了一个汉王 PDF OCR ，似乎挺牛逼的，转换出来的是真正的 word 文档，不是图片。不知道跟原始的格式是否有关系。

daocyang

2023-04-28 13:00:32 +08:00

微信电脑版的 ocr 识别目前用起来很顺手

idragonet

2023-04-28 13:09:01 +08:00

@daocyang #5 微信电脑版算了，笔画多的字识别率一塌糊涂。

busterian

2023-04-28 13:15:56 +08:00

@idragonet 那你倒是说个能用的啊, 付费的也可

idragonet

2023-04-28 13:27:15 +08:00

@busterian #7 QQ 截图是云识别，这个识别率高！

jacy

2023-04-28 14:00:35 +08:00

右键-打开方式-word

jack4in

2023-04-28 14:16:03 +08:00

@busterian
paddleocr

dengqixun

2023-04-28 14:20:41 +08:00

@jacy word 识别字体变化多，格式复杂一点的文档错别字太多了

Yukiteru

2023-04-28 14:40:34 +08:00

text-grab ，开源的，powertoys 的 orc 也是基于这个

djoiwhud

2023-04-28 15:17:52 +08:00

一哥是毛子的 abbyy

XIU2

2023-04-28 15:21:36 +08:00

翻了翻书签，找到了下面几个 OCR 相关的，你可以挨个试试（记得移除地址中的空格）。

这四个都是离线的 OCR 软件（最后一个是天若 OCR 离线版）：
https://github. com/xushengfeng/eSearch
https://github. com/hiroi-sora/Umi-OCR
https://github. com/xksoft/OcrHelper
https://gitee.com/wanglifree/tianruoocr-cl

这个我记得是论坛里人做的，虽然是个在线网站，但都是在浏览器端本地实现的 OCR：
https://ocr. zjyl1994. com

这个支持 OCR 但没说是离线还是在线的：
https://gitee. com/smartoldfish/ocr-assistant

sadfQED2

2023-04-28 15:25:12 +08:00

免费，不要钱，安装方便且没广告，识别率还高的。只有 qq 微信

goodgame

2023-04-28 15:41:44 +08:00

tesseract 怎么样？没怎么用过，有没有用过的大哥讲一下？

tutustream

2023-04-28 15:45:15 +08:00

我买了迅捷 ocr 的会员

ungrown

2023-04-28 16:04:51 +08:00

@goodgame #16 tesseract 本身挺好，但是用起来并不方便。这玩意性能不弱，架构不落后，功能接口丰富，背后也一直有大厂在推着它走。但是，喂给它的图像必须够清晰，换句话说，预处理这块，它不负责。排版、格式、方向的识别，也是，它不负责，虽然它也提供这方面的功能接口，但用户得自己构建前置处理的环节。总之，这东西，不是傻瓜化的开箱即用的解决方案。字符清晰、明暗统一、排列整齐的文本图片，它能给出让人满意的结果，否则的话，消化不良。

ungrown

2023-04-28 16:15:34 +08:00

要么各种大厂的云端接口，免费或者付费，但说实话其实良莠不齐，各有短板。
你还可以试试 EasyOCR ，我玩过还行，不过跟 paddleocr 一样，基于机器学习，所以设备算力不能太弱。
或者就拿 tesseract 自己折腾。
abbyy 是绝对的独一档，不过不知道它有没有编程调用接口。

然后，提供个邪门，你知道漫画汉化这块吗，对 OCR 的需求很大。过去技术欠发展那也没人多寻思，都是汉化组手工修图、人肉翻译校对润色。但现在有了一整套自动化、半自动化方案，从图片预处理、去噪锐化拉伸、画面增强、角度扶正，到文字区识别、语言自动监测、多方 API 并行调用、格式排版自动识别，最后按照原图上的文本位置和排版自动将译文嵌入图中，用户只要手动选择、编辑、润色一下，讲真搞这玩意的那帮人虽然离第一梯队还有距离，但是完成度相当牛逼。社区驱动能做到这种程度，背后的需求肯定很大，搞不好成人色情漫画的汉化需求也是个大头。不过不是完全开源的，还收费，但如果能跟背后的团队联系上的话不妨去取取经。

ErikaGao

2023-04-28 16:15:57 +08:00

RapidOCR ？自己本地起个服务就行，是 PaddleOCR 的模型导出版本 https://github.com/RapidAI/RapidOCR

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/936159

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.