OLOCR：个人开发的一个在线 OCR 网站

地址： https://olocr.com
基于 ONNX ，PaddleOCR ，web worker

功能：
1. 图片、PDF 的 OCR ，图片支持批量上传
2. 完全在线预测，不存储用户图片 /PDF
3. 修正 OCR 结果
4. 倒转、90 度图片 OCR
5. 选中、复制、导出结果（导出为 json 时可导出坐标）
6. 历史记录
7. 多种语言

小技巧：
1. 直接复制图片或者 PDF ，再在网站中粘贴，即可 OCR ，使用场景举例：
a. 资源管理器复制图片，在本网站粘贴
b. 用 snipaste 的截图并复制快捷功能，在本网站粘贴
注意事项：
1. 暂不支持 iOS/Android 手机浏览器，不知道是什么原因，iOS 原本在使用 web worker 预测前的版本是支持的，后续改到 web worker 就不行了；安卓则是全程不行
2. 打不开网站的话，用下梯子

问题反馈 /建议：绿色图标软件 bmljZTJp

yuanchao

2023-06-13 11:11:13 +08:00

如果要支持表格提取识别，可以弄吗

fakecoder

2023-06-13 11:12:06 +08:00

优秀！

dassh

2023-06-13 11:27:32 +08:00

@yuanchao 这里面涉及的工作量比较大，短期内应该不会支持，后续支持了我 @你

yqf0215

2023-06-13 11:33:14 +08:00

@dassh 没关系，我也一直没找到

monkey110

2023-06-13 11:38:20 +08:00

@vueli shuax 作者用自己开发的软件 ocr 群里裸，贷链接然后又发到群里的这事吧主打一个分享

hteen

2023-06-13 16:00:58 +08:00

BUG 😂

dassh

2023-06-13 16:16:15 +08:00

@hteen 是有小概率漏检的，尤其是针对歪歪扭扭的。
ps: 本网站：“我做不到”

RatioPattern

2023-06-13 22:53:20 +08:00

英文效果很好，比 python-docr 和 tesseract 默认都好多了

RatioPattern

2023-06-13 22:57:49 +08:00

没有做任何微调达到的效果吗

dassh

2023-06-13 23:16:36 +08:00

@RatioPattern 是的

jzyzcz

2023-06-14 00:01:52 +08:00

速度很快！后面会推出收费模式吗？

dassh

2023-06-14 07:45:22 +08:00

@jzyzcz
关于收费: 短期不考虑，一是做 ocr 的网站太多，又没什么杀手级功能，二是接入支付挺麻烦(没做过)，三是用户量没几个，收费都跑了。一开始想法是接入 adsense 看能收回服务器成本不，但 adsense 不给新站过，先等等
关于速度: 目前都是单线程预测的，计划增加配置使用多线程预测，配置越多，速度越快，当然你 cpu 和内存也占用越多

近期规划:
1. 网站是 23 年 5 月 21 日上线的，google search console 配置了，但 ocr 网站太多，搜索 online ocr 前 8 页都找不到(没有第 9 页，只有 8 页)，我有在后台统计 ocr 的图片数量、pdf 页数(也仅限于此)，在 v2 发这贴之前，这个数字基本每天都是 0 ，所以我得学学怎么宣传，seo ，做外链这些
2. 上面提到的速度优化
3. 注意到有人尝试了 ocr 一个几百页的 pdf ，一本书？我也试了下，直接快卡死一段时间，后面在预测第二页时崩了，分析了下当前是用同步的方法将所有图片加载到内存，所以一次性加载几百张图片撑不住，不知道这个是不是强需求，我会尝试解决

kangyangqishi

2023-06-14 09:38:36 +08:00

@vueli 他是把识别到的敏感信息发到群里了，那他就成了传播信息的第一人了
https://www.zhihu.com/question/557314765/answer/2709198002

LavaC

2023-06-14 10:30:44 +08:00

好奇问一下 op ，如果想做一个适配异型字体（异型到看不出是什么）的 ocr 工具，也可以应用你这套开发流程吗？
只需要识别 26 个英文字母就好了。

dassh

2023-06-14 10:49:29 +08:00

@LavaC 可以的，“异型到看不出是原字母”的话，就需要单独训练一个识别模型，只有 26 个字母的话大概 10k 的训练样本吧（经验之谈）。
然后针对你说的：“我这套开发流程”，可能并不适用，因为这个网站是针对通用 web 场景的，然后为了省服务器成本，把预测步骤放到了端侧，开发时间全耗在这里面（ onnx ，web worker, opencvjs ）。你可能更需要的是只是一个 restful 接口，有基础的可以看看 PaddleOCR 文档

LavaC

2023-06-14 13:42:21 +08:00

@dassh #35 谢谢解惑

92Developer

2023-09-19 23:34:28 +08:00

安卓试试我的： https://play.google.com/store/apps/details?id=com.northeast_programmer.ocr

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/948087

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.