一个 OCR 项目，初步预算 1500，搭配相应的查询工具。

2023-12-31 14:55:35 +08:00

Morrowless

要求

接近 1000 万张不同分辨率的图片，其中某个特定分辨率的大概有 300 万左右。
图片上固定位置有类似水印相机的附加文字。
对附加文字进行识别，用识别内容重命名图片，分文件夹归类整理。

一个查询工具，通过文字查询符合条件的图片，可预览可批量导出。
需要至少三个查询条件。

识别率要求至少 95%。越高越好。

现状

淘宝上找人用 PaddleOCR 跑了下，识别率只有 90%左右。已放弃。
希望能使用 PaddleOCR 或者其他类似开源项目继续优化将识别率提升上去。
如果开源项目实在不行，不排除使用阿里、百度之类付费 OCR 服务的可能。

做过 OCR 有兴趣的朋友请带 ID 加我： TW9ycm93bGVzcw==

谢谢大家。

1829 次点击

所在节点

外包

13 条回复

sltkzbw

2023-12-31 15:44:31 +08:00

不知道你具体遇到了什么问题，如果是文字处于图像固定位置的话可以先按大致区域截下图再走 OCR ，原图直接上可能检测会不准，识别模型按你的描述有 90%准确率那我估计就是正常打印体，应该问题不大

zjcKD

2023-12-31 17:21:02 +08:00

这个有现成的云服务吧？

youyang

2023-12-31 19:24:53 +08:00

@zjcKD 这预算感觉用云服务更合适

Morrowless

2024-01-01 00:38:01 +08:00

@sltkzbw 服务器崩溃，数据恢复后目录结构以及文件名丢失，只能通过 OCR 尽量获取可用信息。

Morrowless

2024-01-01 00:38:21 +08:00

@zjcKD 有，贵……

Morrowless

2024-01-01 00:38:53 +08:00

@youyang 这个预算用阿里百度等的 OCR 服务真不够诶

huangzebang787

2024-01-01 01:25:28 +08:00

1500 确实预算太低了

Felix96

2024-01-01 11:11:21 +08:00

我最近在做 paddleOCR 项目，我刚刚加你微信了。

shubiao

2024-01-01 12:13:04 +08:00

说下我知道的，正好我负责对接的百度 ocr ，我司是识别 ui 的设计稿
100w 次调用，8k+，你这个量得纯费用就 8w ，还不算人工费。

百度里面有一款指定格式识别，就是类似识别身份证上的身份证号，不过可以自定义位置，可以看下

——
楼上说的截图后识别可以试试
星火的 gpt 支持传图，企业有 500 万 token 可以试试
找个便宜的 gpt4 key 服务商，可以试试 gpt4
多张图截图后合并一次，4 合一，立马省 75%的费用

shubiao

2024-01-01 12:17:02 +08:00

另外，ocr 出来的东西不可控，比如横线，可能是中划线下划线汉字一等等
你这种想精确使用识别的文字的情况，很难实现

zuiyue123

2024-01-01 22:23:11 +08:00

手里完整模型有一套，可以尝试下

nyxsonsleep

2024-01-01 22:42:44 +08:00

@shubiao #9 ai 识图能力能有 95%？

shubiao

2024-01-01 23:12:56 +08:00

@nyxsonsleep 没估，我们识别出来文字也是喂给其他模块使用。
我们尝试直接用多模态去实现最终功能，效果也挺好。
一是贵，二是 ocr 文字可以用到很多地方，所以就放弃这个路线了。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1004802

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.