[求助] 同一个文件夹下几百万张图片的分类及后续查询

2023-11-10 20:02:36 +08:00
 Morrowless

事情是这样的

一台图片服务器硬盘崩了,通过数据恢复把图片恢复了出来。

然而,目录结构以及文件名丢失。

现在恢复出来的情况是同一个文件夹下有九百多万张图片。

需求

这些图片可以通过分辨率先进行初筛,只需要其中大概 2/3 的特定分辨率的图片。

筛出来的图片在固定位置有固定格式的附加文字,需要通过 OCR 批量去识别出来并进行分类。

由于图片数量实在太多,最好能有一个方便的界面来通过关键字进行查询。

如果有大佬做过类似的项目可以详谈

Telegram

725 次点击
所在节点    全球工单系统
2 条回复
Qetesh
2023-11-10 22:43:46 +08:00
Umi-OCR
NoOneNoBody
2023-11-10 23:13:16 +08:00
ocr = PaddleOCR(use_angle_cls=True, lang='ch')
result = ocr.ocr(cvim, det=True, cls=False)
if withpos: return result
return [x[-1][0] for y in result for x in y]

python 就四行,没了,英语就将 ch 改成 en
withpos==True 是文字并带上位置信息,False 是只输出文字
cvim 是 opencv 读取图片后的格式,numpy.ndarray
可以多进程并发

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/990785

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX