[求助] 同一个文件夹下几百万张图片的分类及后续查询

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

工单节点使用指南

• 请用平和的语言准确描述你所遇到的问题

• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类，尊重是相互的

• 如果是关于 V2EX 本身的问题反馈，请使用反馈节点

这是一个创建于 826 天前的主题，其中的信息可能已经有所发展或是发生改变。

事情是这样的

一台图片服务器硬盘崩了，通过数据恢复把图片恢复了出来。

然而，目录结构以及文件名丢失。

现在恢复出来的情况是同一个文件夹下有九百多万张图片。

需求

这些图片可以通过分辨率先进行初筛，只需要其中大概 2/3 的特定分辨率的图片。

筛出来的图片在固定位置有固定格式的附加文字，需要通过 OCR 批量去识别出来并进行分类。

由于图片数量实在太多，最好能有一个方便的界面来通过关键字进行查询。

如果有大佬做过类似的项目可以详谈

图片

文件

初筛

恢复

2 条回复 • 2023-11-10 23:13:16 +08:00

Qetesh

2023 年 11 月 10 日

Umi-OCR

NoOneNoBody

2023 年 11 月 10 日

ocr = PaddleOCR(use_angle_cls=True, lang='ch')
result = ocr.ocr(cvim, det=True, cls=False)
if withpos: return result
return [x[-1][0] for y in result for x in y]

python 就四行，没了，英语就将 ch 改成 en
withpos==True 是文字并带上位置信息，False 是只输出文字
cvim 是 opencv 读取图片后的格式，numpy.ndarray
可以多进程并发