一台图片服务器硬盘崩了,通过数据恢复把图片恢复了出来。
然而,目录结构以及文件名丢失。
现在恢复出来的情况是同一个文件夹下有九百多万张图片。
这些图片可以通过分辨率先进行初筛,只需要其中大概 2/3 的特定分辨率的图片。
筛出来的图片在固定位置有固定格式的附加文字,需要通过 OCR 批量去识别出来并进行分类。
由于图片数量实在太多,最好能有一个方便的界面来通过关键字进行查询。
如果有大佬做过类似的项目可以详谈
1
Qetesh 2023-11-10 22:43:46 +08:00
Umi-OCR
|
2
NoOneNoBody 2023-11-10 23:13:16 +08:00
ocr = PaddleOCR(use_angle_cls=True, lang='ch')
result = ocr.ocr(cvim, det=True, cls=False) if withpos: return result return [x[-1][0] for y in result for x in y] python 就四行,没了,英语就将 ch 改成 en withpos==True 是文字并带上位置信息,False 是只输出文字 cvim 是 opencv 读取图片后的格式,numpy.ndarray 可以多进程并发 |