请教 v 友如何分辨一个 pdf 文档是扫描版还是文字版？速度优先，准确率其次

This topic created in 517 days ago, the information mentioned may be changed or developed.

问了大模型，目前用 pdfinfo/pdffonts/pdfimages 结合来，准确度不理想。

12 replies • 2024-12-11 13:56:53 +08:00

tool2dx

Dec 10, 2024

纯扫描版就是 jpg 内嵌大图，没有具体文字可以选中，用 pdf 文字提取工具，很容易识别的吧。

shintendo

Dec 10, 2024

文件体积除以页数

gpt5

Dec 10, 2024

@tool2dx 很多扫描都是带 ocr 的，可以选文字。

paopjian

Dec 10, 2024

直接用脚本尝试提取文字不可以吗?多于几个字就算是文字版

mclxly

Dec 10, 2024

@tool2dx 有大量文件，得程序自动识别

@shintendo 文件 1：25 页/588K 文件 2：334 页/1.7M 文件 3：141 页/3.3M ，你说这三本书咋区分？

mclxly

Dec 10, 2024

@paopjian 我遇到过可以提取少量文字的电子书（主要是扫描图片）

sketcherly

Dec 10, 2024

直接解析 pdf 统计字数呢

CLMan

Dec 10, 2024

就算是用文件大小/页，准确率应该也差不到哪里去。

cowcomic

Dec 10, 2024

如果是大面上的区分的话，大小除以页数应该就是比较迅速的方式了
除非要求比较精确，百分之多少是图片之类的

mclxly

Dec 10, 2024

@sketcherly 扫描版大部分是图片

@CLMan 单页大小阈值不好确定

@cowcomic 百分比阈值不好确定，我遇到过每页都有背景图的文字版电子书

xiaomageit

Dec 10, 2024

降精

israinbow

Dec 11, 2024 via Android

文字版 pdf 转成 html 看起来会很有逻辑.