请教关于高效批量 PDF 转 TXT

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1590 天前的主题，其中的信息可能已经有所发展或是发生改变。

不需要 OCR 的，都是完全电子版的 PDF 文件。

最好是用脚本的比如 python，尝试过 pdfminer 感觉性能很弱鸡，鲁棒性也不够（也可能是我用的不对？在一个 1 核 2G 的云服务器上跑 50 页左右的，经常被强制 KILL ）；

实在不行也可以用软件，但是必须要能批量（手头文件很多）

谢谢大噶，被一个小需求烦死了，感觉市面上解决方案不多。

9 条回复 • 2021-07-22 15:30:54 +08:00

kkocdko

2021-07-22 00:58:26 +08:00 via Android

pdf.js 渲染然后 innerText
没试过，不知道行不行。另外能本地完成为啥要在服务器上跑

ikas

2021-07-22 01:03:38 +08:00

Apache Tika...只是用过

felixcode

2021-07-22 01:08:37 +08:00 via Android

用 calibre 的命令行工具转换

reallittoma

2021-07-22 08:49:14 +08:00

可以用 Ghostscript

Latin

2021-07-22 09:01:50 +08:00

zjsxwc

2021-07-22 09:11:55 +08:00

gs -sDEVICE=txtwrite -o output.txt input.pdf

cnoder

2021-07-22 10:16:55 +08:00

unoconv 我们生产环境的转换用的这个

goxxoo

2021-07-22 10:36:33 +08:00

pdf 2000 页的路过，才 50 页，不存在性能问题

xmt328

2021-07-22 15:30:54 +08:00

@goxxoo 根据 PDF 的编码方式,页码不是性能的关键,反正都是分页解析的,主要是看一页有多少内容,如果都是纯文字其实不吃内存