V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
leverestfish
V2EX  ›  程序员

请教关于高效批量 PDF 转 TXT

  •  
  •   leverestfish · 2021-07-22 00:09:07 +08:00 · 1975 次点击
    这是一个创建于 1257 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不需要 OCR 的,都是完全电子版的 PDF 文件。

    最好是用脚本的比如 python,尝试过 pdfminer 感觉性能很弱鸡,鲁棒性也不够(也可能是我用的不对?在一个 1 核 2G 的云服务器上跑 50 页左右的,经常被强制 KILL );

    实在不行也可以用软件,但是必须要能批量(手头文件很多)

    谢谢大噶,被一个小需求烦死了,感觉市面上解决方案不多。

    9 条回复    2021-07-22 15:30:54 +08:00
    kkocdko
        1
    kkocdko  
       2021-07-22 00:58:26 +08:00 via Android
    pdf.js 渲染然后 innerText
    没试过,不知道行不行。另外能本地完成为啥要在服务器上跑
    ikas
        2
    ikas  
       2021-07-22 01:03:38 +08:00
    Apache Tika...只是用过
    felixcode
        3
    felixcode  
       2021-07-22 01:08:37 +08:00 via Android
    用 calibre 的命令行工具转换
    reallittoma
        4
    reallittoma  
       2021-07-22 08:49:14 +08:00
    可以用 Ghostscript
    Latin
        5
    Latin  
       2021-07-22 09:01:50 +08:00
    zjsxwc
        6
    zjsxwc  
       2021-07-22 09:11:55 +08:00
    gs -sDEVICE=txtwrite -o output.txt input.pdf
    cnoder
        7
    cnoder  
       2021-07-22 10:16:55 +08:00
    unoconv 我们生产环境的转换用的这个
    goxxoo
        8
    goxxoo  
       2021-07-22 10:36:33 +08:00
    pdf 2000 页的路过 ,才 50 页,不存在性能问题
    xmt328
        9
    xmt328  
       2021-07-22 15:30:54 +08:00
    @goxxoo 根据 PDF 的编码方式,页码不是性能的关键,反正都是分页解析的,主要是看一页有多少内容,如果都是纯文字其实不吃内存
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   872 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 20:19 · PVG 04:19 · LAX 12:19 · JFK 15:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.