V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
hfxsm
V2EX  ›  分享创造

耗时一个月我开发了一个 PDF 转 Word 的在线工具

  •  
  •   hfxsm · 291 天前 · 8197 次点击
    这是一个创建于 291 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这是一个我花费了数月时间开发的在线 PDF 转换工具pdf2docx.cn,它不仅支持将 PDF 转换为 Word ,还包括 PDF 转 Excel 、PDF 转 PPT 等功能。今天,我想在 V2EX 这个技术社区分享我的项目,并且真诚地希望大家能试用并给出宝贵的反馈和建议。

    项目背景: 我经常遇到需要将 PDF 文件转换为可编辑格式的情况。市面上虽然有许多此类工具,但往往难以满足高效率和高保真的需求。因此,我决定自己动手,打造一个更符合开发者和专业人士需求的工具。

    主要特性:

    • 高保真转换:能够准确保留 PDF 的布局、格式和字体。
    • 多功能性:除了 PDF 转 Word ,还支持 PDF 转 Excel 、PDF 转 PPT ,以及反向转换。
    • 简洁的用户界面:专注于核心功能,避免不必要的复杂性。
    • 优化的转换速度:对于大文件和复杂布局也能快速处理。

    技术挑战: 在开发过程中,我遇到了一些技术挑战,比如如何有效地处理复杂的 PDF 布局,如何确保转换后文档的格式不乱。

    请求大家的反馈:

    • 你在使用过程中遇到了哪些问题?
    • 有哪些功能是你希望添加的?
    • 对于现有的功能,你有什么改进的建议?

    访问链接: www.pdf2docx.cn

    期待大家的回复和讨论!

    78 条回复    2024-05-02 23:14:00 +08:00
    dashupc
        1
    dashupc  
       291 天前
    打不开啊,老铁
    xunqin
        2
    xunqin  
       291 天前
    可以的
    hfxsm
        3
    hfxsm  
    OP
       291 天前
    @dashupc 啊?阿里云买的机器,是一直在转圈吗?
    hfxsm
        4
    hfxsm  
    OP
       291 天前
    @xunqin 欢迎多体验,免费的哈
    dashupc
        5
    dashupc  
       291 天前
    上传了个 36M 的卡 90%不动了
    hfxsm
        6
    hfxsm  
    OP
       291 天前
    @dashupc 收到,我来优化下,36M 的 pdf 文件有点大的,可能需要花点时间转换,下一版本准备把需要转换时长也展示出来。
    jorneyr
        7
    jorneyr  
       291 天前
    2.3M 的 pdf 转 word ,也是 90% 就卡住了,后端是对 90% 情有独钟吗?
    listenerri
        8
    listenerri  
       291 天前
    域名挺好
    dashupc
        9
    dashupc  
       291 天前
    应用文写作…506.pdf 58.7 MB
    转换中
    90%

    删除


    又卡了
    sjqmmd
        10
    sjqmmd  
       291 天前
    同卡在 90%
    proxychains
        11
    proxychains  
       291 天前
    ERR_EMPTY_RESPONSE
    LHN
        12
    LHN  
       291 天前
    45KB 的 pdf 卡主了
    Ghostsss
        13
    Ghostsss  
       291 天前
    7.7 MB 的文件一样卡到 90%了
    hfxsm
        14
    hfxsm  
    OP
       291 天前
    家人们,我的小机器好像顶不住大文件转换,等我优化几波再来更新!!!
    wizzer
        15
    wizzer  
       291 天前
    合肥本地的公司啊
    jstony
        16
    jstony  
       291 天前
    大家别试了,甲方付款才付到 90%,还有 10%尾款没收到:)
    natsuki22
        17
    natsuki22  
       291 天前
    你这个网址。。。。。pdf2docx.com 更好用(
    hfxsm
        18
    hfxsm  
    OP
       291 天前
    @natsuki22 像优秀的网站学习,我这个 pdf 和 office 文件互转
    thanning0
        19
    thanning0  
       291 天前
    随手转了篇 PDF 文献到 word 试试,除了数学符号公式转换的效果不太好(有的符号居然是图片?),其他的格式,表格,算法框,超链接都挺好的,给楼主点赞。

    建议如果能把数学公式转换处理好,比如把 latex 编译的 pdf 数学公式转成 mathtype 的数学公式就太好了。
    28Sv0ngQfIE7Yloe
        20
    28Sv0ngQfIE7Yloe  
       291 天前
    stiekel
        21
    stiekel  
       291 天前
    实测 34.2MB 文件,的确 90%会卡一下,但等一下就成功了。下载也耗了一点时。
    但是……转换完,还是图片——从图片 PDF 变成了图片 Word 文档。
    hfxsm
        22
    hfxsm  
    OP
       291 天前
    @Morii 这两确实好用。我的做了点新功能,加了去除读写保护。其实也支持传入密码(前端还没加)处理加密的 pdf 。
    hfxsm
        23
    hfxsm  
    OP
       291 天前
    @stiekel 这个涉及到 OCR 技术,目前还在增加当中。扫描件不太好处理哈。
    natsuki22
        24
    natsuki22  
       291 天前
    扫描 PDF 挺麻烦的,楼主加油做个谷歌排名第一的(
    oliver2020
        25
    oliver2020  
       290 天前
    支持一下
    leaf
        26
    leaf  
       290 天前
    这不是一个红海市场了么?怎么还在不断开发,有啥特色功能吗?
    hfxsm
        27
    hfxsm  
    OP
       290 天前
    @leaf 准备加些特色功能:
    1 、对于受保护的 pdf 不能转换,去除 pdf 的保护,其他的工具没有
    2 、支持扫描件,用 OCR 技术实现还原,再导出 word
    natsuki22
        28
    natsuki22  
       290 天前
    我是做这个方面软件推广的,1 的话一把一把的网页工具,2 的话能够做的很好的现在都没有
    2 的话有个大问题是文字识别的多语言。。。
    natsuki22
        29
    natsuki22  
       290 天前
    能把一个小语种做好就算特性了(英语的识别已经没啥大问题了
    muyangren
        30
    muyangren  
       290 天前
    6.4 MB 文件卡 90%不动了
    mdyh
        31
    mdyh  
       290 天前
    一点击开始转,就弹没了
    metalvest
        32
    metalvest  
       290 天前
    临时有转换需求的话,from pdf2docx import parse 就行了
    supuwoerc
        33
    supuwoerc  
       290 天前
    为啥转出来多了一页空白页...
    hfxsm
        34
    hfxsm  
    OP
       290 天前
    @natsuki22 大哥,哪些小语种需求相对多一些,准备排个计划
    oliver2020
        35
    oliver2020  
       290 天前
    试了一下,都是几 M 的文件,有时候显示接口调用失败
    6581
        36
    6581  
       290 天前
    花时间做这个是为了赚钱吗?还是怎样呢?感觉市场上已经有很多这种工具了。
    Felldeadbird
        37
    Felldeadbird  
       290 天前
    效果不错,基本都可以转文本。就是转换速度慢了一点,可以接受。
    oliver2020
        38
    oliver2020  
       290 天前
    113MB 扫描件,转换过程中自动把文件删除哈,一点征兆都没提示
    fru1t
        39
    fru1t  
       290 天前
    还不错,试了一个纯文本的 pdf
    rupert
        40
    rupert  
       290 天前
    我也做的一个小程序
    1018ji
        41
    1018ji  
       290 天前
    我已阅读并遵守《信息网络传播权保护条例》

    就不能翻译下 H 啊哈哈
    zzz22333
        42
    zzz22333  
       290 天前
    最近遇到一个硬需求,下了几个 pdf 文档,都没有目录,有时候想快速翻到某一个章节,就挺麻烦了,不知道楼主能不能做一下这个功能。
    Sirius8
        43
    Sirius8  
       290 天前
    测试了下,效果最好的是 ilovepdf ,其次是楼主的这个和 smallpdf 。
    提个需求,希望可以支持 pdf chatgpt 翻译,最好可以自己填写 key 的
    natsuki22
        44
    natsuki22  
       290 天前   ❤️ 1
    pdf 文档的目录自动创建!这个确实
    hututu888
        45
    hututu888  
       290 天前
    啊,为啥我网址也打不开
    bug123
        46
    bug123  
       290 天前
    楼主要做多语言的话最好别用 cn 域名,另外首页自动跳转对 SEO 不友好
    jiangk
        47
    jiangk  
       290 天前
    打不开了
    hfxsm
        48
    hfxsm  
    OP
       290 天前
    @bug123 首页应该怎么做啊。后端开发真的不太懂
    hfxsm
        49
    hfxsm  
    OP
       290 天前
    @zzz22333 自动目录是吧,好的,我研究下试试。
    hfxsm
        50
    hfxsm  
    OP
       290 天前
    @Sirius8 好的,下一步就准备把翻译加上,不过要支持 chatgpt 得在海外部署一个服务器了,国内的翻译 API 主要是阿里、腾讯、百度、讯飞提供的机器翻译的接口,百度、讯飞、阿里都有大模型接口,也可以支持翻译。
    beetlerx
        51
    beetlerx  
       290 天前
    有开源的, 功能也挺多, 直接可以 docker 搭建
    https://github.com/Stirling-Tools/Stirling-PDF
    我用这个建了一个 自用的
    pdf.xandar.pro
    Droog
        52
    Droog  
       290 天前
    试了下,蛮好用的。
    zhou00
        53
    zhou00  
       290 天前
    感觉效果还不错,点赞。 顺便问下,技术栈用的是什么
    akira
        54
    akira  
       290 天前
    @leaf 其实并不红,做的好的基本没有。 都是特么的截图
    hfxsm
        55
    hfxsm  
    OP
       290 天前 via iPhone
    @beetlerx 功能挺全的,但是这种基于 libreoffice 转换效果都不太行。
    hfxsm
        56
    hfxsm  
    OP
       290 天前 via iPhone
    @akira 对的,不少基于截图转的,或者转出来没有排版,没法使用。
    zsj1029
        57
    zsj1029  
       290 天前 via iPhone
    Pdf24 这个网站,看看能不能做一个
    Aloento
        58
    Aloento  
       290 天前
    @wizzer #15 合肥主一信息技术有限公司
    pianoer88
        59
    pianoer88  
       290 天前 via Android
    顶一个
    Pepsigold
        60
    Pepsigold  
       290 天前 via Android
    @hfxsm 你可以用过内中转接口?
    gby
        61
    gby  
       290 天前
    pdf 转 word ?不是直接用 word 打开 pdf 文件就行了么。
    jixiaopeng
        62
    jixiaopeng  
       290 天前 via iPhone
    我也开源了一个项目,但不会推广,项目自我感觉很好,哎
    haoxuexiaoyao
        63
    haoxuexiaoyao  
       290 天前
    我只需要提取里面的每一页的表格到 excel 的话可以的么
    metalvest
        64
    metalvest  
       289 天前 via Android
    @metalvest 这个 python 库转换出来的基本可以保持大致格式,自测转了一个四百多页的单双栏混合带大量插图的 pdf 大概每秒钟一页的速度。
    fzcf
        65
    fzcf  
       289 天前
    请问大概是什么技术路线,方便分享下吗?
    hfxsm
        66
    hfxsm  
    OP
       288 天前
    @zsj1029 可以的, 楼上同学提到 https://github.com/Stirling-Tools/Stirling-PDF 就可以实现。但是使用的 LibreOffice 是不能保持排版效果。

    Conversion Operations
    Convert PDFs to and from images.
    Convert any common file to PDF (using LibreOffice).
    Convert PDF to Word/Powerpoint/Others (using LibreOffice).
    Convert HTML to PDF.
    URL to PDF.
    Markdown to PDF.
    hfxsm
        67
    hfxsm  
    OP
       288 天前
    @oliver2020 太大了,我加下文件大小限制
    hfxsm
        68
    hfxsm  
    OP
       288 天前
    @haoxuexiaoyao 可以啊,用 pdf 转 excel 就行了
    hfxsm
        69
    hfxsm  
    OP
       288 天前
    @fzcf 可以的,过段时间准备做一波分享
    j6711
        70
    j6711  
       288 天前
    挺强的,会有付费计划吗?能买断吗?
    能有客户端离线使用的版本吗?有些资料只能本地处理
    hfxsm
        71
    hfxsm  
    OP
       286 天前
    @j6711 可以聊聊,后续会推出离线版本。
    csx163
        72
    csx163  
       285 天前
    带表格的 pdf 可以转么,目前 pdf 表格转 word 或 excel 市场上没一家能打的
    hfxsm
        73
    hfxsm  
    OP
       284 天前
    @csx163 可以啊,试试,效果非常棒
    a5love3n
        74
    a5love3n  
       232 天前
    老哥,你这个卖源码吗
    halozzz
        75
    halozzz  
       208 天前
    问下老哥,表格转是基于啥技术?
    mclxly
        76
    mclxly  
       205 天前
    扫描 PDF 现在能转么?
    hfxsm
        77
    hfxsm  
    OP
       186 天前
    @a5love3n 上线了 API ,可以接入哈
    hfxsm
        78
    hfxsm  
    OP
       186 天前
    @mclxly 可以,扫描的有两种方案,一种是采用开源的 ocr ,成本就我的开发成本。如果接入大厂的 ocr 比较贵
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5565 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 06:44 · PVG 14:44 · LAX 22:44 · JFK 01:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.