V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Byaidu
V2EX  ›  分享创造

「PDFMathTranslate」分享开源 PDF 文献翻译工具,保留公式和图表,支持双语对照

  •  
  •   Byaidu ·
    Byaidu · 75 天前 · 1619 次点击
    这是一个创建于 75 天前的主题,其中的信息可能已经有所发展或是发生改变。

    由于自己最近在做科研工作,多了很多文献阅读的任务。但是这些文献大多都是英文的,阅读起来相比母语还是会慢上不少。因此开发了一款 PDF 翻译工具来提升阅读速度,在翻译文档的同时,保留原文档的公式、图表以及目录结构

    虽然大多数 arxiv 上的论文都提供了 latex 源码,可以直接在 html 中翻译,或者使用 MathTranslate 这样的工具进行翻译。但是很多出版的图书出于版权考虑是不提供 latex 源码的,这样就只有翻译 pdf 文件这一个选择了。

    这些专业图书动辄就是上千页,目前收费的服务基本都是按页收费的,翻译整本图书的成本非常高,而免费的服务质量又一言难尽,反而还会拉低阅读效率。

    好在 latex 编译出来的 pdf 有比较明显的特征,我们可以使用简单的正则把公式部分提取出来,然后将这些公式填回到译文中就实现我们想要的效果了。

    项目地址

    https://github.com/Byaidu/PDFMathTranslate

    对比

    8 条回复    2024-10-12 19:40:54 +08:00
    mzsone
        1
    mzsone  
       75 天前
    晚上回去试用一下,感谢大佬付出
    cat
        2
    cat  
       75 天前
    如果能增加翻译语言的选项就 nice 了……
    Byaidu
        3
    Byaidu  
    OP
       75 天前   ❤️ 1
    @cat 感谢反馈,现在加上了,可以用 -li 和 -lo 指定输入输出语言
    zepc007
        4
    zepc007  
       75 天前
    已 star, 看着佬的代码风格不错, 正好学习学习
    dford
        5
    dford  
       75 天前
    ```txt
    H:\Python39\Scripts>pip install pymupdf
    Requirement already satisfied: pymupdf in h:\python39\lib\site-packages (1.24.0)
    Requirement already satisfied: PyMuPDFb==1.24.0 in h:\python39\lib\site-packages (from pymupdf) (1.24.0)

    H:\Python39\Scripts>pdf2zh "C:\Users\missd\Documents\WeChat Files\wxid_7fuavyde1oyk12\FileStorage\File\2024-10\Category Theory for Scientists--MIT_18.S996.pdf"
    Traceback (most recent call last):
    File "H:\Python39\lib\runpy.py", line 197, in _run_module_as_main
    return _run_code(code, main_globals, None,
    File "H:\Python39\lib\runpy.py", line 87, in _run_code
    exec(code, run_globals)
    File "H:\Python39\Scripts\pdf2zh.exe\__main__.py", line 4, in <module>
    File "H:\Python39\lib\site-packages\pdf2zh\pdf2zh.py", line 11, in <module>
    import pymupdf
    ModuleNotFoundError: No module named 'pymupdf'
    ```
    Byaidu
        6
    Byaidu  
    OP
       75 天前
    @dford 可能是第一次安装 pymupdf 的时候出错了,建议卸了重装或者开个新环境
    cat
        7
    cat  
       75 天前
    @Byaidu 感谢大佬!这执行力太强了
    SayHelloHi
        8
    SayHelloHi  
       73 天前
    可以支持 brew 安装么 😁

    brew install pdf2zh
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1046 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 19:43 · PVG 03:43 · LAX 11:43 · JFK 14:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.