V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
HUZHUANGZHUANG
V2EX  ›  问与答

朋友们,把网页转为 word 的技术一般是什么流程? 如果能有开源项目地址,就更加感谢了.

  •  1
     
  •   HUZHUANGZHUANG · 2023-06-30 09:39:44 +08:00 · 1393 次点击
    这是一个创建于 513 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我说的技术流程例如:先把 html 弄下来---转为---->A 格式---转为---->word

    12 条回复    2023-06-30 14:44:43 +08:00
    hahahahaha234
        1
    hahahahaha234  
       2023-06-30 09:56:20 +08:00
    1. html 里面如果有 iframe 什么的,用 singFile 搞一下做成单文件 html
    2. html 里面的图片什么的处理一下,换成 svg 的
    3. new blob mss/word 形式的
    4. 转换出来效果可能不是太好,需要对某些不好的地方单独处理样式
    zhanggg
        2
    zhanggg  
       2023-06-30 10:05:59 +08:00   ❤️ 1
    http://www.rfc.ac.cn/html/rfc2246.html 这个叫网页
    https://js1k.com/2012-love/demo/1100 这个也叫网页
    这两个网页转 word 的难度可不是一般大
    c2const
        3
    c2const  
       2023-06-30 10:18:05 +08:00
    https://qu.ai/ 如果是这种炫酷网页, 阁下又将如何应对? :)
    coolair
        4
    coolair  
       2023-06-30 10:19:59 +08:00
    最快、最简单、效果最好的办法就是,网页截个图,然后插到 word 里,边距设置为 0 ,搞定。
    opengps
        5
    opengps  
       2023-06-30 10:20:05 +08:00
    打开网页,Ctrl+A ,Ctrl+C
    打开 word ,Ctrl+V
    Ashore
        6
    Ashore  
       2023-06-30 10:26:49 +08:00
    截图后在 word 里插入图片
    rming
        7
    rming  
       2023-06-30 10:29:29 +08:00
    https://pandoc.org/
    https://superuser.com/questions/818127/how-to-convert-html-to-doc-docx-with-openoffice-or-libreoffice
    之前搞过,效果不是很好
    有个比较好的思路,就是先截图,然后用 OCR 还原排版,技术基本上是公开的
    ccraohng
        8
    ccraohng  
       2023-06-30 10:29:31 +08:00
    无头浏览器 pdf -> word
    zackzergzeng
        9
    zackzergzeng  
       2023-06-30 10:39:13 +08:00
    我是手动写的,我写的业务是将富文本编辑器中的 dom 结构转为 word 文档,富文本编辑器中的 dom 结构相对固定,使用的 tag 标签种类比较少,可以有穷举例解析,在用生成 word 的工具(我是用的是 js 的 docx 库)根据解析的结果生成 word
    不知道对你有没有帮助
    HUZHUANGZHUANG
        10
    HUZHUANGZHUANG  
    OP
       2023-06-30 10:43:58 +08:00
    @zackzergzeng

    首先,非常感谢大家热心的回复,有些回复有用,有些没用,不过没关系,是我的问题,第一次提问问题没有描述清楚.

    1 我针对的网页主要是内容网页,比如知乎,新闻网站这类型的.炫酷帅极能炸天的网页不是我的目标

    2 大家说用 OCR 无头浏览器这类技术,我试过,但是和我想要的实现方案有一定的差距,我想通过操作网页 DOM 元素来获取网页内容.这样大部分网页我们都可以获取内容

    3 我主要是看到 CKEditor5 富文本编辑器有插件可以直接把内容导出为 word,主要是导出后格式还不会变形,所以我想知道这类技术大概是怎么实现的?

    4 感谢热心人们的回复,感谢
    HUZHUANGZHUANG
        11
    HUZHUANGZHUANG  
    OP
       2023-06-30 10:45:17 +08:00
    @zackzergzeng 感谢回复,您的答案让我有启发,谢谢
    villivateur
        12
    villivateur  
       2023-06-30 14:44:43 +08:00
    网页保存为 PDF ,然后再用 word 打开。
    虽然只能应付简单的网页罢了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1339 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:27 · PVG 01:27 · LAX 09:27 · JFK 12:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.