V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
lzjun
V2EX  ›  分享创造

用爬虫把在线教程转换为 PDF 文件

  •  1
     
  •   lzjun ·
    lzjun567 · 2017-02-13 14:54:05 +08:00 · 3589 次点击
    这是一个创建于 2842 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在线教程,顾名思义,需要网络才能学习,但有时没网络,有时手机流量不够。于是萌生一个想法,使用爬虫对内容重新整理后,转换成 PDF 文件离线阅读。

    用廖雪峰的 Python 教程做了一个实验,证明是可行的,以后可以根据自己的需求进行定制化了。

    参考文章: http://mp.weixin.qq.com/s/LH8nEFfVH4_tvYWo46CF5Q
    完整代码: https://github.com/lzjun567/crawler_html2pdf/blob/master/crawler.py

    最终生成的 PDF 效果图: pdf

    9 条回复    2017-02-14 09:39:52 +08:00
    kuntang
        1
    kuntang  
       2017-02-13 15:25:12 +08:00
    脑洞大开,能转换成 mobi 格式吗?
    keisuu
        2
    keisuu  
       2017-02-13 19:42:34 +08:00
    按照文章的步骤弄, wkhtmltopdf 下载不了
    lzjun
        3
    lzjun  
    OP
       2017-02-13 19:43:36 +08:00
    @kuntang 原理差不多,可以网上搜 html to mobi ,一定有相应的开源方案
    lzjun
        4
    lzjun  
    OP
       2017-02-13 19:44:21 +08:00
    @keisuu 国外的节点,网络慢,没法办,换代理试试
    fhefh
        5
    fhefh  
       2017-02-13 22:03:45 +08:00
    nice mark 学习了
    AltairT
        6
    AltairT  
       2017-02-13 23:37:35 +08:00 via iPhone
    现在的软件技能教程没有网除非只是看书几乎没法学了 太多地方需要网了
    lzjun
        7
    lzjun  
    OP
       2017-02-14 01:35:56 +08:00 via iPhone
    @AltairT 主要考虑到移动端临时性没网,或者重复的网络请求浪费流量
    xiqingongzi
        8
    xiqingongzi  
       2017-02-14 07:20:57 +08:00 via iPhone
    太棒了,很多教程没有离线版本
    lzjun
        9
    lzjun  
    OP
       2017-02-14 09:39:52 +08:00
    @xiqingongzi 哈,不用谢,向那些写教程的同志致敬
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3436 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 11:43 · PVG 19:43 · LAX 03:43 · JFK 06:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.