V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hackingwu
V2EX  ›  程序员

有什么办法吧一个网站上的文章都爬取下来吗?

  •  
  •   hackingwu ·
    hackingwu · 144 天前 · 1591 次点击
    这是一个创建于 144 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我想把一个网站上的文章爬取下来,有没有办法可以自动触发 chrome 插件(简悦),他可以重新排版,保存的日记中。但是怎么批量的去做这件事情呢?大家有什么 idea ?

    2G
        1
    2G  
       144 天前
    用 selenium ?然后加载的时候把 chrome 插件 load 进去,再用 xpath 操作?
    hackingwu
        2
    hackingwu  
    OP
       144 天前
    @2G 我们可以去触发插件的按钮吗
    oneisall8955
        3
    oneisall8955  
       144 天前
    爬虫爬得好
    ingdawn
        4
    ingdawn  
       144 天前
    坐牢坐到老
    seamonster
        5
    seamonster  
       144 天前
    真刑啊,日子越来越有判头了
    zelentre
        6
    zelentre  
       144 天前
    很刑.
    HankLu
        7
    HankLu  
       144 天前
    很简单
    ztcaoll222
        8
    ztcaoll222  
       144 天前
    先这样
    HashV2
        9
    HashV2  
       144 天前
    再这样
    tojike
        10
    tojike  
       144 天前
    进去进得早
    yunyuyuan
        11
    yunyuyuan  
       144 天前
    然后再这样
    nepiedg
        12
    nepiedg  
       144 天前
    最后在这样
    jingcoco
        13
    jingcoco  
       144 天前
    有个 网联网记忆的 工具,初衷是解决有些网站过了几年下线了 没法看的问题。
    kasusa
        14
    kasusa  
       144 天前
    python 写,selenium 库,模拟点击按钮,用 xpath 定位下一篇按钮,刷新再来。
    就这么个流程吧。
    不过我感觉网上还是垃圾信息多。都爬下来有什么用呢?
    caicaiwoshishui
        15
    caicaiwoshishui  
       144 天前 via iPhone
    楼上队形笑死我
    2G
        16
    2G  
       144 天前
    @hackingwu 可以的,用 js dom 就可以,xpath 估计也可以。
    solopython
        17
    solopython  
       144 天前
    试试 Newspaper3k
    muzuiget
        18
    muzuiget  
       143 天前
    写个浏览器扩展就可以了,专事专办。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1974 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 02:38 · PVG 10:38 · LAX 18:38 · JFK 21:38
    ♥ Do have faith in what you're doing.