V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sillydaddy
V2EX  ›  程序员

想找满足这 5 个特性的低代码爬虫

  •  2
     
  •   sillydaddy · 2023-11-13 12:24:52 +08:00 · 3427 次点击
    这是一个创建于 380 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1. 方便获取稳定的 selector 。最好可以在页面上直接选取元素,获得 selector 。
    2. 准确提取 data 。可以解析常见数据类型,如提取文本数字。也可以自定义解析脚本。
    3. 存储到指定的位置。将上述的 data 与 db 对应起来,最好可以用连线的方式,可视化的编辑 1 对 1 的关系。
    4. 构建循环的流程。爬虫一般都有循环结构,要能简单方便的构建流程,例如简单的逻辑不需要写代码。
    5. 异常的处理。如果采集过程中出错,要能够指定后续的流程。是返回上一级,还是抛出异常,还是加入到队列。

    想请问常用爬虫工具的 v 友,有没有满足这些条件的低代码爬虫工具呢?

    21 条回复    2023-11-23 08:43:51 +08:00
    veike
        1
    veike  
       2023-11-13 13:35:38 +08:00
    chrome 商店搜一下
    Woood
        2
    Woood  
       2023-11-13 13:42:36 +08:00
    火车头?
    KgM4gLtF0shViDH3
        3
    KgM4gLtF0shViDH3  
       2023-11-13 13:44:03 +08:00
    这不是最基本的需求吗😂虽然没几个做的好的。只能自己写脚本。
    encro
        4
    encro  
       2023-11-13 13:52:38 +08:00
    火车头,八爪鱼
    encro
        5
    encro  
       2023-11-13 13:53:03 +08:00
    熟悉 python 就 scrapy
    JohnH
        6
    JohnH  
       2023-11-13 13:58:05 +08:00
    https://github.com/ferventdesert/Hawk
    可以试试这个开源的,前几年用过,也确实解决了我当时的问题。
    虽然可视化配置,但使用上有一点门槛,需要摸索一下
    xiaoriri666
        7
    xiaoriri666  
       2023-11-13 13:58:09 +08:00
    八爪鱼
    siknet
        8
    siknet  
       2023-11-13 14:33:49 +08:00
    火车浏览器
    herozzm
        9
    herozzm  
       2023-11-13 14:59:08 +08:00 via iPhone
    要在浏览器上还是脱离浏览器在服务端后台运行?
    sillydaddy
        10
    sillydaddy  
    OP
       2023-11-13 15:20:53 +08:00
    @herozzm #9
    如果要写数据库,应该是需要脱离浏览器。如果能在浏览器中写入数据库也可以,不过这种应该还需要通过 webapi 接口。

    感谢上面各位 v 友的回复,我去看一下提到的软件。
    Soler
        11
    Soler  
       2023-11-13 16:40:49 +08:00
    影刀
    yumusb
        12
    yumusb  
       2023-11-13 16:56:51 +08:00
    googlefans
        13
    googlefans  
       2023-11-13 17:14:00 +08:00
    爬虫 自己内部用数据还是做网站用?
    小心被告
    vimiwivv
        14
    vimiwivv  
       2023-11-13 17:36:40 +08:00
    不该先考虑反爬和风控?
    shench
        15
    shench  
       2023-11-13 19:48:14 +08:00
    这么多年了,还是火车头最好用,我找到一个免费的
    dabaibai
        16
    dabaibai  
       2023-11-13 21:08:40 +08:00
    @shench 来个免费的 大佬。
    vvhy
        17
    vvhy  
       2023-11-13 21:35:00 +08:00
    easyspider ?之前看到了,不过没用过
    shench
        18
    shench  
       2023-11-13 23:15:35 +08:00
    @dabaibai 百度搜索一下高铁采集(本质就是火车头的 vvvip )
    WhateverYouLike
        19
    WhateverYouLike  
       2023-11-14 00:28:24 +08:00 via Android
    https://www.automa.site/
    这个可以说非常符合
    seekafter
        20
    seekafter  
       2023-11-14 08:52:24 +08:00
    automa 或者 rpa? 我在闲鱼上有做脚本的链接,做过几单
    macaodoll
        21
    macaodoll  
       2023-11-23 08:43:51 +08:00 via Android
    最近正好在做一个开源的,跟你说的差不多,但是还没这么快写完
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3336 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 12:05 · PVG 20:05 · LAX 04:05 · JFK 07:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.