V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tikazyq
V2EX  ›  程序员

爬虫管理平台 Crawlab v0.4.7 发布(界面上配置 Scrapy + Git 同步)

  •  1
     
  •   tikazyq ·
    tikazyq · 2020-02-24 15:54:01 +08:00 · 1768 次点击
    这是一个创建于 1734 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前言

    本次更新包括几个部分:

    1. 更好的支持 Scrapy 爬虫
    2. 支持 Git 仓库同步
    3. 支持长任务
    4. 更好的爬虫管理

    更新日志

    功能 / 优化

    • 更好的支持 Scrapy. 爬虫识别,settings.py 配置,日志级别选择,爬虫选择. #435
    • Git 同步. 允许用户将 Git 项目同步到 Crawlab.
    • 长任务支持. 用户可以添加长任务爬虫,这些爬虫可以跑长期运行的任务. 425
    • 爬虫列表优化. 分状态任务列数统计,任务列表详情弹出框,图例. 425
    • 版本升级检测. 检测最新版本,通知用户升级.
    • 批量操作爬虫. 允许用户批量运行 /停止爬虫任务,以及批量删除爬虫.
    • 复制爬虫. 允许用户复制已存在爬虫来创建新爬虫.
    • 微信群二维码.

    Bug 修复

    • 定时任务爬虫选择问题. 字段不会随着爬虫变化而响应.
    • 定时任务冲突问题. 两个不同的爬虫设置定时任务,时间设置成相同的话,可能会有 bug. #515 #565
    • 任务日志问题. 在同一时间触发的不同任务可能会写入同一个日志文件. #577
    • 任务列表筛选选项不全.

    产品规划

    • 结果展示
      • 支持其他数据库
    • 可配置爬虫
      • 可配置爬虫支持 Splash
      • 可配置爬虫支持 CrawlSpider
      • 可配置爬虫支持正则表达式字段
      • 可配置爬虫支持转化为自定义爬虫
    • 任务
      • 任务重试机制
    • 定时任务
      • 日历展示
    • 全局
      • 支持版本更新检测
      • 支持版本更新日志展示
    • 服务器
      • 支持终端操作 Docker 镜像
    • SDK
      • 更多命令支持
      • 支持 Golang、Java
    • 插件系统

    参考

    社区

    如果您觉得 Crawlab 对您的日常开发或公司有帮助,请加作者微信 tikazyq1 并注明 "Crawlab",作者会将你拉入群。欢迎在 Github 上进行 star,以及,如果遇到任何问题,请随时在 Github 上提 issue。另外,欢迎您对 Crawlab 做开发贡献。

    Cy86
        1
    Cy86  
       2020-02-24 22:27:44 +08:00
    赞一个
    tikazyq
        2
    tikazyq  
    OP
       2020-02-24 23:06:32 +08:00 via iPhone
    @Cy86 感谢支持
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2746 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 04:03 · PVG 12:03 · LAX 20:03 · JFK 23:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.