V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Brucepac
V2EX  ›  程序员

有没有一种爬虫服务,只需要我指定网站和规则,就可以定时爬数据,并且可以提供我指定格式的 json api 的

  •  
  •   Brucepac · 2018-03-03 13:47:55 +08:00 · 9506 次点击
    这是一个创建于 2456 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,希望各路大佬知道,告知一下。

    PS:本人比较喜欢看自然科学相关的文章,经常看环球科学的网站,加上我是做 iOS 开发的,所以我想用 swift 做一个 app 方便看文章。

    本来是想自己做全栈的,包括设计和前后端(前后端全用 swift),但是由于我对爬虫方面的知识不太了解,我想先完成 app,后期再用 Perfect 自己学习写爬虫程序。所以要是有现成的爬虫并且是开源的就最好了😄。

    46 条回复    2018-12-15 15:04:50 +08:00
    loading
        1
    loading  
       2018-03-03 13:48:47 +08:00 via iPhone   ❤️ 1
    幽灵蛛
    malagebidi
        2
    malagebidi  
       2018-03-03 13:49:48 +08:00
    用 huginn+feedly,完全满足需求。
    devjoe
        3
    devjoe  
       2018-03-03 14:29:25 +08:00 via iPhone
    直接加载整个网页,然后利用 XPath 解析就行
    bogun
        4
    bogun  
       2018-03-03 14:35:55 +08:00 via Android
    可以试一下 portia,可视化爬虫
    likuku
        5
    likuku  
       2018-03-03 14:39:27 +08:00
    IFTTT ?
    chroming
        6
    chroming  
       2018-03-03 14:40:43 +08:00 via Android   ❤️ 1
    可以看下 pyspider
    ospider
        7
    ospider  
       2018-03-03 15:29:42 +08:00 via Android   ❤️ 4
    那你就先 mock 一个数据开发呗,做完再说。说不定中途就放弃了
    lScarlet
        8
    lScarlet  
       2018-03-03 15:46:59 +08:00 via Android
    马克
    brotherlegend
        9
    brotherlegend  
       2018-03-03 15:51:59 +08:00 via Android
    看大佬们回答
    yuanfnadi
        10
    yuanfnadi  
       2018-03-03 17:05:31 +08:00 via iPhone   ❤️ 1
    toapi
    可以把网站变成 api
    silencefent
        11
    silencefent  
       2018-03-03 17:20:57 +08:00
    神箭手
    giuem
        12
    giuem  
       2018-03-03 17:22:43 +08:00 via iPhone
    safedogcc
        13
    safedogcc  
       2018-03-03 17:47:05 +08:00   ❤️ 1
    这不就是我的 APP [下一栈]( https://nextstack.xyz)
    该做的事吗!

    原理也是一样,把网站的 html 或者 rss 或者 json api 转换成固定的 json 数据格式,只不过不用爬虫,直接在客户端进行爬取解析,欢迎体验!
    coolloves
        14
    coolloves  
       2018-03-03 17:51:20 +08:00 via iPhone
    马克
    zhtttyecho
        15
    zhtttyecho  
       2018-03-03 18:41:24 +08:00
    马克
    zhesheng
        16
    zhesheng  
       2018-03-03 18:46:31 +08:00 via Android
    马克
    anonnymous
        17
    anonnymous  
       2018-03-03 18:49:49 +08:00
    克马
    Esora
        18
    Esora  
       2018-03-03 19:02:04 +08:00
    mark
    leriou
        19
    leriou  
       2018-03-03 19:35:06 +08:00
    八爪鱼试试
    sohoer
        20
    sohoer  
       2018-03-03 20:29:05 +08:00
    可以先试用下 hicrawler.com ,目前支持 json api 或发布到 wordpress
    just1
        21
    just1  
       2018-03-03 21:33:26 +08:00 via Android
    @safedogcc 在安卓版好像只看到了 rss 和知乎专栏
    golmic
        22
    golmic  
       2018-03-03 21:35:42 +08:00 via Android
    我可以免费提供数据方面的技术支持。微信 lujqme,可以联系我
    limbo0
        23
    limbo0  
       2018-03-03 22:37:58 +08:00 via iPhone
    不趁现在学习一波 python 吗
    rootit
        24
    rootit  
       2018-03-03 22:46:10 +08:00
    你想的太简单了。。。
    safedogcc
        25
    safedogcc  
       2018-03-04 00:20:44 +08:00   ❤️ 1
    @just1 #21
    这类是固定的解析模版,比如 v1.4 的简书专题(近日发布),v1.5 的 hexo 博客支持(待发布)以及后续的 wordpress 博客站点等等一些较常用的 cms 系统(因为基本 dom 元素一致,所以解析代码通用)。

    当然,你有兴趣可以看看开发文档,你会发现绝大部分的网站都可以进行创作哒!
    xuanyuanaosheng
        26
    xuanyuanaosheng  
       2018-03-04 00:29:02 +08:00 via Android
    mark
    mlyy
        27
    mlyy  
       2018-03-04 00:29:52 +08:00
    这里有两层难度

    - "指定网站和规则"
    - "我指定网站和规则"
    agdhole
        28
    agdhole  
       2018-03-04 00:55:30 +08:00
    造数了解一下
    demonchang
        29
    demonchang  
       2018-03-04 01:06:48 +08:00 via iPhone
    发源地云采集引擎,可以看一下。自带周期更新
    dobelee
        30
    dobelee  
       2018-03-04 01:43:38 +08:00 via Android
    mark
    gouchaoer
        31
    gouchaoer  
       2018-03-04 02:05:34 +08:00 via Android
    正在做相关的东西,我爬虫攻城狮干了几年了
    wwb721
        32
    wwb721  
       2018-03-04 08:12:48 +08:00
    马克
    idcspy
        33
    idcspy  
       2018-03-04 10:47:07 +08:00
    造数好像可以。
    Shura
        34
    Shura  
       2018-03-04 11:23:26 +08:00
    feed43
    Brucepac
        35
    Brucepac  
    OP
       2018-03-04 11:41:28 +08:00
    @agdhole 看网站好像不错,正在申请使用,不知道收不收费
    Brucepac
        36
    Brucepac  
    OP
       2018-03-04 11:46:00 +08:00
    @limbo0 想后期用 swift 写
    qiqico
        37
    qiqico  
       2018-03-04 12:25:36 +08:00
    https://www.showapi.com/ent 这个也不错,支持一些自定义规则
    beginor
        38
    beginor  
       2018-03-04 20:56:15 +08:00 via Android
    lisztli
        39
    lisztli  
       2018-03-04 23:27:25 +08:00
    lisztli
        40
    lisztli  
       2018-03-04 23:28:59 +08:00
    scrapinghub 和 scrapy 框架直接绑定,有免费配额,可以直接使用。
    zlstll
        41
    zlstll  
       2018-03-05 08:48:13 +08:00
    mark 一下
    dingdong
        42
    dingdong  
       2018-03-05 10:10:12 +08:00
    提供这种服务的网站,如果存储了爬虫数据,在国内会面临法律风险吧
    Jaeger
        43
    Jaeger  
       2018-03-05 10:28:27 +08:00
    midysky
        44
    midysky  
       2018-03-06 14:48:15 +08:00
    发源地云采集引擎,专门干这个事的。刚刚已开源。https://github.com/finndy/finndycloud
    midysky
        45
    midysky  
       2018-03-06 14:55:16 +08:00
    [发源地] 数据源市场有 10 几万个网站的规则。很多开发者发布的免费规则可以使用。
    8bits
        46
    8bits  
       2018-12-15 15:04:50 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2565 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 15:23 · PVG 23:23 · LAX 07:23 · JFK 10:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.