V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
sedgwickz
V2EX  ›  程序员

利用 Cloudflare Worker 撸了一个在线爬虫,有需要的朋友可以看看。

  •  
  •   sedgwickz · 2020-12-20 11:39:25 +08:00 · 7696 次点击
    这是一个创建于 1465 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Logo

    项目地址:

    https://github.com/sedgwickz/jsonHunter

    在线网站:

    https://jsonhunter.vercel.app/

    演示图:

    演示图

    如果觉得对你有用帮忙给个 star🧡哈,根据情况可以继续完善。

    20 条回复    2020-12-21 14:08:33 +08:00
    kidlj
        1
    kidlj  
       2020-12-20 11:58:10 +08:00 via iPhone
    很棒。有一个问题想问,serverless 架构每个运行的实例出口 IP 是一样的吗?如果每次不一样,那可太适合爬虫了,不过我猜可能性不大。
    vagrantear
        2
    vagrantear  
       2020-12-20 12:10:26 +08:00
    已经 star 了,感觉还不戳
    sedgwickz
        3
    sedgwickz  
    OP
       2020-12-20 12:14:24 +08:00
    @kidlj 这正是利用 worker 的原因,还在实验中。。。😀
    sedgwickz
        4
    sedgwickz  
    OP
       2020-12-20 12:16:43 +08:00
    @kidlj 即使一个同一个 worker 是固定 ip,可以想像要是创建 N 个 worker,实现类似 Load balance 效果,比市面上免费的代理 ip 应该好多了。
    WordTian
        5
    WordTian  
       2020-12-20 12:32:49 +08:00 via Android
    不过这类要封也容易,cf 有固定 ip 段的
    sedgwickz
        6
    sedgwickz  
    OP
       2020-12-20 12:36:26 +08:00
    @WordTian 其实项目初衷也不是让大家去大规模去爬取哈,主要帮助大家开发,类似方便快捷的获取 jsonplaceholder 的效果。
    echowuhao
        7
    echowuhao  
       2020-12-20 12:47:16 +08:00
    你要是拿来做爬虫,估计违反人家的用户条款。
    lizheming
        8
    lizheming  
       2020-12-20 13:12:18 +08:00
    jinliming2
        9
    jinliming2  
       2020-12-20 14:29:10 +08:00
    爬取网页的话,会自动把网页中的 http 链接替换成 https,这是 worker 自动搞得😂
    no1xsyzy
        10
    no1xsyzy  
       2020-12-20 17:44:57 +08:00
    之前就听人说过了,而且对于爬套了 CF 的网站有奇效,能绕过 CF 的质询(白名单
    Juszoe
        11
    Juszoe  
       2020-12-20 17:54:27 +08:00
    @no1xsyzy 哈哈,用 CF 对付 CF 可还行
    musi
        12
    musi  
       2020-12-20 18:02:36 +08:00 via iPhone
    @no1xsyzy 这就是用魔法打败魔法么
    docx
        13
    docx  
       2020-12-20 19:57:38 +08:00
    @lizheming 应该只是拿 vercel 作为 cdn
    sampeng
        14
    sampeng  
       2020-12-20 20:23:07 +08:00 via iPhone
    serveless 迟早被玩坏…
    mamahaha
        15
    mamahaha  
       2020-12-20 23:23:21 +08:00
    这配色真是用心良苦
    BwNVlwSq
        16
    BwNVlwSq  
       2020-12-20 23:28:07 +08:00 via iPhone
    这 LOGO,好家伙🤣
    vilic
        17
    vilic  
       2020-12-21 00:24:21 +08:00
    我感觉这个 HTML 到 JSON 的映射挺有意思啊,有考虑过单独做成一个库吗?
    netnr
        18
    netnr  
       2020-12-21 08:57:25 +08:00 via Android
    cfw 做代理没得问题,但是滥用被投诉就有问题(我前面的跨域代理绑定的域名已经被永封了)
    vercel 做代理会收到警告邮件要求整改
    AlexPUBLIC
        19
    AlexPUBLIC  
       2020-12-21 09:04:06 +08:00
    @no1xsyzy 我刚刚去看了一眼我的网站访问记录,cf 的 firewall rule 对 cf 的 ip 免疫
    fuxkcsdn
        20
    fuxkcsdn  
       2020-12-21 14:08:33 +08:00
    cf worker 根据 UA 就封得了了,UA 改不了我记得(刚出来那会测试的)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2804 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 15:06 · PVG 23:06 · LAX 07:06 · JFK 10:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.