V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Syaoran
V2EX  ›  问与答

走 cloudflareCDN 的 GithubPages 网站爬虫无法抓取么?

  •  
  •   Syaoran · 2015-05-26 19:44:51 +08:00 via iPhone · 2301 次点击
    这是一个创建于 3316 天前的主题,其中的信息可能已经有所发展或是发生改变。
    个人博客在github上,走cf的cdn,不管用百度抓取诊断还是站长工具的都是403,我一个朋友同样的方案也是403…但是测试了一个用wp的能正常抓取,一个同样github的用hexo的也能抓取(不过他同时放在gitcafe,可能dns有分开解析吧)

    所以403是什么情况呢?能正常访问的,貌似只有爬虫被block了
    5 条回复    2015-05-27 05:08:51 +08:00
    lyragosa
        1
    lyragosa  
       2015-05-26 21:00:55 +08:00
    cf的CDN非常奇怪……会block掉各种奇奇怪怪的访问,尤其是HTTPS,我试用了大约两周之后还是去掉了……
    wy315700
        2
    wy315700  
       2015-05-26 21:05:09 +08:00
    把安全防护关了
    Syaoran
        3
    Syaoran  
    OP
       2015-05-26 22:59:02 +08:00 via iPhone
    @wy315700 已经是免费用户能选择的最低级别了,我看Analysis有谷歌的Crawler…
    402645707
        4
    402645707  
       2015-05-27 00:18:55 +08:00
    貌似迅雷也会被屏蔽
    typcn
        5
    typcn  
       2015-05-27 05:08:51 +08:00
    @lyragosa HTTPS 是 ECDSA 证书的,很多老旧的辣鸡爬虫不可能支持,比如百度的爬虫就很恶心。

    另外,百度屏蔽就屏蔽吧,反正我都是手动屏蔽的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1026 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 18:39 · PVG 02:39 · LAX 11:39 · JFK 14:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.