V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
herozzm
V2EX  ›  问与答

google 爬虫太疯狂了,屏蔽它又没排名,放开又被爬死,还不能控制它的爬取频率,怎么办?

  •  
  •   herozzm · 2024-06-05 10:38:02 +08:00 · 2861 次点击
    这是一个创建于 454 天前的主题,其中的信息可能已经有所发展或是发生改变。
    google 爬虫爬起来真的就是 cc 攻击,以前的 google 的站长后台可以控制爬取频率,被下了,真是无语,在服务端 nginx 控制频率不理想,因为限制了 google 爬虫的频率,大部分时候是返回 502 ,google 站长后台就一直提示 502 ,不给排名
    22 条回复    2024-06-05 19:47:46 +08:00
    qqjt
        1
    qqjt  
       2024-06-05 11:20:32 +08:00   ❤️ 2
    怎么能被 bot 爬死啊,这体量羡慕了
    dzdh
        2
    dzdh  
       2024-06-05 11:22:52 +08:00   ❤️ 1
    同问。啥体量能让 bot 爬死。啥服务器配置啊。
    potatowish
        3
    potatowish  
       2024-06-05 11:27:49 +08:00 via iPhone
    字节的 bot 才叫疯狂
    daohanghao
        4
    daohanghao  
       2024-06-05 11:31:21 +08:00
    我都多来爬一下,你倒好,不需要。。。
    herozzm
        5
    herozzm  
    OP
       2024-06-05 11:32:14 +08:00
    @qqjt
    @dzdh
    数据是即时的,爬虫真的很疯狂,每秒估计有上百的并发
    herozzm
        6
    herozzm  
    OP
       2024-06-05 11:40:05 +08:00
    @potatowish 字节的反而不咋地,一天 10 个以内,流量根本没有
    darkengine
        7
    darkengine  
       2024-06-05 11:50:21 +08:00
    谷歌一秒上百次的爬?什么站这么牛啊 。。。
    herozzm
        8
    herozzm  
    OP
       2024-06-05 11:53:41 +08:00
    @darkengine 不是一个站,是几个站放在一台服务器,每个站 10 个左右,加起来的并发,他们共用 cpu 资源
    HackerQED
        9
    HackerQED  
       2024-06-05 12:33:08 +08:00 via iPhone
    @herozzm 老哥,你考不考虑前端放 vercel 之类的托管平台,需要计算的再单独到你服务器?

    托管平台总不会爬挂了,看你本体流量也不是很大,不费钱。
    nomagick
        10
    nomagick  
       2024-06-05 12:43:12 +08:00   ❤️ 8
    垃圾站是吧。。
    AlexRoot
        11
    AlexRoot  
       2024-06-05 13:52:56 +08:00
    @nomagick #10 感觉一语道破。
    knva
        12
    knva  
       2024-06-05 13:57:09 +08:00
    垃圾站能不能 414
    wonderfulcxm
        13
    wonderfulcxm  
       2024-06-05 14:02:46 +08:00 via iPhone
    没经历的哥们很难想象,它是真的会很疯狂,我们网站也经历过,只能限制速率,不要返回 502 ,返回 503 。就一个新闻网站,有编辑团队和纸版杂志,不是什么垃圾站,话说这跟垃圾站有什么关系?
    rambeaufinal
        14
    rambeaufinal  
       2024-06-05 14:12:40 +08:00
    不能升级一下服务器的配置吗?
    NewYear
        15
    NewYear  
       2024-06-05 14:18:49 +08:00
    robots.txt 不是可以规定爬取频率么,实在觉得占用性能,搞缓存啊,静态化啊
    herozzm
        16
    herozzm  
    OP
       2024-06-05 16:38:51 +08:00
    @NewYear robots.txt 不行啊,我加入了限制,google 站长后台直接提示 robots.txt 错误,你是什么格式呢?
    herozzm
        17
    herozzm  
    OP
       2024-06-05 16:43:06 +08:00
    @wonderfulcxm 我将 503 改成 429 ,应该也没问题吧
    e3c78a97e0f8
        18
    e3c78a97e0f8  
       2024-06-05 17:01:03 +08:00
    搞个 cache 呗,每次 GoogleBot 访问都给几分钟甚至几小时前的结果,这 CPU 利用率就能降下去了吧。
    linyongxin
        19
    linyongxin  
       2024-06-05 19:21:53 +08:00
    如果可以,生成静态化或缓存,减少数据库读取
    nx6Ta67v2A43frV2
        20
    nx6Ta67v2A43frV2  
       2024-06-05 19:28:21 +08:00
    在前面挂 1 个 cloudflare cdn 试试。
    oIMOo
        21
    oIMOo  
       2024-06-05 19:38:40 +08:00
    OP 并没有回应关于“垃圾站”的回复 - -
    herozzm
        22
    herozzm  
    OP
       2024-06-05 19:47:46 +08:00
    @oIMOo 看个人资料的网站,不是垃圾站
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2922 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 14:34 · PVG 22:34 · LAX 07:34 · JFK 10:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.