V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SQLException
V2EX  ›  程序员

阿里云发的公告:关于阿里云香港 Region 可用区 C 服务中断事件的说明

  •  
  •   SQLException · 163 天前 · 8716 次点击
    这是一个创建于 163 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://mp.weixin.qq.com/s/rJ2_TEc9mDxfJ1q4gCN-Zg

    最后,我们要向所有受到故障影响的客户公开致歉,并尽快处理赔偿事宜。此次香港 Region 可用区 C 服务中断事件,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。稳定性是云服务的生命线,对我们的客户至关重要。我们将尽一切努力从此次事件中吸取经验教训,持续提升云服务的稳定性,不辜负客户所托!

    估计赔偿是有了,但是感觉对服务有点不放心了

    52 条回复    2022-12-27 23:34:00 +08:00
    mytsing520
        1
    mytsing520  
       163 天前   ❤️ 6
    基础设施是别人的,应急预案几乎都使不上
    Ansen
        2
    Ansen  
       163 天前 via iPhone
    阿里就国内不错,海外全是租设备,当二道贩子
    cveoy
        3
    cveoy  
       163 天前   ❤️ 1
    阿里的道歉信为什么要用微信发?笑死
    wangxiaoaer
        4
    wangxiaoaer  
       163 天前   ❤️ 2
    就想知道他那个服务状态页面是不是个摆设?
    janus77
        5
    janus77  
       163 天前
    总结:温度太高了 空调也歇逼了 导致烧到冒烟死机
    zwnozhuce
        6
    zwnozhuce  
       163 天前
    还是国际知名云厂商相对靠谱些, 比如 AWS
    x86
        7
    x86  
       163 天前 via iPad   ❤️ 10
    @cveoy 可能他们觉得腾讯云稳定点吧🤔
    fay94
        8
    fay94  
       163 天前   ❤️ 5
    @cveoy #3 有没有种可能,微信只是其中一个渠道?
    SQLException
        9
    SQLException  
    OP
       163 天前
    @fay94 #8 自家好像也有
    https://help.aliyun.com/noticelist/articleid/1061819219.html
    但是我没找到入口在哪儿,搜标题搜到的
    salmon5
        11
    salmon5  
       163 天前
    picone
        12
    picone  
       163 天前
    很好奇这些机房应该有买保险吧?有没有行内的人解释一下?
    simau
        13
    simau  
       163 天前
    公告里面有提到要上线新的状态页,估计就是静态页面
    Yourshell
        14
    Yourshell  
       163 天前
    阿里云的站内消息估计也就是发广告用的
    CFM880
        15
    CFM880  
       163 天前
    我:720/744=0.967741935483871 , 本次事故属于低于 99%但等于或高于 95%,实例月度服务费的 25% 是吧
    https://status.aliyun.com/上面轻量云 18 号是可以用状态,但是事实上是不可用,https://sla.console.aliyun.com/ 上监控 SLA 受损的产品实例,不可靠,麻烦确认是不是上面的赔付等级
    阿里云:您好 :
    抱歉根据您反馈的记录确实无法直接确认,您可以次月第 5 个工作日后,您可以通过 https://sla.console.aliyun.com/ 查看相关记录并在线申请。对于给您带来的影响,我们再次向您表示歉意,感谢您的理解。


    看看能不能顺利申请到赔偿,这个 sla 上的监控估计是没有监控到不可用的时候,看看还要不要自己举证
    qq723985066
        16
    qq723985066  
       163 天前
    我想问下为啥还能启动喷淋,是没人敢关机么,那天么的列头柜的喷了 以后问题更大
    cubecube
        17
    cubecube  
       163 天前
    @qq723985066 我怀疑喷淋是消防系统,和空调系统没有互通。以为火灾了。。
    Tyuans
        18
    Tyuans  
       163 天前
    之前上课老师说机房都没有防火喷头的,说机器进水。看了 OVH 的火灾以为大家都这样,怎么阿里这真能给机器喷水...
    kiracyan
        19
    kiracyan  
       163 天前
    @Tyuans 我看一般机房的消防系统都配的气体灭火,这阿里云居然直接淋水
    CapNemo
        20
    CapNemo  
       163 天前
    猜测是机房里有人 /门开着,因此消防系统没有选择释放灭火气体而是启动了喷淋?
    mytsing520
        21
    mytsing520  
       163 天前
    @janus77
    应为:制冷歇逼了,导致温度过高,然后后面一系列 GG 。
    zhs227
        22
    zhs227  
       163 天前
    有一台轻量到第二天下午提了工单才恢复,但根据这个通告,19 号凌晨就恢复完了。表示呵呵
    KanVivii
        23
    KanVivii  
       163 天前   ❤️ 1
    @picone DC 给客户提供的 Colocation Cage/Cabinet 业务是包含 SLA 的,其中包括了电力,空调,安全等等的保障范围

    所以非不可抗力情况下出现故障,DC 也是会赔偿阿里云的。保险业务可能是针对火灾这种需要重建的
    ohmyzsh
        24
    ohmyzsh  
       162 天前   ❤️ 1
    吹一万次,不如来一次事故,信赖 GG
    lyhiving
        25
    lyhiving  
       162 天前
    国外业务远离阿里云或者将阿里云当备用才是最实在的。
    国内的也是尽量不要搞阿里云,出了名的套路云。然后之前宣传的 9 个九的保障,真的是渣渣。

    只有当你发工单他们才说故障中,否则,你在阿里云后台看到的是机器在黑洞中,状态页面是绿色的!!!!
    这个就是最恶心人的地方!
    salmon5
        26
    salmon5  
       162 天前
    到目前为止,我认为能打的只有阿里云和 AWS 。试用过 azure.cn 云,难用。GCP 没账号没用过。其他的就不值一提了。
    likunyan
        27
    likunyan  
       162 天前
    @lyhiving 我笑死, 阿里云他们直接不回我,11 个小时后才回我,说原因和赔偿。
    gezimonkey
        28
    gezimonkey  
       162 天前
    根据《建筑设计防火规范》 GB50016 规定机房应设置自动灭火系统,并宜采用气体灭火系统。气体灭火系统中,常见的有七氟丙烷灭火系统、高压二氧化碳灭火系统、ig541 混合气体灭火系统等。

    这个喷淋的包间不合规了吧?要是咬着告,估计能告下不少钱或者人来
    cctv1005s927
        29
    cctv1005s927  
       162 天前
    @cveoy 微信公众平台啊... 作为公众渠道之一,我觉得是正常的公关渠道吧?
    cctv1005s927
        30
    cctv1005s927  
       162 天前   ❤️ 1
    @lyhiving
    国外业务首推还是 AWS 。

    但国内业务我与你的观点,恰恰相反,我的观点是,在基础设施这块,反而阿里云是国内最可以信赖的厂商,如果这次的业务没有受到香港事件的影响,那么国内的服务可靠度,包括 status page 都会得到进一步的增强,阿里云有别的厂家所没有的故障经验,我反而觉得下一次遇到这种大规模长时间故障的概率会更小了。
    unco020511
        31
    unco020511  
       162 天前
    这个影响很大啊感觉
    sunhelter
        32
    sunhelter  
       162 天前
    @gezimonkey 香港的机房,你这是国标
    securityCoding
        33
    securityCoding  
       162 天前
    @unco020511 影响肯定大啊,澳门政务挂了多少服务
    AltairT
        34
    AltairT  
       162 天前   ❤️ 3
    我通读了全文,感觉除了机房本身设施的问题,阿里的高可用设计本身也是有问题的。C 可用区不可用居然影响到其他可用区的服务了。
    aheadlead
        35
    aheadlead  
       162 天前
    aws 那么多 livesite 没人提…
    qsnow6
        36
    qsnow6  
       162 天前
    @AltairT #34 为了节省成本,估计部分设施是共用的
    aeli
        37
    aeli  
       162 天前
    @gezimonkey 拿 GB 国标规范去香港告,搞笑么。
    gezimonkey
        38
    gezimonkey  
       162 天前   ❤️ 1
    @aeli 去问了一下相关安防及消防行业的人,虽然他们也没接触过港标的项目,但说美标和欧标也都没有机房用喷淋灭火的,大概率是机房扩建占用了一个不合规的房间;就是想说里面可能会有不合规的事,引用 GB 只是找起来比较方便,不必揪着证明我有多无知......
    lyhiving
        39
    lyhiving  
       162 天前
    @cctv1005s927
    国内还选阿里云的都是脑抽了或者之前业务结合得太深入。
    信我,阿里云不值得你作为首选,备份可以考虑下。鸡蛋不要放在一个篮子里。
    bjzhush
        40
    bjzhush  
       162 天前
    @lyhiving 那你推荐个呗。。国内业务
    bjzhush
        41
    bjzhush  
       162 天前
    通篇看下来阿里云的态度还是高高在上的,没有一点道歉的诚意,真是让人恶心
    cctv1005s927
        42
    cctv1005s927  
       162 天前
    @lyhiving
    > 国内还选阿里云的都是脑抽了...

    在这点上,我觉得您可以在细化一点,比如说贵司在阿里云上有多少多少业务量,买了哪些服务,因为阿里云的什么问题,导致了大概多少损失,或者是阿里云的哪里问题,让我们作为开发者觉得不爽。

    这样,我们开发者在做决策购买云厂商服务的时候,可以根据您的经验避坑,您觉得呢?😄
    lyhiving
        43
    lyhiving  
       162 天前
    @cctv1005s927 不知道你要怎么样的细化。
    比如 ECS 的,从经典网络到 VPC ,说转就转,完全不保留经典网络的选型。原因是内网攻击,是他们网络内部设计的缺陷,让我们不同主体间的通信变得异常复杂,后来上了 classicLink ,也是各种限制,各种掏钱。
    说到 RDS ,你见过 AWS 限制小内存了吗?一直都是开放购买。某里云就不是,现在谁可以新开 256M 的 RDS ?
    再说 OSS ,图片样式更换那一波,给开发者选型了吗?强硬改到 osss-style 格式下
    还有快照数量,镜像数量,9 个九的承诺(这次应该是只剩下 99.9 )。

    这次香港的事故你的私信收到通知了吗?有像 oneman 的 IDC 给你开个工单吐槽了吗?什么都没。尽量弱化,就是不承认错误。但是平时,推销的电话呢?一大堆。

    关键时刻看技术,我觉得最简单的,买云就是买技术!某里云卖的营销,这一个点就是本质区别。

    我并不是说阿里云不好,而是说,不要把它当做首选,特别是你有部分业务自研部分业务外包的情况下。

    目前而言,国内就是腾讯云,百度云(真的要吹爆,实力可以,邻居不吵)都是要比某里云好太多的选择。
    mytsing520
        44
    mytsing520  
       162 天前
    HK GOV 的数据中心专题页面,对于数据中心的选址、建设等都有要求。
    这是一个总引导网页,涉及到不同的项目,如土地、建筑、电力、消防等,都有不同的专业部门负责跟进
    https://www.datacentres.gov.hk

    希望能有用
    cctv1005s927
        45
    cctv1005s927  
       162 天前
    @lyhiving 感谢分享
    cnpil0txia
        46
    cnpil0txia  
       162 天前
    原文“但影响了香港 Region ECS 管控服务( Control Plane )的正常使用”
    应为 Control Panel
    realpg
        47
    realpg  
       161 天前
    香港机房 笑掉大牙
    喷淋都算好的了

    比狗窝 还是 80 年代内地农村狗窝条件还差的 IDC 机房,香港满天飞。。。
    litbin
        48
    litbin  
       161 天前
    @cnpil0txia 这里 Control Plane 是指管控面,对应的还有 Data Plane 数据面
    shenkai600
        49
    shenkai600  
       161 天前
    有无业内人士透露一下,机房里的这个喷淋设备是标配吗
    ervqq
        50
    ervqq  
       161 天前
    垃圾佬狂喜,一个机房的大船准备靠岸
    cnpil0txia
        51
    cnpil0txia  
       161 天前
    @litbin 对的,谢谢
    SQLException
        52
    SQLException  
    OP
       161 天前
    @shenkai600 基本都是干粉灭火器,着火了人必须出去,然后会 boom~
    关于   ·   帮助文档   ·   博客   ·   nftychat   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1152 人在线   最高记录 5634   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 44ms · UTC 23:29 · PVG 07:29 · LAX 16:29 · JFK 19:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.