V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Features
V2EX  ›  程序员

过去的 30 分钟到现在,阿里云 HK 的 C 区机器全部停摆

  •  5
     
  •   Features · 280 天前 · 17409 次点击
    这是一个创建于 280 天前的主题,其中的信息可能已经有所发展或是发生改变。
    大家的业务有受到影响吗?

    第 1 条附言  ·  280 天前
    现在是 D 区的机器也看不到无法操作了
    但是业务正常没有中断
    第 2 条附言  ·  280 天前
    想问一下,部分客户数据全部丢失的可能性有多大?
    第 3 条附言  ·  280 天前
    8 台机器恢复了 7 台,还剩一台机器没恢复,看起来像是数据越多恢复越慢
    110 条回复    2022-12-21 01:24:26 +08:00
    1  2  
    sbboy
        1
    sbboy  
       280 天前
    进控制台都看不到机器了。。。
    mogutouer
        2
    mogutouer  
       280 天前   ❤️ 3
    VNC 连上去提示卡在
    Booting from Hard Disk...

    这么大的公司,这么大的事件,连个公告也不发,还要客户主动去排队等待客服回应,有没有搞错,起码要发个通知消息嘛

    问了多久恢复和补偿方案,直接给我把线上对话转成工单了,也不回复我
    scukmh
        3
    scukmh  
       280 天前
    朋友的业务全挂了。
    Features
        4
    Features  
    OP
       280 天前
    感觉 HK 区和内地的服务差距很大,HK 是外包加盟的吗?
    villivateur
        5
    villivateur  
       280 天前
    难怪,我这也挂了,刚准备上 V 站发帖。香港轻量云
    fds
        6
    fds  
       280 天前
    影响了一些服务
    darer
        7
    darer  
       280 天前
    雀魂我记得是运行在阿里云 HK 上的
    现在好像也挂了
    sunhuawei
        8
    sunhuawei  
       280 天前   ❤️ 1
    已经放弃使用阿里云香港轻量云了,ping 内地机器丢包率常年 60%+。换了一家走的 CN2 路线,便宜又好用
    likunyan
        9
    likunyan  
       280 天前
    我以为硬盘满了,硬盘 I/O 都是 0 ,强制重启服务器都没成功,提交了工单。现在才发现我不是一个人。
    billytom
        10
    billytom  
       280 天前 via Android
    @sunhuawei cn2 线路?请问是哪家
    cest
        11
    cest  
       280 天前   ❤️ 3
    全阳了,一个临时工误操作删库,全员头昏脑胀层层一路 confirm 下去就真删库了的可能性为?
    Chad0000
        12
    Chad0000  
       280 天前
    如何看出是 C 区?我的香港轻量应用实例没问题。
    Features
        13
    Features  
    OP
       280 天前
    @Chad0000 我客户这边 D 区机器没问题,只有 C 区停了
    Features
        14
    Features  
    OP
       280 天前
    @cest HK 不是一直都放开吗? 可能性不大吧?
    sunhuawei
        15
    sunhuawei  
       280 天前
    @billytom #10 亿速云
    unlsycn
        16
    unlsycn  
       280 天前 via Android
    雀魂挂了..
    ZE3kr
        17
    ZE3kr  
       280 天前 via iPhone
    我这里监控发现从 2022-12-18 10:49 UTC+0800 开始,阿里云香港 C 区 ECS 就炸了……还以为是我的问题。还好我这里有容灭,报警后自动就切了解析,阿里香港炸了不影响实际业务可用性
    ZE3kr
        18
    ZE3kr  
       280 天前 via iPhone
    而且现在云盘打快照都是失败的,始终是 0%进度,不知道数据是否还在
    ZE3kr
        19
    ZE3kr  
       280 天前 via iPhone
    @sunhuawei 阿里云香港加钱上 CN2 精品网速度就快了
    hvsy
        20
    hvsy  
       280 天前
    同样在等恢复的苦逼运维...
    bruceczk
        21
    bruceczk  
       280 天前
    +1 ,B 区的服务器还是好的,C 区的挂了
    alan0liang
        22
    alan0liang  
       280 天前
    今天早上我 hk 另一台机器连续收到了三条通知:

    1. 09:25:50 阿里云 ECS-系统事件-非预期宕机开始通知: 您好!您的云服务器(实例 ID:xxx ,实例名称:xxx ,私网 IP:["172.x.x.x"])在北京时间 2022-12-18T09:24:27 出现宕机,阿里云正在进行重启恢复操作,恢复时会第一时间通知您,谢谢。
    2. 09:26:16 云盘实例宕机恢复发送消息: 您好!阿里云已保障您的云服务器(实例 ID:xxx ,实例名称:xxx ,私网 IP:["172.x.x.x"])恢复运行,请检查您的应用是否正常,谢谢。
    3. 09:27:51 ECS 主动运维云盘实例计划重启事件通知: 您好,我们检测到承载您的云服务器运行的物理机存在硬件异常风险,由于该风险随时可能导致实例宕机,建议您选择合适的时间通过重启该云服务器将其迁移至健康的物理机。
    您可以登录阿里云 ECS 控制台,在 待处理事件 - 系统事件 标签栏中查看待处理的计划内运维事件,并根据业务需要选择立即重启实例,或预约在不晚于计划执行时间的某一时刻重启实例。
    若您未对实例进行重启,且实例未因其他原因被重启,则系统大约将在 2022-12-20T01:26:58Z ( UTC+0 时区)前自动重启实例,该过程需要最长 15-20 分钟时间,迁移后 IP 地址不会发生变化。 为了确保您的业务稳定运转和数据安全,建议您在计划重启前及时备份重要数据。

    不知道是不是有关系;现在这台被重启的机器还是好的,然而另外两台机器都挂了
    whywaoxaks
        23
    whywaoxaks  
       280 天前
    me too 同挂
    beyondex
        24
    beyondex  
       280 天前
    me too
    echooo0
        25
    echooo0  
       280 天前
    看监控里面的 cpu 还以为被 D 了,但是带宽正常

    结果一看阿里云后台,好家伙服务器列表都没机器了
    learningman
        26
    learningman  
       280 天前
    轻量也寄,还以为过期了,开控制台一看没过期就没管了
    daiv
        27
    daiv  
       280 天前
    @sunhuawei #15 带宽好小, 没有按流量收费呀
    gfdhfghfghrr
        28
    gfdhfghfghrr  
       280 天前
    c 区全挂
    daiv
        29
    daiv  
       280 天前
    @sunhuawei #8 原来是 轻量, 是否支持 运行 科学上网, 谢谢
    feiyunruyue
        30
    feiyunruyue  
       280 天前
    +1 ,也不知道啥时候恢复
    sunhuawei
        31
    sunhuawei  
       280 天前
    @daiv #29 发现了会被封吧,我没试过
    daiv
        32
    daiv  
       280 天前
    @sunhuawei #31 你是放网站? 你用了多久, 网络保证 cn2,更稳? (我是阿里云 t5 年付机器, 快到期了)
    Aluhao
        33
    Aluhao  
       280 天前
    二个多小时了还没解决。
    sunhuawei
        34
    sunhuawei  
       280 天前
    @daiv #32 我只用了 20 天,目前没碰到过丢包现象,你问问他们客服吧
    Alan3
        35
    Alan3  
       280 天前
    [阿里云] 尊敬的 xxx:您的云服务器 /磁盘(实例 ID:xxx ,实例名称: ixxx ,磁盘 ID:xxx )出现 IOhang 的情况。该问题有概率导致 IO 操作异常,阿里云技术团队正在处理,恢复后会第一时间通知您,谢谢。
    johnsken
        36
    johnsken  
       280 天前
    业务严重受阻,还以为是被 D 了,结果是整区瘫痪,苦逼坐等修复
    suzic
        37
    suzic  
       280 天前 via Android
    我博客挂了
    lishenglan1992
        38
    lishenglan1992  
       280 天前
    挂了四个多小时了现在还没恢复,这技术也是牛逼了,客服排队排上了也没人理,难不成都被裁掉了,真是太烂了,唉
    likunyan
        39
    likunyan  
       280 天前
    工单 12 点到现在都没回复我。。。
    coyove
        40
    coyove  
       280 天前
    我知道明天周会 cto 又会 bb 同城双活 异地多活 跨国备份了
    learningman
        41
    learningman  
       280 天前
    @lishenglan1992 #38 估计是都阳了(
    beyondex
        42
    beyondex  
       280 天前
    @mogutouer 我的也是,转工单了,没回复说怎么着了
    mengyifan
        43
    mengyifan  
       280 天前 via iPhone
    @learningman 香港早放开了
    learningman
        44
    learningman  
       280 天前
    @mengyifan #43 阿里云的支持在内地,只是机房是香港的
    wsseo
        45
    wsseo  
       280 天前
    @Features 他明显在阴阳怪气
    um1ng
        46
    um1ng  
       280 天前
    阿里云:有理由裁人了
    emperinter
        47
    emperinter  
       280 天前
    我这也挂了,目前没有任何反馈,希望数据没出啥问题。
    xzysaber
        48
    xzysaber  
       280 天前
    给我们提示是说硬盘有异常,发了很多条消息,当然也包括很多实例的。
    mogutouer
        49
    mogutouer  
       280 天前
    有没有搞错,已经过去 5 个小时了,还没修复,ECS 被停止了,无法启动

    The request has failed due to a temporary failure of the server.
    handsome198311
        50
    handsome198311  
       280 天前 via Android
    两台轻量服务器,还是连不上,在服务器列表看不到,但有一台 wireguard 还可以连。
    snail00
        51
    snail00  
       280 天前
    说是机房空调坏了
    HAOKE
        52
    HAOKE  
       280 天前
    @snail00 空调坏了 不可能影响网络访问。
    mogutouer
        53
    mogutouer  
       280 天前
    @snail00 离谱,5 个小时,就算新买空调都够时间装上了
    shansing
        54
    shansing  
       280 天前
    还等着下载我的 Steam 云存档呢……
    snail00
        55
    snail00  
       280 天前
    @helpxuezia 给回复的是这样, 一个机房服务器宕机, 去年华为云也这么说
    snail00
        56
    snail00  
       280 天前
    @mogutouer 机房空调哪有那么简单, 恢复了也得校验数据, 恢复服务, 估计得到晚上了吧
    snail00
        57
    snail00  
       280 天前
    实测其他区域 k8s 集群创建失败, 镜像在 C 区, 从其他区域拉香港的镜像也拉不到
    ericbize
        58
    ericbize  
       280 天前
    @snail00 现在 HK 温度 13 度
    hcmwong
        59
    hcmwong  
       280 天前   ❤️ 1
    對阿里云太失望了.
    wingkwanli888
        60
    wingkwanli888  
       280 天前
    澳广视网站 12 月 18 日消息,澳门多个关键基础设施网站受阿里云故障影响,今日 中午起无法访问使用,包括 zf 、传媒的网站和应用程式。

    澳门司警表示,网络安全事故预警及应急中心接报,因阿里云的香港机房节点发生故障,导致澳门金融管理局、澳门银河、莲花卫视、澳门水泥厂等关键基础设施营运者的网站、澳觅和 mFood 等外卖平台、以及澳门日报等本地传媒应用程式,自今日中午起暂时无法访问使用。网安中心已联系相关关键基础设施营运者并跟进。
    yanghahaha
        61
    yanghahaha  
       280 天前
    澳门的两个外卖平台 mfood 和 澳觅 用的服务器就是阿里云香港的,现在整个澳门都没法点外卖了
    cai314494687
        62
    cai314494687  
       280 天前
    我的香港轻量服务器也是挂了,坑爹。

    还好数据库在另外一台服务器上,挂这么久,以后不敢用了。
    feiyun260
        63
    feiyun260  
       280 天前
    谁有没有内部消息,到底是什么故障?影不影响数据安全?
    binbinjp0915
        64
    binbinjp0915  
       280 天前
    里面有不和谐东东 正在排查....
    binbinjp0915
        65
    binbinjp0915  
       280 天前
    小心国安法哦
    yanghahaha
        66
    yanghahaha  
       280 天前
    @feiyun260 目前都不清楚,阿里云也不详细解释
    wingkwanli888
        67
    wingkwanli888  
       280 天前 via iPhone
    @cai314494687 数据库和后端服务分开部署在不同的地区,不会导致读写延迟太大吗?
    fengfisher3
        68
    fengfisher3  
       280 天前
    听说是机房过热停机了,冷却系统有问题,现在( 18:00 )还在修复。
    Zchary
        69
    Zchary  
       280 天前   ❤️ 2
    https://status.alibabacloud.com/ 我怀疑这个 status 可能是静态页面
    sz369
        70
    sz369  
       280 天前
    okx 没考虑容灾
    完全是币圈的一把梭风格
    feiyun260
        71
    feiyun260  
       280 天前
    网上查了下,今年 6 月 21 日也发生过一次,12 小时才处理好
    feiyun260
        72
    feiyun260  
       280 天前
    @Zchary 你才对了,切换各区菜单,网络没有拉取数据
    sibowen
        73
    sibowen  
       280 天前
    找不到机器,所以来 v2 ,果然
    Jeepeng
        74
    Jeepeng  
       280 天前
    @likunyan 我也以为硬盘满了,提了工单
    leido
        75
    leido  
       280 天前
    澳门日报网站现在都没恢复
    http://www.modaily.cn/
    hgc81538
        76
    hgc81538  
       280 天前
    阿里云香港地域 PCCW 机房制冷设备异常

    Beijing time:2022-12-18 18:23:38
    尊敬的客户: 您好!阿里云监控发现香港地域某机房设备异常,影响香港地域可用区 C 的云服务器 ECS 、云数据库 PolarDB 等云产品使用,阿里云工程师已在紧急处理中,非常抱歉给您的使用带来不便,若您有任何问题,请随时联系我们。

    阿里云香港地域 PCCW 机房制冷设备异常

    Beijing time:2022-12-18 18:16:16
    尊敬的客户: 您好!经排查,阿里云香港地域故障确认系香港 PCCW 机房制冷设备故障所致,影响香港地域可用区 C 的云服务器 ECS 、云数据库、存储产品(对象存储、表格存储等)、云网络产品(全球加速、NAT 网关、VPN 网关等)等云产品使用。这一故障也影响了香港地域控制台访问和 API 调用操作,目前阿里云工程师在配合 PCCW 机房工程师加速处理,部分制冷设备正在恢复中。非常抱歉给您的使用带来不便。若您有任何问题,请随时联系我们。

    阿里云香港地域 PCCW 机房制冷设备异常

    Beijing time:2022-12-18 10:17:43
    尊敬的客户: 您好!经排查,阿里云香港地域故障确认系香港 PCCW 机房制冷设备故障所致,影响香港地域可用区 C 的云服务器 ECS 、云数据库、存储产品(对象存储、表格存储等)、云网络产品(全球加速、NAT 网关、VPN 网关等)等云产品使用。这一故障也影响了香港地域控制台访问和 API 调用操作,目前阿里云工程师在配合 PCCW 机房工程师加速处理,部分制冷设备正在恢复中。非常抱歉给您的使用带来不便。若您有任何问题,请随时联系我们。
    lingling47
        77
    lingling47  
       280 天前
    @sunhuawei 那家呀 介绍一下呗
    program9527
        78
    program9527  
       280 天前
    服务器十一点多就挂了。当时客户直接微信就发过来了。还好主要数据库做了备份同步,一个小时在新服务器还原数据库重新部署。不然真的一天损失多少客户,有多惨。
    holinhot
        79
    holinhot  
       280 天前 via iPhone
    不是云盘系统坏了吗?如果是空调问题太热了,可以关闭部分服务器。怎么全部停摆
    program9527
        80
    program9527  
       280 天前
    但还是部分分支业务、文件在上面。愁的啊。。。有数据库同步也算是止损了,不幸中的万幸
    Zikinn
        81
    Zikinn  
       280 天前
    轻量也没了,才知道
    void1900
        82
    void1900  
       280 天前
    恢复了各位
    Zikinn
        83
    Zikinn  
       280 天前
    轻量也没了,才知道
    @void1900 似乎还没有,控制台和 SSH 都上不去。
    securityCoding
        84
    securityCoding  
       280 天前 via Android
    k8s 多区部署的好处来了。。。
    patx
        85
    patx  
       280 天前
    nezha 监控正常
    cai314494687
        86
    cai314494687  
       280 天前
    @wingkwanli888 有一点延迟,能接受
    yanghahaha
        87
    yanghahaha  
       280 天前
    @holinhot 肯定没这么简单,阿里想掩盖故障的严重性;如果真的只是制冷问题,那阿里云是真的效率低,一点都不可靠
    waytocode
        88
    waytocode  
       280 天前
    哎 到这个点都没恢复,也不知道能做到什么时候能好
    bruceczk
        89
    bruceczk  
       280 天前
    还没有恢复,OSS 也是
    holinhot
        90
    holinhot  
       280 天前
    @yanghahaha 我觉得应该也是,当年联通机房空调问题直接上了 N 个大风扇顶住。
    HAOKE
        91
    HAOKE  
       280 天前
    ...我已经被 2 个客户邮件骂了
    hisune
        92
    hisune  
       280 天前
    离谱他妈给离谱开门
    followNew
        93
    followNew  
       280 天前
    @helpxuezia #91
    千万别来个客户清零
    feiyunruyue
        94
    feiyunruyue  
       280 天前
    还在加班,妈蛋
    learningman
        95
    learningman  
       280 天前
    你们都恢复了?我这还挂着呢
    waytocode
        96
    waytocode  
       280 天前
    五台 剩一台没有恢复
    swulling
        97
    swulling  
       280 天前 via iPhone
    C 区机房空调坏了,然后服务器大规模过热关机。

    就算空调恢复,一波服务器要先启动,然后恢复分布式块存储,然后再恢复其他服务。

    有些机器可能一重启就启动不了了,有些块副本都丢了得等磁盘重挂,反正分布式块存储这玩意一旦出现大规模宕机,再恢复时间都是用天级别来算的。
    gogolive
        98
    gogolive  
       280 天前
    还没恢复
    bjzhush
        99
    bjzhush  
       280 天前
    @binbinjp0915 你这造谣真是没水平,排查东西要搞到整个区不可用?
    cai314494687
        100
    cai314494687  
       280 天前 via iPhone
    我发现阿里云 香港节点的 oss 也挂了,我数据库备份在上面了,不过还好前一段时间用了云数据库,逃过一劫。😓
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5847 人在线   最高记录 6067   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 03:14 · PVG 11:14 · LAX 20:14 · JFK 23:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.