1
tangds99 2021-07-15 11:34:26 +08:00
不是当晚好几家一起故障吗
|
3
ffLoveJava 2021-07-15 11:43:50 +08:00
这个又不会公开
|
4
dot2017 2021-07-15 11:50:52 +08:00
事故报告为啥要公开?
|
5
tojohnonly 2021-07-15 11:52:24 +08:00
网页端好像又打不开了?手机端可以
|
6
dynastysea 2021-07-15 11:54:04 +08:00
你想的真多,别人为啥要公开啊
|
7
Jooooooooo 2021-07-15 11:54:12 +08:00 1
国内公司没见过公开的
国外的 postmortem 做的这么好国内公司确实应该学学 可以搜 google 的故障报告, 写的很详细 |
8
Pastsong 2021-07-15 11:55:13 +08:00
B 站又没有给你承诺过 SLA 的,又不会公开的
|
9
VANHOR 2021-07-15 11:55:33 +08:00
看上去是云服务商的问题,估计不会公开的。
|
10
3dwelcome 2021-07-15 11:58:04 +08:00 1
@HongJay "其他是被啊 B ddos 了"
又不是单服务器时代了,现在网站的云服务器基本不怕 DDOS 。 你仔细观察,当天 A 站挂掉也是后台 API 不能访问,主页面 HTML 正常显示,但是刷不出视频。真要是 DDOS,那么连 HTML 都显示不出来了。 最大可能,就是 A 站和 B 站在同一个机房同一个出口。 |
11
mangoDB 2021-07-15 12:24:27 +08:00
楼主有个疑问🤔️,为什么 B 站要向外界公布事故报告呢?
|
12
wph95 2021-07-15 12:50:38 +08:00 1
猜外部原因的 云服务商原因的别猜了。不对。
上午 b 站有人发了具体故障原因到自己的公众号,中午号就已经没了 =。= |
13
otakustay 2021-07-15 12:55:03 +08:00 2
@3dwelcome 不能这么说,HTML 在 CDN 上,DDOS 绕过 CDN 打掉服务也算 DDOS
A 站的问题确实是一个 DDOS,但不是 B 发起的,纯粹用户突然增长变成了服务拒绝而已 |
14
delectate 2021-07-15 13:19:48 +08:00 51
其实国内也有很多揭露事故报告的,比如博客园 https://www.cnblogs.com/cmt/p/15012349.html
但是这是凤毛麟角。国外基本上你能想得到的互联网公司,都有服务状态查询、事故报告等等。 其中,让我印象最深刻的是两个:1 、Backblaze 定期发布的硬盘可用报告,让大家从侧面知道了硬盘的不可靠性,备份的重要性,以及选择一个好牌子的绝对性(吹爆 hgst ); 2 、gitlab 误删数据库后的在线直播恢复。 那么为什么国内几乎没有这种呢?有几个原因: 1 、捂盖子是本能,上到 z--f 下到居民个人,谁也不愿意自己的丑事外扬,更不可能自揭伤疤;亡羊补牢、后事之师什么的,其实都是空喊口号;每次看《空中浩劫》的 NTSB 耗费几年十几年,从几十万残片找线索,就为了降低万分之一事故率就莫名感动,我们基本上是当天出事,先把热度压下去,隔天事故报告就炮制出来了,只要大家忘记,这个事故就没发生过一样。 2 、没有向外发布报告的传统; 3 、起哄的人太多,造谣传谣的更多,为了避免误传,干脆不说。 |
15
AlexChing 2021-07-15 13:21:48 +08:00
失去了一个学习机会了。
|
16
morize 2021-07-15 14:23:56 +08:00 5
@delectate 上纲上线没必要,别有事没事国内国外的,到时候二极管又来吵。捂盖子是人类的本能,猫猫狗狗做错事都会想办法不让你发现。
|
17
haaro 2021-07-15 14:39:16 +08:00
|
18
CEBBCAT 2021-07-15 14:52:08 +08:00 via Android
……楼主也没说要公开啊,事故报告泄漏一两个或者走漏一点风声又不会开人
|
19
godblessumilk OP 大家怕不都是贤者模式了???我还沉浸在阿逼被日的高潮中,跪求阿逼出报告啊 TAT 阿逼别跑 @毛剑
|
22
wateryessence 2021-07-15 15:07:44 +08:00
@fetich 确实,上课的时候直接拿 cloudflare 的报告做案例研究
|
23
fetich 2021-07-15 15:10:56 +08:00
@delectate 那啥,我在某处看到了同样的用户名和头像,只不过 d 是大写的,不确定是不是本人。提个建议,多平台不要使用雷同的帐号和头像,不安全。
|
24
EastLord 2021-07-15 15:13:12 +08:00
敖丙帮你分析了事故原因 https://juejin.cn/post/6984577649968414757
|
25
KouShuiYu 2021-07-15 15:15:07 +08:00 5
楼上让人感动的大飞机让我想起了波音 737
|
26
3dwelcome 2021-07-15 15:26:27 +08:00
@otakustay "A 站的问题确实是一个 DDOS,但不是 B 发起的,纯粹用户突然增长变成了服务拒绝而已"
我个人觉得这种几率很低,DDOS 是放到 5 年前是事故主因我信,现在 A 站都是放阿里云,云又不可能被轻易打挂。 而且豆瓣又不是视频站点,不太可能同一时间被 DDOS 了。 PS: 刚才去又看了一眼 A 站网页,竟然上了 Service Worker,前端技术比 B 站还先进。也许就是这个 SW,让我误以为那天 HTML 没挂。 |
27
godblessumilk OP @wph95 具体故障原因公众号推文有截图吗,跪求。。我推测的故障原因是三者其一 ① 阿里云防火墙在部署升级,防火墙配置不当,拖垮了 B 和 A ② 阿 B 的软件层的高可用架构并未考虑极端情况,导致了机房硬件的过热,单节点硬件故障,后续雪崩引起大片服务宕机 ③ 中间件 tengine 升级,未全面测试,导致线上生产环境 5XX 故障
|
28
wph95 2021-07-15 15:30:56 +08:00
|
30
damnu 2021-07-15 15:33:00 +08:00 via iPhone 6
这也能联动到攻击国人身上了?
|
31
meteor957 2021-07-15 15:33:40 +08:00
who cares
|
32
wph95 2021-07-15 15:33:54 +08:00 4
@delectate #14
有道理是有点道理 但是拿 toB 公司和 toC 公司比没啥意义 toC 公司公开事故报告有啥意义 你爸妈 or 行外人就看个热闹瞎起哄 toB 公司不公开,出事故出了多次就丧失信任就跑路了 |
33
godblessumilk OP @wph95 求加微信细说,T29wc180MDNGb3JiaWRkZW4=,加密方式懂的都懂
|
34
godblessumilk OP @wph95 #32
是这篇博文提及的 bug 吗??? 每个线程开启一个 LuaJIT 虚拟机( LuaJIT 2.1.0-beta3 )在高并发情况下,lua 代码会出现诡异情况。当 xxx 为 1 时,按理应该 xxx ~= 1 为 false,但是很奇怪的是反而为 true 。只有 not xxx == 1 才为 false,ps.暂时无法用独立的测试用例来重现此问题。 https://www.cnblogs.com/lcinx/p/13564598.html |
35
windyskr 2021-07-15 16:33:25 +08:00 3
一包辣条猜是墙的某一组件爆炸了。
|
36
otakustay 2021-07-15 16:57:46 +08:00
@3dwelcome 云不代表自动扩容,或者说现在大部分企业用云根本没有自动扩缩容能力。你说数据库、CDN 不会被打挂这个很合理,但核心的业务服务买虚拟机部署是很容易就会挂的
|
40
zhoudaiyu 2021-07-15 22:25:54 +08:00 via iPhone
@wateryessence 求事故报告的链接
|
41
zohar727 2021-07-15 23:12:28 +08:00
有事故报告也一般只有内部员工能看吧。
我们内网就有各团队的事故报告分享 |
42
lloovve 2021-07-15 23:15:29 +08:00 via iPhone 4
报告有了,就是为了送大家一天大会员,特意崩溃的
|
43
Zzdex 2021-07-16 00:08:28 +08:00
这块得学学 github 每周都有 Availability Report
|
44
wenzichel 2021-07-16 00:42:53 +08:00
为什么一定要有事故报告呢?为什么一定要对外公开呢?
|
45
Perry 2021-07-16 00:50:55 +08:00 via iPhone
B2B 的话比如云服务做事故报告很正常,B2C 或者 C2C 的感觉没必要做啊,有几个普通用户需要知道这些的?最多道个歉就够了吧。
|
46
godblessumilk OP @windyskr 部署在运营商骨干网的墙爆炸了?
|
47
learningman 2021-07-16 00:53:23 +08:00
@xrr2016 #37 空中浩劫不是电影啊,是纪录片。
而且 NTSB 是美国的,但是空中浩劫是加拿大拍的 |
48
gBurnX 2021-07-16 00:59:03 +08:00
高可用架构根本不需要学习,因为本身就很简单,全靠砸钱。钱如果足够多,采用足够精细的实时日志,甚至能做到科幻电影那种,秒级直接定位到故障具体子模块甚至代码位置。
|
50
godblessumilk OP @windyskr 老实说,这事发生的时候,我第一时间联想到的是 2020 年 github 大规模的证书 CA 被劫持事件。。当时最合理的解释就是 qiang 在升级。。。。因为 CA 被大面积劫持,只可能发生在骨干网上,只可能是三大运营商的手笔。。。
|
53
CosimoZi 2021-07-16 04:34:56 +08:00 5
哇 v 站恨国真是有一手啊, 这都能转进
|
54
halden 2021-07-16 09:11:13 +08:00 4
帖子的节奏莫名其妙变成了“指出国内厂家不出事故报告的原因 -> 乳化”,有没有这么玻璃心说两句就恨过了?你认为人家观点不对你反驳观点就好啊
公开事故报告的好处有几个 1. 说明自己内部排查问题的能力 2. 让用户知道“自己知道自己错在哪了”,以后不会再犯 3. 让同行引以为戒不犯相同的错误 |
55
reiji 2021-07-16 09:36:27 +08:00 via iPad
一开始看 404 想当然的以为是 CDN 故障,现在深深感觉自己还是需要提高姿势水平
|
56
ccppgo 2021-07-16 09:38:36 +08:00 3
@halden 在 NGA 才学到转进这个词, 楼上那只转进小能手确实牛逼, 一个破 B 站出了问题转进到正府和中国人, 还说别人玻璃心? 你拉偏架恶不恶心?
|
57
real3cho 2021-07-16 09:42:09 +08:00 1
啊 B:不是送了一天大会员给你了嘛,还要怎样!
|
58
gy0624ww 2021-07-16 10:01:41 +08:00
楼主应该是想知道小破站的服务高可用,异地多机房多活灾备,为啥失效了吧
|
59
CosimoZi 2021-07-16 10:14:37 +08:00 6
1. b 站既不是 2B 公司, 也不托管用户的重要资产, 可靠性不是它的卖点, 没必要搞自己可靠性的 propaganda. 用户不会因为 b 站可靠性没达到 4 个 9 不看 b 站, 但可能在选择云服务 /代码托管服务时就必须纳入考量范围. 你说国内哪个云服务厂商要是出了什么问题, 扣扣大帽子也无妨, b 站接不住, 也没必要接.
2. 波音 737max 是怎么以相同的原因掉了两架的? 掉一架可以是意外, 掉两架, 然后说<<空中浩劫>>事故报告做得好, 我寻思事故报告做得好起码得完全相同的问题不犯第二次错误吧? 做得好在哪里了呢? 真实大蜜似黑啊. 3. 内部通报不对外发布, 也是对实际责任人和实际责任团队的一种保护. 大厂每天内部事故邮件雪花一样多, 真不劳别人操心查不查得出来 |
60
wangxin13g 2021-07-16 10:27:27 +08:00
@halden 任何非 2B 为核心收入的公司没必要也责任公开自己线上问题的起因,稍微大点的公司一天的线上故障不计其数,挨个发通报没意义也没必要。当然如果你硬要看六子肚子里几碗粉就当我没说。
|
61
Illusionary 2021-07-16 10:29:40 +08:00 1
为啥觉得 B 站要把这事当成事故? 人家借着这一波宕机都不知道收割了多少热搜流量。 像微博一样,经常搞什么戏子离婚 /出轨新闻导致宕机(不给程序员过周末的梗),其实就是故意宕机的,给人一种微博还很火的感觉。
|
63
ppphp 2021-07-16 12:09:43 +08:00
楼里说恨国的是只能看得懂恨国的内容了,确实是国外做的好啊
|
64
ELloop 2021-07-16 12:24:55 +08:00 via Android
@halden 这看起来都在支持掩盖真相,“那杀死你的谎言被埋在了比那更深的谎言之下”,没有那么糟糕但情况是相同的,一个视角的坍塌构成了世界腐坏的一部分。
|
65
2kCS5c0b0ITXE5k2 2021-07-16 12:27:25 +08:00 2
@delectate 你好,Instagram, FB 在 2021 年 4 月 9 日 大面积宕机. 但是仅有一个发言人回应:"今天早些时候,配置改变导致一些 Facebook 用户无法进入。我们迅速展开调查,解决了问题。对于造成的不便我们深表歉意."
不知道你能否找到关于那一次事件的事故报告呢. |
66
kitthsu 2021-07-16 14:31:23 +08:00
盲猜当晚是 CDN 故障,可能那几家用了同一个 CDN 供应商
|
67
godblessumilk OP @gy0624ww #58
终于来了位关心技术细节的同僚。。当晚我看到金山云,华为云,好几家云服务厂商同时挂掉,分析了下觉得是怪事一桩,所以才会希望阿 B 出报告让 too young too native 的我学习学习,提高姿势水平(当然阿 B 不公开报告也无可厚非 |
68
godblessumilk OP @tangds99 #1 对鸭,怪事一桩。某一家大规模挂掉就算了,几家一起挂,这概率未免有点不合逻辑
|
69
azuis 2021-07-16 16:06:38 +08:00
@CosimoZi 纠正一下,737 Max 第一次的事故最终报告是在第二架飞机掉了之后才出来的...包括川航 8633 的事故报告也是时隔 1-2 年后才最终发布。
|
70
chinvo 2021-07-16 16:58:33 +08:00 2
@delectate #14 哪次国内飞安事故没有详细调查报告, 哪次不是深入调查之后再发布? 你自己不去民航局官网看, 就瞎造谣说捂盖子、炮制报告.
回到这个问题上, 你举的两个例子都是对公业务, B 站又不是对公业务, 怎么拿到一起对比? 就这, 还 46 个赞, 这 v 站, 真是没法看了. |
71
jpyl0423 2021-07-16 17:19:20 +08:00
没想到这么个帖子也能丰富 block 列表😅
|
72
azuis 2021-07-16 23:49:12 +08:00
@chinvo 详细调查报告应该是都有,但是确实并不是每次每次都公开的。 有一些是网上有人放出来 pdf,但是民航局官网上是没有的,或者我没找到,如果你知道链接也欢迎发一下。 一般国内的飞安事故只有应急管理部的网站上会挂一个非常简单的调查报告,就是只说结论的那种,而且只有 2000 之后的, 相比其他国家来说确实透明度很低。 并没有 pdf 那种详细的版本。 我觉得详细调查肯定是有,只是详细报告并不会对大众公开。
有点跑题了,B 站这个估计复盘也没这么快,可能过段时间会有人分享吧。 |