V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fromMars1130
1D

分享一下自己身上出现过哪些重大线上事故

  •  5
     
  •   fromMars1130 · 1 天前 · 8259 次点击
    131 条回复    2026-04-17 17:21:30 +08:00
    1  2  
    falsemask
        1
    falsemask  
       1 天前
    调对方接口,一次性拿了几百万条数据,把对方内存打爆了。不过我觉得责任不在我,对方没有评估数据量。
    chen11
        2
    chen11  
       1 天前
    现网操作数据库,我把表的数据给删了
    tf2
        3
    tf2  
       1 天前   ❤️ 26
    发帖没正文算不算 重大线上事故
    tina2998
        4
    tina2998  
       1 天前 via iPhone
    一般都在数据库上
    ycao24813
        5
    ycao24813  
       1 天前
    发通知消息,判断没做好,重复循环发了十多条给用户
    rocmax
        6
    rocmax  
       1 天前 via Android
    前前司离职最后一天,一个销售来说要改单子的负责人,需要操作生产环境数据库(我知道不对,小公司这是常规操作)。我的 sql 里少写了个 where 条件差点把上万个单子的负责人都改成同一个人。sql 跑了几秒钟没结束,果断 ctrl+c 救回来了。虽然不是啥大事故,但是如果离职之前出事就非常尴尬。
    ChovyChu
        7
    ChovyChu  
       1 天前
    挖矿发币,由于 xrp 协议上有小数和没小数的单位不一样,导致发多了,好像是 10000 倍
    junkk
        8
    junkk  
       1 天前   ❤️ 7
    幂等颗粒度不够细,本来也没啥事的,碰上了几个巧合撞在一起。导致奖励重复发放,一晚上发了几百万出去

    还好之前这部分其他同事也动过,他又正巧被裁了,就把锅给他背了
    Flowing
        9
    Flowing  
       1 天前   ❤️ 2
    身上最大的事故就是甲状腺结节
    zgsi
        10
    zgsi  
       1 天前
    项目上线当天收款金额少了 50,然后中午没吃饭写了补缴功能,2 天内补齐了
    evan1
        11
    evan1  
    PRO
       1 天前
    项目上线后做生产环境验证,验证后忘记删数据了,后面运行了一小段时间才发现,然后让我删数据。

    删数据的时候忘记加 where 条件了,把全部数据都删除了。

    当时发现这个问题的一瞬间真的感觉后背到后脑勺凉了一下。后面我花了一个晚上把所有数据恢复了。
    yiiouo
        12
    yiiouo  
       1 天前
    前同事,同步用户信息的时候,将公司 500 多个人搞成离职,包含了多位领导。
    300
        13
    300  
       1 天前
    公司代码混乱,本地测试必须注释一大堆代码

    好几次没注意提交了一些测试代码,导致服务器有挂一小时的,有挂一夜的,有挂三天的。。

    不过我觉得责任不在我,所有人都出过这个问题,老板自己不上测试服,也不给数据库之类的接口,导致本地只能删代码来启动

    另外挂三天也是小事,过年设备故障挂了一星期+ 他自己也不知道。用户不知道跑多少了
    GlobalNPC
        14
    GlobalNPC  
       1 天前
    线上排查问题,把 redis 的公共前缀给改了,DB 直接被打爆,业务中断了两小时四十五分钟。
    XuHuan1025
        15
    XuHuan1025  
       1 天前   ❤️ 2
    不是我干的 之前公司有个私募两点四十买了 2288 万基金没买上,发现的时候来不及了 第二天涨了 4.6%
    668866
        16
    668866  
       1 天前
    rm -rf *
    Satoshl
        17
    Satoshl  
       1 天前
    @300 什么公司这么松弛
    lyxxxh2
        18
    lyxxxh2  
       1 天前
    刚毕业的时候做的多店铺活动,很简单,单纯付款记录。
    我分库了,然后技术又差。
    给客户设置 cookie,代表那个店铺。
    微信支付,没有 cookie,找了好久的 bug 。
    最后... 傻傻的手写原生 sql 修复。
    还有其他的...
    三头两天的出 bug,项目被我搞废了,客户不愿意用了。
    vegeta2ex
        19
    vegeta2ex  
       1 天前
    楼上有些看到都觉得恐怖
    swananan
        20
    swananan  
       1 天前   ❤️ 1
    我好多年前的一个内存写飞(这是我现在喜欢 rust 的原因),当时后果蛮严重,上了微博热搜
    kevan
        21
    kevan  
       1 天前
    rm /*
    hitrip
        22
    hitrip  
       1 天前
    企业大数据应用,预聚合把一个 org 的数据算到别的 org 去了。
    pigspy
        23
    pigspy  
       1 天前 via Android
    - rabbitmq 要删除队列,给运维的操作单里面写错了队列,所有设备上线的消息都漏掉了,还好是周末,影响不大
    - kafka 的消息序列化器
    pigspy
        24
    pigspy  
       1 天前 via Android
    @pigspy kafka 的消息序列化器写错,所有用于审计的消息全部发送失败
    wu67
        25
    wu67  
       1 天前
    通知推送没有测试环境, 也没有文档和提醒, 然后给全网正式用户推送 test test test...
    villivateur
        26
    villivateur  
       1 天前
    昨天帮老婆解压一个 7z 压缩包,我直接在命令行解压的,狗日的 7z 命令行工具,为什么 7z d 是删除压缩包,还没有二次确认!把老婆 80 个 G 的备份给删了。
    明明 gzip -d 是解压的啊,我脑子坏了……
    czita
        27
    czita  
       1 天前
    @kevan #21 +1
    coldmonkeybit
        28
    coldmonkeybit  
       1 天前
    对接一个硬件项目,代码问题导致设备在客户测试现场坏掉了
    murmur
        29
    murmur  
       1 天前   ❤️ 3
    楼主为什么不先分享,这是钓鱼整理好自己当自媒体发独食么
    iOCZS
        30
    iOCZS  
       1 天前
    因为少传了一个参数,导致老板找投资人演示的时候,功能异常,被投资人说“你的想法不错,可是叫我怎么信任你们的技术”(老板口头转述)。
    loryyang
        31
    loryyang  
       1 天前
    我好像只有实习的时候,把 db 的数据全部回滚了一次。我觉得我是个杀伐果断的人,看到不顺眼的都直接删,很幸运一直没出过啥大事
    我印象最深刻的还是我之前一同事,把 hdfs 的数据直接从我们项目的根目录 delete ,删了 2 个 p 的数据。当时还很早,hdfs 能力不完善,内部搞了个垃圾回收,2 个 P 直接塞爆了垃圾箱,就被自动清理了。晚上直接拉起了几十号人进行数据恢复
    youknowsomething
        32
    youknowsomething  
       1 天前
    上传照片没做照片名字的处理,导致很多人上传后名字都一样,根本分不清是谁的
    eijuziew
        33
    eijuziew  
       1 天前
    忘记取消注释测试代码,大奖被多抽出去十几个,损失几万块
    Smileh
        34
    Smileh  
       1 天前
    @falsemask #1 莫名想笑
    我没责任 责任都是别人的
    pyyalt
        35
    pyyalt  
       1 天前
    添加服务器上访问人员时候,禁用了 root 用户。导致所有人都登录不上了。后来服务器直接还原了。。。。
    frankilla
        36
    frankilla  
       1 天前
    评论有些说是数据库要么删了要么就是多条目错误变更,想问你们的是操作之前不备份的吗?数据库备份是麻烦还是时间太长?如果操作前备份一下是不是应该没什么担心的?(外行问)
    lg487
        37
    lg487  
       1 天前
    前前司,一个给客户分账功能,我这边是调支付模块的分账接口,然后接口一直给我返回分账失败,但是实际他那边是分账成功了的,我这边又做了重试机制,然后一笔账分了 15 次,后面把公司那个账户的钱都分完了,不过我觉得责任不在我,明明分账成功,他那边给我回复失败,导致我这边一直以为分账失败走重新分账逻辑。
    javalaw2010
        38
    javalaw2010  
       1 天前
    定时任务发积分,运维没跟我讲每个机器上都在跑定时任务,导致发了两倍的积分
    TheGreatSage
        39
    TheGreatSage  
       1 天前
    涉密电脑接了非密的外设,这个算嘛
    wxm
        40
    wxm  
       1 天前
    不是我 旁边组重复出款 1300 万最后只追回 700w
    helloworldgo
        41
    helloworldgo  
       1 天前
    drop 掉了系统的用户表,1 分钟之后发现了,搞回来了
    JiZhiDeboy
        42
    JiZhiDeboy  
       23 小时 59 分钟前
    @wxm 只追回 700w 为啥?
    zhangyoucaiyo
        43
    zhangyoucaiyo  
       23 小时 57 分钟前
    商场收银系统允许部分商户收现金入账,有个憨憨店员把顾客手机号输成金额了,没做金额校验限制,当天全店营收十几个亿。晚上十一点还自动化当日报表推送给了 boss 。
    skyflower
        44
    skyflower  
       23 小时 52 分钟前
    之前在安全公司上班,本来发拦截特定流满软件的规则,结果发成了拦截*.exe 的程序,还是直接发的全网,发完我就去吃饭去了。

    还好后台有防误报程序,很快这个规则就被防误报拦截,强制转人工二次审核。

    吃完饭回来,我默默修改了规则,然后重新发了出去(至今无人发现)
    duanxianze
        45
    duanxianze  
       23 小时 44 分钟前
    某次都下班到家了突然找我改需求,没办法在家搞了,但是忘记上传 git 了,第二天发版发的还是旧版本
    TAFMT
        46
    TAFMT  
       23 小时 33 分钟前 via Android
    if else 搞错了,导致奖品没有库存校验了

    超发几千上万单
    TimG
        47
    TimG  
       23 小时 26 分钟前 via Android
    在生产库批量补数据,写了个 py 脚本,写的时候习惯性以为是本地库优化速度 commit 写循环外面了,一下更新了半张表把业务库跑死锁了。运维紧急重启,结果赶上系统盘本来就快满了,直接被这次日志填满,机器起不来了。最后重装了系统盘。数据没丢,但是业务停了 3 小时。
    fan123199
        48
    fan123199  
       23 小时 20 分钟前
    发了一个 app ,只要是更新安装的 100% crash 。
    xiebaota
        49
    xiebaota  
       23 小时 5 分钟前
    21 年,小程序,依赖微信云开发的服务,因为
    1.他们套餐变更没通知;
    2. 加上某天活动冲量,瞬时流量打爆。
    3.接入方案失败重试滚雪球导致雪崩。
    结果:午高峰崩了 1 小时,损失 1kw ,直接 P0 。庆幸三方有锅,不然就祭天了。
    karmaisbitch
        50
    karmaisbitch  
       22 小时 56 分钟前
    给省局 xx 科的甲方 发了 1600 条短信
    edisonwong
        51
    edisonwong  
       22 小时 49 分钟前
    在前司,用 python 调 shell 重启 xx-* 机器,一个 list[str] 传成 str ,然后就把测试环境所有机器都同时重启了,还好不是线上
    duhbbx1119
        52
    duhbbx1119  
       22 小时 45 分钟前
    @Smileh 没毛病啊,自己的接口自己负责,只要能调通就要做判断;玩一个给个 getById 只传 id 字段,结果返回 100w 条数据,你说这算谁的?
    duhbbx1119
        53
    duhbbx1119  
       22 小时 44 分钟前
    我把技术支持配了两天的库给删了
    duhbbx1119
        54
    duhbbx1119  
       22 小时 43 分钟前
    @zhangyoucaiyo boss 高兴坏了吧
    lpe234
        55
    lpe234  
       22 小时 41 分钟前
    推广短信,本地多线程发送,忘记加" [] "
    ifoto
        56
    ifoto  
       22 小时 41 分钟前
    @chen11 +1 后面从 binglog 恢复
    Ansen
        57
    Ansen  
       22 小时 35 分钟前
    手滑把线上游戏全关了。。
    loopinfor
        58
    loopinfor  
       22 小时 31 分钟前
    不算线上事故,但是 Excel 公式计算时漏检查某两列的一致性,导致重大活动对外发布的数据跟真实情况不一致。后来受影响的用户发现之后紧急撤回,修正后重新发布。
    qwerthhusn
        59
    qwerthhusn  
       22 小时 17 分钟前
    我是做工业上位机控制的,写出个 BUG ,直接把生产机器给撞坏了,宕机好几个小时
    客户是按分钟罚钱的。具体罚多少,商务讨价还价谈下多少就不知道了
    xFrank
        60
    xFrank  
       21 小时 54 分钟前
    @loryyang 看到“杀伐果断”喷了,哈哈哈
    micolore
        61
    micolore  
       21 小时 40 分钟前
    8 年前吧,有个打款逻辑的问题,多发了不少钱给阿三。
    Rnreck
        62
    Rnreck  
       21 小时 29 分钟前
    @swananan 有点好奇是哪件事
    simo
        63
    simo  
       21 小时 11 分钟前
    08 年左右,把一天内所有商家传的库存全给删了,不记得具体量了,应该是不到 100 家,不到 100w 条的库存数据。
    然后挨个打电话,要库存,恢复数据,不知道弄了多少天,反正差点累死。
    xubeiyou
        64
    xubeiyou  
       21 小时 5 分钟前
    刚出社会删过生产环境数据库
    dode
        65
    dode  
       21 小时 1 分钟前
    改进一个老函数,nodejs 0.xx ,处理 IP 地址时有 bug ,特定 IP 结果不正确。
    macscsbf
        66
    macscsbf  
       20 小时 29 分钟前
    还真没有
    DayDayUpDreamer
        67
    DayDayUpDreamer  
       20 小时 25 分钟前
    实习的时候,直接操作线上数据库,select * from table; 直接把数据库干死机了,直接 P0.
    SoulSleep
        68
    SoulSleep  
       19 小时 12 分钟前
    重复结算,最后损失 2 个亿
    treo
        69
    treo  
       19 小时 6 分钟前
    @SoulSleep 目前为止本贴损失最大的
    zhoudaiyu
        70
    zhoudaiyu  
    PRO
       19 小时 5 分钟前 via iPhone
    crontab -e 想改定时任务,敲成了-r ,crontab 真是逆天的设计,键盘 ER 连着的
    zhoudaiyu
        71
    zhoudaiyu  
    PRO
       19 小时 4 分钟前 via iPhone
    @zhoudaiyu 不过没事,都是没什么卵用的定时任务
    catazshadow
        72
    catazshadow  
       18 小时 8 分钟前 via Android
    都应该反思以上事故如果没有 996 是不是能避免
    fromMars1130
        73
    fromMars1130  
    OP
       17 小时 42 分钟前
    @SoulSleep 厉害了,想听最终结果
    mrochcnnnnn
        74
    mrochcnnnnn  
       17 小时 41 分钟前
    支付,一个亿退款卡了三天
    RedisMasterNode
        75
    RedisMasterNode  
       17 小时 37 分钟前
    哎 头大 还是经典的 DELETE 忘记加 WHERE 还是 LIMIT 不记得是哪个了 orz
    nickxudotme
        76
    nickxudotme  
       15 小时 59 分钟前
    @evan1 我实习时 mentor 让我写 SQL 先写 where 条件
    kkwa56188
        77
    kkwa56188  
       12 小时 30 分钟前
    每一次这种生产上的篓子, 背后都有各种论坛里的大聪明洋洋得意的说, 世界果然是个大草台班子
    ming7435
        78
    ming7435  
       10 小时 32 分钟前
    @SoulSleep 不会是友商吧
    zuokanyunqishi
        79
    zuokanyunqishi  
       10 小时 11 分钟前
    楼上不少都刑啊...
    qbmiller
        80
    qbmiller  
       10 小时 3 分钟前
    @rocmax 这个太经常了,where 没弄好,一下就 update 好多 ....
    xclimbing
        81
    xclimbing  
       9 小时 46 分钟前
    三方公司把我司 vsphere 的光存储格式化了,全部虚机都没了,幸亏我每天有备份,不过恢复那些虚机也花了一周的时间。
    ingram22mb30
        82
    ingram22mb30  
       9 小时 32 分钟前 via Android
    事故?不存在的,锅都是别人的。
    JuSH
        83
    JuSH  
       9 小时 26 分钟前
    当年在某地上房屋登记系统,上线第一天研发反馈有个 BUG 需要还原测试数据库验证一下。
    结果驻场工程师把正式环境数据还原了,还无法恢复。
    还好上线第一天业务不多,一群对着实体材料手工操作业务到凌晨 3 点才把业务数据恢复。
    rogi
        84
    rogi  
       9 小时 1 分钟前
    ios 提审提了一个预发布的环境 ,而且还不能回退版本,加急提了一个,这个问题持续了一天
    azal
        85
    azal  
       9 小时 0 分钟前
    项目下线,给会员退年费。按使用天数退,搞反了,用得多的退的多,用的少的退的少。发现后,又按正确比例又退了一次🤣 幸好是小项目,瞬间损失三四千吧。心都要跳出来了,老板也好,平稳的说没事再退一次吧,也没扣我工资
    seedhk
        86
    seedhk  
       8 小时 47 分钟前
    1. 第一家实习公司小公司,帮领导发群体邮件,邮件内容是详见附件,结果妹加附件就发出去了,100 多人;
    2. 第二家公司,算是半实习,有线上库权限,跑数据的时候没注意是连的生产还是测试库,垃圾数据跑了 100 多 w 条;
    3.第三家公司,算正经开发了,跑接口又没注意是生产,点完发送的时候去测试环境看日志,一看没日志回去看接口地址,一看是线上地址,瞬间后背发凉,用了一个晚上把数据跑回去了;
    4.还是第三家公司,半夜发新版本(传统艺能),都发完准备回去了,我还有最后一项线上数据要处理,写了个 sql 准备跑,担心自己脑袋迷糊还让同事帮忙看一下 sql 写的对不对,结果他脑子也是迷糊的。一条 sql 干废了 500 多 w 数据,5 6 个人想尽各种办法花了一整晚事件都恢复不了,最后打电话个 dba 做数据回退;
    5.想不起来了,应该还有。。。。。。
    seedhk
        87
    seedhk  
       8 小时 38 分钟前
    @frankilla 因为很多都是手动操作,属于不规范 操作,正确的行为应该是人写脚本,由脚本执行,出问题了也好回退。所以说世界确实是个草台班子
    b309f3337
        88
    b309f3337  
       8 小时 31 分钟前
    上家公司是做 HR 系统的,我们这个系统的定时任务可以直接在系统写 Python 代码配置,可以直接操作数据库,有一次给某个客户的系统更新的时候,因为上线的时候要执行一个定时任务批量更新员工数据,具体忘了 SQL 怎么写的了,反正把员工数据都更新错了,当时心里都凉半截了,大半夜客户联系他们的运维把备份的数据库恢复了,客户脾气还挺好的,也没骂我😅
    leehomyhh
        89
    leehomyhh  
       8 小时 29 分钟前
    又一次物理机断电了,大量虚机宕机了,恢复的时候漏了一台物理机的虚机,业务高峰期应用不可用了
    zhaojiaiqing
        90
    zhaojiaiqing  
       8 小时 26 分钟前
    在客户现场工作站手贱用扫毒工具扫了下压缩包,给网安爆了几千条中毒告警(😂
    SvenWong
        91
    SvenWong  
       8 小时 26 分钟前
    看到你们的,我觉得我的很小儿科。
    逻辑漏洞,导致下发给仓库很多重复订单,吊牌金额也就 2 万多吧,好在后面大部分都追回来了
    NextGen
        92
    NextGen  
       8 小时 14 分钟前
    没人提线上一分钱?
    saaak
        93
    saaak  
       8 小时 5 分钟前
    我心态不好,线上报个错我都能难受的睡不着
    hhhhkkk
        94
    hhhhkkk  
       8 小时 5 分钟前
    刚毕业时 .env 没搞 ignore ,为了在家学习项目, 特意推了 github , 最巧的是 private 库满了,我新建了个 public 库,第二天还被集团扫到了,通报批评,涉及密钥的项目来来回回弄了一个星期才还完。 至今都没懂,集团是怎么扫到的。
    InDom
        95
    InDom  
       8 小时 3 分钟前
    运营, 有个客户的名字录入错了, 需要后台改一下.
    改完看一眼, 嘿, 好多重名的用户诶.
    唉? 怎么所有用户都叫这个名字.
    nogizaka46
        96
    nogizaka46  
       7 小时 59 分钟前
    服务迁移后有个异常没发现,某体育比赛决赛直播崩了几分钟,直接上热搜了
    listen2wind
        97
    listen2wind  
       7 小时 57 分钟前
    @falsemask 我想起来了前几年,去电厂一个项目,调用对方的数据,然后说我们连接后没有关闭连接,把对方服务调崩掉了。
    HUMILITY
        98
    HUMILITY  
       7 小时 57 分钟前
    我前端。只记得实习时,toc 有个页面描述没做条件判断然后上线,导致只有 key 但是没 value ,被客诉时,mentor 叹的那一口气(没有说 mentor 不好的意思,只是觉得自己写代码好菜)
    runking
        99
    runking  
       7 小时 45 分钟前
    之前做了个双 Boss 战的活动,普通玩家比超 R 输出还高,名次还高。
    原因是 Boss 忘记配置防魅惑了,普通玩家有一部分在用带魅惑技能的宝宝,然后两个 boss 被魅惑了对打,伤害算成玩家的。

    不出这个事故,整个团队估计忘记还有魅惑这个机制了。
    hewiefsociety
        100
    hewiefsociety  
       7 小时 39 分钟前
    AWS Lambda 没注意消耗 花了 20w 刀 😄
    1  2  
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5109 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 234ms · UTC 09:38 · PVG 17:38 · LAX 02:38 · JFK 05:38
    ♥ Do have faith in what you're doing.