V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fromMars1130
1D

分享一下自己身上出现过哪些重大线上事故

  •  5
     
  •   fromMars1130 · 2 天前 · 9715 次点击
    141 条回复    2026-04-18 23:40:22 +08:00
    1  2  
    falsemask
        1
    falsemask  
       2 天前
    调对方接口,一次性拿了几百万条数据,把对方内存打爆了。不过我觉得责任不在我,对方没有评估数据量。
    chen11
        2
    chen11  
       2 天前
    现网操作数据库,我把表的数据给删了
    tf2
        3
    tf2  
       2 天前   ❤️ 27
    发帖没正文算不算 重大线上事故
    tina2998
        4
    tina2998  
       2 天前 via iPhone
    一般都在数据库上
    ycao24813
        5
    ycao24813  
       2 天前
    发通知消息,判断没做好,重复循环发了十多条给用户
    rocmax
        6
    rocmax  
       2 天前 via Android
    前前司离职最后一天,一个销售来说要改单子的负责人,需要操作生产环境数据库(我知道不对,小公司这是常规操作)。我的 sql 里少写了个 where 条件差点把上万个单子的负责人都改成同一个人。sql 跑了几秒钟没结束,果断 ctrl+c 救回来了。虽然不是啥大事故,但是如果离职之前出事就非常尴尬。
    ChovyChu
        7
    ChovyChu  
       2 天前
    挖矿发币,由于 xrp 协议上有小数和没小数的单位不一样,导致发多了,好像是 10000 倍
    junkk
        8
    junkk  
       2 天前   ❤️ 8
    幂等颗粒度不够细,本来也没啥事的,碰上了几个巧合撞在一起。导致奖励重复发放,一晚上发了几百万出去

    还好之前这部分其他同事也动过,他又正巧被裁了,就把锅给他背了
    Flowing
        9
    Flowing  
       2 天前   ❤️ 2
    身上最大的事故就是甲状腺结节
    zgsi
        10
    zgsi  
       2 天前
    项目上线当天收款金额少了 50,然后中午没吃饭写了补缴功能,2 天内补齐了
    evan1
        11
    evan1  
    PRO
       2 天前
    项目上线后做生产环境验证,验证后忘记删数据了,后面运行了一小段时间才发现,然后让我删数据。

    删数据的时候忘记加 where 条件了,把全部数据都删除了。

    当时发现这个问题的一瞬间真的感觉后背到后脑勺凉了一下。后面我花了一个晚上把所有数据恢复了。
    yiiouo
        12
    yiiouo  
       2 天前
    前同事,同步用户信息的时候,将公司 500 多个人搞成离职,包含了多位领导。
    300
        13
    300  
       2 天前
    公司代码混乱,本地测试必须注释一大堆代码

    好几次没注意提交了一些测试代码,导致服务器有挂一小时的,有挂一夜的,有挂三天的。。

    不过我觉得责任不在我,所有人都出过这个问题,老板自己不上测试服,也不给数据库之类的接口,导致本地只能删代码来启动

    另外挂三天也是小事,过年设备故障挂了一星期+ 他自己也不知道。用户不知道跑多少了
    GlobalNPC
        14
    GlobalNPC  
       2 天前
    线上排查问题,把 redis 的公共前缀给改了,DB 直接被打爆,业务中断了两小时四十五分钟。
    XuHuan1025
        15
    XuHuan1025  
       2 天前   ❤️ 2
    不是我干的 之前公司有个私募两点四十买了 2288 万基金没买上,发现的时候来不及了 第二天涨了 4.6%
    668866
        16
    668866  
       2 天前
    rm -rf *
    Satoshl
        17
    Satoshl  
       2 天前
    @300 什么公司这么松弛
    lyxxxh2
        18
    lyxxxh2  
       2 天前
    刚毕业的时候做的多店铺活动,很简单,单纯付款记录。
    我分库了,然后技术又差。
    给客户设置 cookie,代表那个店铺。
    微信支付,没有 cookie,找了好久的 bug 。
    最后... 傻傻的手写原生 sql 修复。
    还有其他的...
    三头两天的出 bug,项目被我搞废了,客户不愿意用了。
    vegeta2ex
        19
    vegeta2ex  
       2 天前
    楼上有些看到都觉得恐怖
    swananan
        20
    swananan  
       2 天前   ❤️ 2
    我好多年前的一个内存写飞(这是我现在喜欢 rust 的原因),当时后果蛮严重,上了微博热搜
    kevan
        21
    kevan  
       2 天前   ❤️ 1
    rm /*
    hitrip
        22
    hitrip  
       2 天前
    企业大数据应用,预聚合把一个 org 的数据算到别的 org 去了。
    pigspy
        23
    pigspy  
       2 天前 via Android
    - rabbitmq 要删除队列,给运维的操作单里面写错了队列,所有设备上线的消息都漏掉了,还好是周末,影响不大
    - kafka 的消息序列化器
    pigspy
        24
    pigspy  
       2 天前 via Android
    @pigspy kafka 的消息序列化器写错,所有用于审计的消息全部发送失败
    wu67
        25
    wu67  
       2 天前
    通知推送没有测试环境, 也没有文档和提醒, 然后给全网正式用户推送 test test test...
    villivateur
        26
    villivateur  
       2 天前   ❤️ 1
    昨天帮老婆解压一个 7z 压缩包,我直接在命令行解压的,狗日的 7z 命令行工具,为什么 7z d 是删除压缩包,还没有二次确认!把老婆 80 个 G 的备份给删了。
    明明 gzip -d 是解压的啊,我脑子坏了……
    czita
        27
    czita  
       2 天前
    @kevan #21 +1
    coldmonkeybit
        28
    coldmonkeybit  
       2 天前
    对接一个硬件项目,代码问题导致设备在客户测试现场坏掉了
    murmur
        29
    murmur  
       2 天前   ❤️ 4
    楼主为什么不先分享,这是钓鱼整理好自己当自媒体发独食么
    iOCZS
        30
    iOCZS  
       2 天前
    因为少传了一个参数,导致老板找投资人演示的时候,功能异常,被投资人说“你的想法不错,可是叫我怎么信任你们的技术”(老板口头转述)。
    loryyang
        31
    loryyang  
       2 天前
    我好像只有实习的时候,把 db 的数据全部回滚了一次。我觉得我是个杀伐果断的人,看到不顺眼的都直接删,很幸运一直没出过啥大事
    我印象最深刻的还是我之前一同事,把 hdfs 的数据直接从我们项目的根目录 delete ,删了 2 个 p 的数据。当时还很早,hdfs 能力不完善,内部搞了个垃圾回收,2 个 P 直接塞爆了垃圾箱,就被自动清理了。晚上直接拉起了几十号人进行数据恢复
    youknowsomething
        32
    youknowsomething  
       2 天前
    上传照片没做照片名字的处理,导致很多人上传后名字都一样,根本分不清是谁的
    eijuziew
        33
    eijuziew  
       2 天前
    忘记取消注释测试代码,大奖被多抽出去十几个,损失几万块
    Smileh
        34
    Smileh  
       2 天前
    @falsemask #1 莫名想笑
    我没责任 责任都是别人的
    pyyalt
        35
    pyyalt  
       2 天前
    添加服务器上访问人员时候,禁用了 root 用户。导致所有人都登录不上了。后来服务器直接还原了。。。。
    frankilla
        36
    frankilla  
       2 天前
    评论有些说是数据库要么删了要么就是多条目错误变更,想问你们的是操作之前不备份的吗?数据库备份是麻烦还是时间太长?如果操作前备份一下是不是应该没什么担心的?(外行问)
    lg487
        37
    lg487  
       2 天前
    前前司,一个给客户分账功能,我这边是调支付模块的分账接口,然后接口一直给我返回分账失败,但是实际他那边是分账成功了的,我这边又做了重试机制,然后一笔账分了 15 次,后面把公司那个账户的钱都分完了,不过我觉得责任不在我,明明分账成功,他那边给我回复失败,导致我这边一直以为分账失败走重新分账逻辑。
    javalaw2010
        38
    javalaw2010  
       2 天前
    定时任务发积分,运维没跟我讲每个机器上都在跑定时任务,导致发了两倍的积分
    TheGreatSage
        39
    TheGreatSage  
       2 天前
    涉密电脑接了非密的外设,这个算嘛
    wxm
        40
    wxm  
       2 天前
    不是我 旁边组重复出款 1300 万最后只追回 700w
    helloworldgo
        41
    helloworldgo  
       2 天前
    drop 掉了系统的用户表,1 分钟之后发现了,搞回来了
    JiZhiDeboy
        42
    JiZhiDeboy  
       2 天前
    @wxm 只追回 700w 为啥?
    zhangyoucaiyo
        43
    zhangyoucaiyo  
       2 天前
    商场收银系统允许部分商户收现金入账,有个憨憨店员把顾客手机号输成金额了,没做金额校验限制,当天全店营收十几个亿。晚上十一点还自动化当日报表推送给了 boss 。
    skyflower
        44
    skyflower  
       2 天前
    之前在安全公司上班,本来发拦截特定流满软件的规则,结果发成了拦截*.exe 的程序,还是直接发的全网,发完我就去吃饭去了。

    还好后台有防误报程序,很快这个规则就被防误报拦截,强制转人工二次审核。

    吃完饭回来,我默默修改了规则,然后重新发了出去(至今无人发现)
    duanxianze
        45
    duanxianze  
       2 天前
    某次都下班到家了突然找我改需求,没办法在家搞了,但是忘记上传 git 了,第二天发版发的还是旧版本
    TAFMT
        46
    TAFMT  
       2 天前 via Android
    if else 搞错了,导致奖品没有库存校验了

    超发几千上万单
    TimG
        47
    TimG  
       2 天前 via Android
    在生产库批量补数据,写了个 py 脚本,写的时候习惯性以为是本地库优化速度 commit 写循环外面了,一下更新了半张表把业务库跑死锁了。运维紧急重启,结果赶上系统盘本来就快满了,直接被这次日志填满,机器起不来了。最后重装了系统盘。数据没丢,但是业务停了 3 小时。
    fan123199
        48
    fan123199  
       2 天前
    发了一个 app ,只要是更新安装的 100% crash 。
    xiebaota
        49
    xiebaota  
       2 天前
    21 年,小程序,依赖微信云开发的服务,因为
    1.他们套餐变更没通知;
    2. 加上某天活动冲量,瞬时流量打爆。
    3.接入方案失败重试滚雪球导致雪崩。
    结果:午高峰崩了 1 小时,损失 1kw ,直接 P0 。庆幸三方有锅,不然就祭天了。
    karmaisbitch
        50
    karmaisbitch  
       2 天前
    给省局 xx 科的甲方 发了 1600 条短信
    edisonwong
        51
    edisonwong  
       2 天前
    在前司,用 python 调 shell 重启 xx-* 机器,一个 list[str] 传成 str ,然后就把测试环境所有机器都同时重启了,还好不是线上
    duhbbx1119
        52
    duhbbx1119  
       2 天前
    @Smileh 没毛病啊,自己的接口自己负责,只要能调通就要做判断;玩一个给个 getById 只传 id 字段,结果返回 100w 条数据,你说这算谁的?
    duhbbx1119
        53
    duhbbx1119  
       2 天前
    我把技术支持配了两天的库给删了
    duhbbx1119
        54
    duhbbx1119  
       2 天前
    @zhangyoucaiyo boss 高兴坏了吧
    lpe234
        55
    lpe234  
       2 天前
    推广短信,本地多线程发送,忘记加" [] "
    ifoto
        56
    ifoto  
       2 天前
    @chen11 +1 后面从 binglog 恢复
    Ansen
        57
    Ansen  
       2 天前
    手滑把线上游戏全关了。。
    loopinfor
        58
    loopinfor  
       2 天前
    不算线上事故,但是 Excel 公式计算时漏检查某两列的一致性,导致重大活动对外发布的数据跟真实情况不一致。后来受影响的用户发现之后紧急撤回,修正后重新发布。
    qwerthhusn
        59
    qwerthhusn  
       2 天前
    我是做工业上位机控制的,写出个 BUG ,直接把生产机器给撞坏了,宕机好几个小时
    客户是按分钟罚钱的。具体罚多少,商务讨价还价谈下多少就不知道了
    xFrank
        60
    xFrank  
       2 天前
    @loryyang 看到“杀伐果断”喷了,哈哈哈
    micolore
        61
    micolore  
       2 天前
    8 年前吧,有个打款逻辑的问题,多发了不少钱给阿三。
    Rnreck
        62
    Rnreck  
       2 天前
    @swananan 有点好奇是哪件事
    simo
        63
    simo  
       2 天前
    08 年左右,把一天内所有商家传的库存全给删了,不记得具体量了,应该是不到 100 家,不到 100w 条的库存数据。
    然后挨个打电话,要库存,恢复数据,不知道弄了多少天,反正差点累死。
    xubeiyou
        64
    xubeiyou  
       2 天前
    刚出社会删过生产环境数据库
    dode
        65
    dode  
       2 天前
    改进一个老函数,nodejs 0.xx ,处理 IP 地址时有 bug ,特定 IP 结果不正确。
    macscsbf
        66
    macscsbf  
       2 天前
    还真没有
    DayDayUpDreamer
        67
    DayDayUpDreamer  
       2 天前
    实习的时候,直接操作线上数据库,select * from table; 直接把数据库干死机了,直接 P0.
    SoulSleep
        68
    SoulSleep  
       2 天前
    重复结算,最后损失 2 个亿
    treo
        69
    treo  
       2 天前
    @SoulSleep 目前为止本贴损失最大的
    zhoudaiyu
        70
    zhoudaiyu  
    PRO
       2 天前 via iPhone
    crontab -e 想改定时任务,敲成了-r ,crontab 真是逆天的设计,键盘 ER 连着的
    zhoudaiyu
        71
    zhoudaiyu  
    PRO
       2 天前 via iPhone
    @zhoudaiyu 不过没事,都是没什么卵用的定时任务
    catazshadow
        72
    catazshadow  
       2 天前 via Android
    都应该反思以上事故如果没有 996 是不是能避免
    fromMars1130
        73
    fromMars1130  
    OP
       2 天前
    @SoulSleep 厉害了,想听最终结果
    mrochcnnnnn
        74
    mrochcnnnnn  
       2 天前
    支付,一个亿退款卡了三天
    RedisMasterNode
        75
    RedisMasterNode  
       2 天前
    哎 头大 还是经典的 DELETE 忘记加 WHERE 还是 LIMIT 不记得是哪个了 orz
    nickxudotme
        76
    nickxudotme  
       2 天前
    @evan1 我实习时 mentor 让我写 SQL 先写 where 条件
    kkwa56188
        77
    kkwa56188  
       2 天前
    每一次这种生产上的篓子, 背后都有各种论坛里的大聪明洋洋得意的说, 世界果然是个大草台班子
    ming7435
        78
    ming7435  
       2 天前
    @SoulSleep 不会是友商吧
    zuokanyunqishi
        79
    zuokanyunqishi  
       2 天前
    楼上不少都刑啊...
    qbmiller
        80
    qbmiller  
       2 天前
    @rocmax 这个太经常了,where 没弄好,一下就 update 好多 ....
    xclimbing
        81
    xclimbing  
       2 天前
    三方公司把我司 vsphere 的光存储格式化了,全部虚机都没了,幸亏我每天有备份,不过恢复那些虚机也花了一周的时间。
    ingram22mb30
        82
    ingram22mb30  
       2 天前 via Android
    事故?不存在的,锅都是别人的。
    JuSH
        83
    JuSH  
       2 天前
    当年在某地上房屋登记系统,上线第一天研发反馈有个 BUG 需要还原测试数据库验证一下。
    结果驻场工程师把正式环境数据还原了,还无法恢复。
    还好上线第一天业务不多,一群对着实体材料手工操作业务到凌晨 3 点才把业务数据恢复。
    rogi
        84
    rogi  
       2 天前
    ios 提审提了一个预发布的环境 ,而且还不能回退版本,加急提了一个,这个问题持续了一天
    azal
        85
    azal  
       2 天前
    项目下线,给会员退年费。按使用天数退,搞反了,用得多的退的多,用的少的退的少。发现后,又按正确比例又退了一次🤣 幸好是小项目,瞬间损失三四千吧。心都要跳出来了,老板也好,平稳的说没事再退一次吧,也没扣我工资
    seedhk
        86
    seedhk  
       2 天前
    1. 第一家实习公司小公司,帮领导发群体邮件,邮件内容是详见附件,结果妹加附件就发出去了,100 多人;
    2. 第二家公司,算是半实习,有线上库权限,跑数据的时候没注意是连的生产还是测试库,垃圾数据跑了 100 多 w 条;
    3.第三家公司,算正经开发了,跑接口又没注意是生产,点完发送的时候去测试环境看日志,一看没日志回去看接口地址,一看是线上地址,瞬间后背发凉,用了一个晚上把数据跑回去了;
    4.还是第三家公司,半夜发新版本(传统艺能),都发完准备回去了,我还有最后一项线上数据要处理,写了个 sql 准备跑,担心自己脑袋迷糊还让同事帮忙看一下 sql 写的对不对,结果他脑子也是迷糊的。一条 sql 干废了 500 多 w 数据,5 6 个人想尽各种办法花了一整晚事件都恢复不了,最后打电话个 dba 做数据回退;
    5.想不起来了,应该还有。。。。。。
    seedhk
        87
    seedhk  
       2 天前
    @frankilla 因为很多都是手动操作,属于不规范 操作,正确的行为应该是人写脚本,由脚本执行,出问题了也好回退。所以说世界确实是个草台班子
    b309f3337
        88
    b309f3337  
       2 天前
    上家公司是做 HR 系统的,我们这个系统的定时任务可以直接在系统写 Python 代码配置,可以直接操作数据库,有一次给某个客户的系统更新的时候,因为上线的时候要执行一个定时任务批量更新员工数据,具体忘了 SQL 怎么写的了,反正把员工数据都更新错了,当时心里都凉半截了,大半夜客户联系他们的运维把备份的数据库恢复了,客户脾气还挺好的,也没骂我😅
    leehomyhh
        89
    leehomyhh  
       2 天前
    又一次物理机断电了,大量虚机宕机了,恢复的时候漏了一台物理机的虚机,业务高峰期应用不可用了
    zhaojiaiqing
        90
    zhaojiaiqing  
       2 天前
    在客户现场工作站手贱用扫毒工具扫了下压缩包,给网安爆了几千条中毒告警(😂
    SvenWong
        91
    SvenWong  
       2 天前
    看到你们的,我觉得我的很小儿科。
    逻辑漏洞,导致下发给仓库很多重复订单,吊牌金额也就 2 万多吧,好在后面大部分都追回来了
    NextGen
        92
    NextGen  
       2 天前
    没人提线上一分钱?
    saaak
        93
    saaak  
       2 天前
    我心态不好,线上报个错我都能难受的睡不着
    hhhhkkk
        94
    hhhhkkk  
       2 天前
    刚毕业时 .env 没搞 ignore ,为了在家学习项目, 特意推了 github , 最巧的是 private 库满了,我新建了个 public 库,第二天还被集团扫到了,通报批评,涉及密钥的项目来来回回弄了一个星期才还完。 至今都没懂,集团是怎么扫到的。
    InDom
        95
    InDom  
       2 天前
    运营, 有个客户的名字录入错了, 需要后台改一下.
    改完看一眼, 嘿, 好多重名的用户诶.
    唉? 怎么所有用户都叫这个名字.
    nogizaka46
        96
    nogizaka46  
       2 天前
    服务迁移后有个异常没发现,某体育比赛决赛直播崩了几分钟,直接上热搜了
    listen2wind
        97
    listen2wind  
       2 天前
    @falsemask 我想起来了前几年,去电厂一个项目,调用对方的数据,然后说我们连接后没有关闭连接,把对方服务调崩掉了。
    HUMILITY
        98
    HUMILITY  
       2 天前
    我前端。只记得实习时,toc 有个页面描述没做条件判断然后上线,导致只有 key 但是没 value ,被客诉时,mentor 叹的那一口气(没有说 mentor 不好的意思,只是觉得自己写代码好菜)
    runking
        99
    runking  
       2 天前
    之前做了个双 Boss 战的活动,普通玩家比超 R 输出还高,名次还高。
    原因是 Boss 忘记配置防魅惑了,普通玩家有一部分在用带魅惑技能的宝宝,然后两个 boss 被魅惑了对打,伤害算成玩家的。

    不出这个事故,整个团队估计忘记还有魅惑这个机制了。
    hewiefsociety
        100
    hewiefsociety  
       2 天前
    AWS Lambda 没注意消耗 花了 20w 刀 😄
    1  2  
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2829 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 204ms · UTC 04:23 · PVG 12:23 · LAX 21:23 · JFK 00:23
    ♥ Do have faith in what you're doing.