1
falsemask 1 天前
调对方接口,一次性拿了几百万条数据,把对方内存打爆了。不过我觉得责任不在我,对方没有评估数据量。
|
2
chen11 1 天前
现网操作数据库,我把表的数据给删了
|
3
tf2 1 天前 发帖没正文算不算 重大线上事故
|
4
tina2998 1 天前 via iPhone
一般都在数据库上
|
5
ycao24813 1 天前
发通知消息,判断没做好,重复循环发了十多条给用户
|
6
rocmax 1 天前 via Android
前前司离职最后一天,一个销售来说要改单子的负责人,需要操作生产环境数据库(我知道不对,小公司这是常规操作)。我的 sql 里少写了个 where 条件差点把上万个单子的负责人都改成同一个人。sql 跑了几秒钟没结束,果断 ctrl+c 救回来了。虽然不是啥大事故,但是如果离职之前出事就非常尴尬。
|
7
ChovyChu 1 天前
挖矿发币,由于 xrp 协议上有小数和没小数的单位不一样,导致发多了,好像是 10000 倍
|
8
junkk 1 天前 幂等颗粒度不够细,本来也没啥事的,碰上了几个巧合撞在一起。导致奖励重复发放,一晚上发了几百万出去
还好之前这部分其他同事也动过,他又正巧被裁了,就把锅给他背了 |
9
Flowing 1 天前 身上最大的事故就是甲状腺结节
|
10
zgsi 1 天前
项目上线当天收款金额少了 50,然后中午没吃饭写了补缴功能,2 天内补齐了
|
11
evan1 PRO 项目上线后做生产环境验证,验证后忘记删数据了,后面运行了一小段时间才发现,然后让我删数据。
删数据的时候忘记加 where 条件了,把全部数据都删除了。 当时发现这个问题的一瞬间真的感觉后背到后脑勺凉了一下。后面我花了一个晚上把所有数据恢复了。 |
12
yiiouo 1 天前
前同事,同步用户信息的时候,将公司 500 多个人搞成离职,包含了多位领导。
|
13
300 1 天前
公司代码混乱,本地测试必须注释一大堆代码
好几次没注意提交了一些测试代码,导致服务器有挂一小时的,有挂一夜的,有挂三天的。。 不过我觉得责任不在我,所有人都出过这个问题,老板自己不上测试服,也不给数据库之类的接口,导致本地只能删代码来启动 另外挂三天也是小事,过年设备故障挂了一星期+ 他自己也不知道。用户不知道跑多少了 |
14
GlobalNPC 1 天前
线上排查问题,把 redis 的公共前缀给改了,DB 直接被打爆,业务中断了两小时四十五分钟。
|
15
XuHuan1025 1 天前 |
16
668866 1 天前
rm -rf *
|
18
lyxxxh2 1 天前
刚毕业的时候做的多店铺活动,很简单,单纯付款记录。
我分库了,然后技术又差。 给客户设置 cookie,代表那个店铺。 微信支付,没有 cookie,找了好久的 bug 。 最后... 傻傻的手写原生 sql 修复。 还有其他的... 三头两天的出 bug,项目被我搞废了,客户不愿意用了。 |
19
vegeta2ex 1 天前
楼上有些看到都觉得恐怖
|
20
swananan 1 天前 我好多年前的一个内存写飞(这是我现在喜欢 rust 的原因),当时后果蛮严重,上了微博热搜
|
21
kevan 1 天前
rm /*
|
22
hitrip 1 天前
企业大数据应用,预聚合把一个 org 的数据算到别的 org 去了。
|
23
pigspy 1 天前 via Android
- rabbitmq 要删除队列,给运维的操作单里面写错了队列,所有设备上线的消息都漏掉了,还好是周末,影响不大
- kafka 的消息序列化器 |
25
wu67 1 天前
通知推送没有测试环境, 也没有文档和提醒, 然后给全网正式用户推送 test test test...
|
26
villivateur 1 天前
昨天帮老婆解压一个 7z 压缩包,我直接在命令行解压的,狗日的 7z 命令行工具,为什么 7z d 是删除压缩包,还没有二次确认!把老婆 80 个 G 的备份给删了。
明明 gzip -d 是解压的啊,我脑子坏了…… |
28
coldmonkeybit 1 天前
对接一个硬件项目,代码问题导致设备在客户测试现场坏掉了
|
29
murmur 1 天前 楼主为什么不先分享,这是钓鱼整理好自己当自媒体发独食么
|
30
iOCZS 1 天前
因为少传了一个参数,导致老板找投资人演示的时候,功能异常,被投资人说“你的想法不错,可是叫我怎么信任你们的技术”(老板口头转述)。
|
31
loryyang 1 天前
我好像只有实习的时候,把 db 的数据全部回滚了一次。我觉得我是个杀伐果断的人,看到不顺眼的都直接删,很幸运一直没出过啥大事
我印象最深刻的还是我之前一同事,把 hdfs 的数据直接从我们项目的根目录 delete ,删了 2 个 p 的数据。当时还很早,hdfs 能力不完善,内部搞了个垃圾回收,2 个 P 直接塞爆了垃圾箱,就被自动清理了。晚上直接拉起了几十号人进行数据恢复 |
32
youknowsomething 1 天前
|
33
eijuziew 1 天前
忘记取消注释测试代码,大奖被多抽出去十几个,损失几万块
|
35
pyyalt 1 天前
添加服务器上访问人员时候,禁用了 root 用户。导致所有人都登录不上了。后来服务器直接还原了。。。。
|
36
frankilla 1 天前
评论有些说是数据库要么删了要么就是多条目错误变更,想问你们的是操作之前不备份的吗?数据库备份是麻烦还是时间太长?如果操作前备份一下是不是应该没什么担心的?(外行问)
|
37
lg487 1 天前
前前司,一个给客户分账功能,我这边是调支付模块的分账接口,然后接口一直给我返回分账失败,但是实际他那边是分账成功了的,我这边又做了重试机制,然后一笔账分了 15 次,后面把公司那个账户的钱都分完了,不过我觉得责任不在我,明明分账成功,他那边给我回复失败,导致我这边一直以为分账失败走重新分账逻辑。
|
38
javalaw2010 1 天前
定时任务发积分,运维没跟我讲每个机器上都在跑定时任务,导致发了两倍的积分
|
39
TheGreatSage 1 天前
涉密电脑接了非密的外设,这个算嘛
|
40
wxm 1 天前
不是我 旁边组重复出款 1300 万最后只追回 700w
|
41
helloworldgo 1 天前
drop 掉了系统的用户表,1 分钟之后发现了,搞回来了
|
42
JiZhiDeboy 23 小时 59 分钟前
@wxm 只追回 700w 为啥?
|
43
zhangyoucaiyo 23 小时 57 分钟前
商场收银系统允许部分商户收现金入账,有个憨憨店员把顾客手机号输成金额了,没做金额校验限制,当天全店营收十几个亿。晚上十一点还自动化当日报表推送给了 boss 。
|
44
skyflower 23 小时 52 分钟前
之前在安全公司上班,本来发拦截特定流满软件的规则,结果发成了拦截*.exe 的程序,还是直接发的全网,发完我就去吃饭去了。
还好后台有防误报程序,很快这个规则就被防误报拦截,强制转人工二次审核。 吃完饭回来,我默默修改了规则,然后重新发了出去(至今无人发现) |
45
duanxianze 23 小时 44 分钟前
某次都下班到家了突然找我改需求,没办法在家搞了,但是忘记上传 git 了,第二天发版发的还是旧版本
|
46
TAFMT 23 小时 33 分钟前 via Android
if else 搞错了,导致奖品没有库存校验了
超发几千上万单 |
47
TimG 23 小时 26 分钟前 via Android
在生产库批量补数据,写了个 py 脚本,写的时候习惯性以为是本地库优化速度 commit 写循环外面了,一下更新了半张表把业务库跑死锁了。运维紧急重启,结果赶上系统盘本来就快满了,直接被这次日志填满,机器起不来了。最后重装了系统盘。数据没丢,但是业务停了 3 小时。
|
48
fan123199 23 小时 20 分钟前
发了一个 app ,只要是更新安装的 100% crash 。
|
49
xiebaota 23 小时 5 分钟前
21 年,小程序,依赖微信云开发的服务,因为
1.他们套餐变更没通知; 2. 加上某天活动冲量,瞬时流量打爆。 3.接入方案失败重试滚雪球导致雪崩。 结果:午高峰崩了 1 小时,损失 1kw ,直接 P0 。庆幸三方有锅,不然就祭天了。 |
50
karmaisbitch 22 小时 56 分钟前
给省局 xx 科的甲方 发了 1600 条短信
|
51
edisonwong 22 小时 49 分钟前
在前司,用 python 调 shell 重启 xx-* 机器,一个 list[str] 传成 str ,然后就把测试环境所有机器都同时重启了,还好不是线上
|
52
duhbbx1119 22 小时 45 分钟前
@Smileh 没毛病啊,自己的接口自己负责,只要能调通就要做判断;玩一个给个 getById 只传 id 字段,结果返回 100w 条数据,你说这算谁的?
![]() |
53
duhbbx1119 22 小时 44 分钟前
我把技术支持配了两天的库给删了
|
54
duhbbx1119 22 小时 43 分钟前
@zhangyoucaiyo boss 高兴坏了吧
|
55
lpe234 22 小时 41 分钟前
推广短信,本地多线程发送,忘记加" [] "
|
57
Ansen 22 小时 35 分钟前
手滑把线上游戏全关了。。
|
58
loopinfor 22 小时 31 分钟前
不算线上事故,但是 Excel 公式计算时漏检查某两列的一致性,导致重大活动对外发布的数据跟真实情况不一致。后来受影响的用户发现之后紧急撤回,修正后重新发布。
|
59
qwerthhusn 22 小时 17 分钟前
我是做工业上位机控制的,写出个 BUG ,直接把生产机器给撞坏了,宕机好几个小时
客户是按分钟罚钱的。具体罚多少,商务讨价还价谈下多少就不知道了 |
61
micolore 21 小时 40 分钟前
8 年前吧,有个打款逻辑的问题,多发了不少钱给阿三。
|
63
simo 21 小时 11 分钟前
08 年左右,把一天内所有商家传的库存全给删了,不记得具体量了,应该是不到 100 家,不到 100w 条的库存数据。
然后挨个打电话,要库存,恢复数据,不知道弄了多少天,反正差点累死。 |
64
xubeiyou 21 小时 5 分钟前
刚出社会删过生产环境数据库
|
65
dode 21 小时 1 分钟前
改进一个老函数,nodejs 0.xx ,处理 IP 地址时有 bug ,特定 IP 结果不正确。
|
66
macscsbf 20 小时 29 分钟前
还真没有
|
67
DayDayUpDreamer 20 小时 25 分钟前
实习的时候,直接操作线上数据库,select * from table; 直接把数据库干死机了,直接 P0.
|
68
SoulSleep 19 小时 12 分钟前
重复结算,最后损失 2 个亿
|
70
zhoudaiyu PRO crontab -e 想改定时任务,敲成了-r ,crontab 真是逆天的设计,键盘 ER 连着的
|
72
catazshadow 18 小时 8 分钟前 via Android
都应该反思以上事故如果没有 996 是不是能避免
|
73
fromMars1130 OP @SoulSleep 厉害了,想听最终结果
|
74
mrochcnnnnn 17 小时 41 分钟前
支付,一个亿退款卡了三天
|
75
RedisMasterNode 17 小时 37 分钟前
哎 头大 还是经典的 DELETE 忘记加 WHERE 还是 LIMIT 不记得是哪个了 orz
|
76
nickxudotme 15 小时 59 分钟前
@evan1 我实习时 mentor 让我写 SQL 先写 where 条件
![]() |
77
kkwa56188 12 小时 30 分钟前
每一次这种生产上的篓子, 背后都有各种论坛里的大聪明洋洋得意的说, 世界果然是个大草台班子
|
79
zuokanyunqishi 10 小时 11 分钟前
楼上不少都刑啊...
|
81
xclimbing 9 小时 46 分钟前
三方公司把我司 vsphere 的光存储格式化了,全部虚机都没了,幸亏我每天有备份,不过恢复那些虚机也花了一周的时间。
|
82
ingram22mb30 9 小时 32 分钟前 via Android
事故?不存在的,锅都是别人的。
|
83
JuSH 9 小时 26 分钟前
当年在某地上房屋登记系统,上线第一天研发反馈有个 BUG 需要还原测试数据库验证一下。
结果驻场工程师把正式环境数据还原了,还无法恢复。 还好上线第一天业务不多,一群对着实体材料手工操作业务到凌晨 3 点才把业务数据恢复。 |
84
rogi 9 小时 1 分钟前
|
85
azal 9 小时 0 分钟前
项目下线,给会员退年费。按使用天数退,搞反了,用得多的退的多,用的少的退的少。发现后,又按正确比例又退了一次🤣 幸好是小项目,瞬间损失三四千吧。心都要跳出来了,老板也好,平稳的说没事再退一次吧,也没扣我工资
|
86
seedhk 8 小时 47 分钟前
1. 第一家实习公司小公司,帮领导发群体邮件,邮件内容是详见附件,结果妹加附件就发出去了,100 多人;
2. 第二家公司,算是半实习,有线上库权限,跑数据的时候没注意是连的生产还是测试库,垃圾数据跑了 100 多 w 条; 3.第三家公司,算正经开发了,跑接口又没注意是生产,点完发送的时候去测试环境看日志,一看没日志回去看接口地址,一看是线上地址,瞬间后背发凉,用了一个晚上把数据跑回去了; 4.还是第三家公司,半夜发新版本(传统艺能),都发完准备回去了,我还有最后一项线上数据要处理,写了个 sql 准备跑,担心自己脑袋迷糊还让同事帮忙看一下 sql 写的对不对,结果他脑子也是迷糊的。一条 sql 干废了 500 多 w 数据,5 6 个人想尽各种办法花了一整晚事件都恢复不了,最后打电话个 dba 做数据回退; 5.想不起来了,应该还有。。。。。。 |
88
b309f3337 8 小时 31 分钟前
上家公司是做 HR 系统的,我们这个系统的定时任务可以直接在系统写 Python 代码配置,可以直接操作数据库,有一次给某个客户的系统更新的时候,因为上线的时候要执行一个定时任务批量更新员工数据,具体忘了 SQL 怎么写的了,反正把员工数据都更新错了,当时心里都凉半截了,大半夜客户联系他们的运维把备份的数据库恢复了,客户脾气还挺好的,也没骂我😅
|
89
leehomyhh 8 小时 29 分钟前
又一次物理机断电了,大量虚机宕机了,恢复的时候漏了一台物理机的虚机,业务高峰期应用不可用了
|
90
zhaojiaiqing 8 小时 26 分钟前
在客户现场工作站手贱用扫毒工具扫了下压缩包,给网安爆了几千条中毒告警(😂
|
91
SvenWong 8 小时 26 分钟前
看到你们的,我觉得我的很小儿科。
逻辑漏洞,导致下发给仓库很多重复订单,吊牌金额也就 2 万多吧,好在后面大部分都追回来了 |
92
NextGen 8 小时 14 分钟前
没人提线上一分钱?
|
93
saaak 8 小时 5 分钟前
|
94
hhhhkkk 8 小时 5 分钟前
刚毕业时 .env 没搞 ignore ,为了在家学习项目, 特意推了 github , 最巧的是 private 库满了,我新建了个 public 库,第二天还被集团扫到了,通报批评,涉及密钥的项目来来回回弄了一个星期才还完。 至今都没懂,集团是怎么扫到的。
|
95
InDom 8 小时 3 分钟前
运营, 有个客户的名字录入错了, 需要后台改一下.
改完看一眼, 嘿, 好多重名的用户诶. 唉? 怎么所有用户都叫这个名字. |
96
nogizaka46 7 小时 59 分钟前
|
97
listen2wind 7 小时 57 分钟前
@falsemask 我想起来了前几年,去电厂一个项目,调用对方的数据,然后说我们连接后没有关闭连接,把对方服务调崩掉了。
![]() |
98
HUMILITY 7 小时 57 分钟前
我前端。只记得实习时,toc 有个页面描述没做条件判断然后上线,导致只有 key 但是没 value ,被客诉时,mentor 叹的那一口气(没有说 mentor 不好的意思,只是觉得自己写代码好菜)
|
99
runking 7 小时 45 分钟前
之前做了个双 Boss 战的活动,普通玩家比超 R 输出还高,名次还高。
原因是 Boss 忘记配置防魅惑了,普通玩家有一部分在用带魅惑技能的宝宝,然后两个 boss 被魅惑了对打,伤害算成玩家的。 不出这个事故,整个团队估计忘记还有魅惑这个机制了。 |
100
hewiefsociety 7 小时 39 分钟前
AWS Lambda 没注意消耗 花了 20w 刀 😄
|