V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
weiyan
V2EX  ›  服务器

我又来求助了,关于服务器 raid 报错的问题

  •  
  •   weiyan · 10 天前 · 203 次点击

    各位彦祖早上好中午好晚上好

    实验室的服务器

    具体硬件是:

    硬盘型号:ST14000NM001G 13TB x 12 块盘 做了 raid 5 ,raid 卡是 MegaRAID SAS 9364-8i ,总大小为 114TB 。 之前一年的时间里,由于机房空调不稳定以及偶然性断电,所以 raid 卡日志里会有温度过高的报警日志。

    以下是这两天发生的问题:

    两天前开机后,我发现的一个训练集的文件突然损坏了,我在一周前还在用这个文件做训练,期间没有动过这个文件,看文件的修改日期也和之前一致,去翻 raid 卡的日志有以下内容:

    第一类,一致性检查报错:

    Code: 0x0000003f Class: 0 Locale: 0x01 Event Description: Consistency Check found inconsistent parity on VD 00/1 at strip 492000

    Code: 0x00000040 Class: 1 Locale: 0x01 Event Description: Consistency Check inconsistency logging disabled on VD 00/1 (too many inconsistencies)

    第二类:温度报警

    Code: 0x000000b3 Class: 1 Locale: 0x04 Event Description: Enclosure PD 0c(c Port 4 - 7/p1) temperature sensor 1 above warning threshold

    这些报警在过去半年的时间里也经常见到。小弟想请教各位彦祖们三个问题,不胜感激:

    1. 我在谷歌搜索过一致性检查报错的相关问题,但是讨论的都是 raid1 或 raid10 的情况,讨论的结论是如果是 raid1 或者 raid10 的话,可以忽略这个报错,没有任何风险。但我没有找到 raid5/6 相关的讨论,我个人十分不确定这个报错的风险程度,想请教一下各位!
    2. 关于温度报警,温度会影响到硬盘的寿命或者是其他东西吗?
    3. 这个服务是 18 年左右购置的,我担心它的寿命是不是快到了。。。想问一下大佬们的观点。

    综上,谢谢各位彦祖!在这里磕头了(砰砰砰)

    1 条回复    2024-04-26 16:03:49 +08:00
    Barhe
        1
    Barhe  
       9 天前   ❤️ 1
    100 多 T 的陈列,别用 raid5 ,风险大。
    机房空调不稳定的话,就要搞环境监控了,温湿度异常了,就要尽早介入。
    偶然性断电?要搞个 UPS 。
    18 年的服务器,皮实的,能用很久。只不过……能不关机断电尽量别关机断电,说不定哪天生龙活虎的它立马就挂了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   822 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 19:58 · PVG 03:58 · LAX 12:58 · JFK 15:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.