V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
vrqq
V2EX  ›  硬件

PCIE 拆分卡报 WHEA_EventID_17 如何选卡/选芯片 能避免这个问题

  •  
  •   vrqq · 2023-06-24 21:37:30 +08:00 · 1121 次点击
    这是一个创建于 500 天前的主题,其中的信息可能已经有所发展或是发生改变。

    AMD Epyc 7302P + Tyan S8030 + WinServer

    淘宝买了个 PH44Plus PCIE x16 拆 4 个 x4 的 nvme 口,在 bios 里面设置成 x4x4x4x4 ,卡上贴了 2 块硬盘 CrucialP5Plus 。(系统盘在主板上直插)

    然后开机 速度变得特别慢,而且 Remote BMC 也疯狂提示 PCIE perr ,好不容易进系统后也很卡,EventLogger 里面一直提示 WHEA-Logger Warning 。Bus 0x42 和 Bus 0x43 对应的刚插的那俩盘,这两个 Bus 就是卡上的 NVME Contoller 。

    A corrected hardware error has occurred.
    
    Component: PCI Express Root Port
    Error Source: Generic
    
    Primary Bus:Device:Function: 0x40:0x3:0x4
    Secondary Bus:Device:Function: 0x43:0x7:0x1
    Primary Device Name:PCI\VEN_1022&DEV_1483&SUBSYS_14531022&REV_00
    Secondary Device Name:
    Command: 0x406
    Status: 0x10
    ClassCode: 0x60400
    BridgeControl: 0x2
    BridgeStatus: 0x0
    CorrectableErrorStatus: 0x1100
    

    以及

    A corrected hardware error has occurred.
    
    Component: PCI Express Endpoint
    Error Source: Generic
    
    Primary Bus:Device:Function: 0x42:0x0:0x0
    Secondary Bus:Device:Function: 0x0:0x0:0x0
    Primary Device Name:PCI\VEN_C0A9&DEV_5407&SUBSYS_0100C0A9&REV_00
    Secondary Device Name:PCI\VEN_1022&DEV_1480&SUBSYS_14501022&REV_00
    Command: 0x406
    Status: 0x10
    ClassCode: 0x10802
    BridgeControl: 0x0
    BridgeStatus: 0x0
    CorrectableErrorStatus: 0x1
    

    (拆分卡在 0x40 RootComplex 下面)为什么一个错误报在 bridge 上,一个报在 endpoint 上呢?。。。

    把卡拔了之后一切正常,开机起飞,按照网上的各种分析有几个猜测的方向

    1. PCIE 电源管理不兼容 ( https://www.chiphell.com/forum.php?mod=viewthread&tid=2486528)有帖子说观察到在省电和不省电模式来回切换,在系统低负载时卡
    2. 转接卡布线电气标准 达不到 PCIE4.0 或某些布线的阻值不对(有帖子说插到 PCIE3.0 口正常的)
    3. 主板坏了

    求助怎么选拆分卡?需要关注哪些?想上 PCIE4.0

    ====== 一些卡的疑问 ====== 这个卡的 PCIE 时钟缓存芯片上面的丝印被抹了,会不会是残次片(例如 Micron 划线颗粒)还是单纯的防伪? 降压 IC 用的 AOZ1236QI2 ,整张卡有一个 X260F 的保险丝。网上看了很多拆分卡烧卡案例连带把硬盘和主板也烧了,如何买到安全的方案?

    vrqq
        1
    vrqq  
    OP
       2023-06-25 00:09:17 +08:00
    补充:网上看到有人解释为什么需要降压 IC (也是炸了的地方)
    PCIE 3.3v 的供电电流不足 只能带动一个卡,带多个卡就需要从 12v 降压,降压 IC 如果炸了可能就把 12v 直接接盘上了

    出处 https://www.chiphell.com/forum.php?mod=redirect&goto=findpost&ptid=2511813&pid=52506694
    vrqq
        2
    vrqq  
    OP
       66 天前
    更新:换了个 asus 的卡,同样的问题,经过阅读文档发现,这个卡 4 个插槽在插不满的情况下,需要按他的要求槽位插,不能随便想插哪个插哪个。。估计之前的卡也是这问题
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5835 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 01:55 · PVG 09:55 · LAX 17:55 · JFK 20:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.