硬件:CPU 5600G + 微星 A520M-A-PRO 平台:PVE 8
正常运行着,大概隔一天就访问不了,路由器中也不见了设备,直接插屏幕访问也卡死。必须强制关机,再开机才能用。查看系统日志,总有一条 Reboot 。结合上文也看不出啥问题,每次 Reboot 上面的内容都不一样。
尝试过加微码,关闭自动更新,关闭直通等操作。
只运行了 3 个 LCX ,CPU 温度啥的也正常,资源占用也不高,实在是没招了。有大佬知道遇到过吗?
May 27 00:44:43 pve kernel: Code: fe 7f 44 1f 80 c5 f8 77 c3 80 3d c4 ad a0 00 01 75 0d c5 f9 ef c0 48 81 fb 00 00 00 02 73 13 48 89 d9 48 c1 e9 03 48 83 e3 07 <f3> 48 ab e9 65 fe ff ff c5 fe 7f 07 48 89 fe 48 83 c7 20 48 83 e7
May 27 00:44:43 pve kernel: RSP: 002b:000000c00013cf98 EFLAGS: 00010246
May 27 00:44:43 pve kernel: RAX: 0000000000000000 RBX: 0000000000000000 RCX: 000000000000a000
May 27 00:44:43 pve kernel: RDX: 000000c000648000 RSI: 0000000000000000 RDI: 000000c00069a000
May 27 00:44:43 pve kernel: RBP: 000000c00013cff8 R08: 00000000000a2000 R09: 000000c000648000
May 27 00:44:43 pve kernel: R10: 0000000000000051 R11: 00007f2c528eb000 R12: 00000000006e9f01
May 27 00:44:43 pve kernel: R13: 0000000000df3320 R14: 000000c000200680 R15: 0000000000000003
May 27 00:44:43 pve kernel: </TASK>
May 27 00:44:43 pve kernel: BUG: Bad page state in process mysqld_exporter pfn:3ea78d
-- Reboot --
May 27 01:35:20 pve kernel: Linux version 6.8.4-3-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-3 (2024-05-02T11:55Z) ()
May 24 13:17:01 pve CRON[353689]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 13:17:01 pve CRON[353688]: pam_unix(cron:session): session closed for user root
May 24 14:17:01 pve CRON[377395]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
May 24 14:17:01 pve CRON[377396]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 14:17:01 pve CRON[377395]: pam_unix(cron:session): session closed for user root
May 24 15:17:01 pve CRON[401123]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
May 24 15:17:01 pve CRON[401124]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 15:17:01 pve CRON[401123]: pam_unix(cron:session): session closed for user root
May 24 16:17:01 pve CRON[424903]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
May 24 16:17:01 pve CRON[424904]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 16:17:01 pve CRON[424903]: pam_unix(cron:session): session closed for user root
-- Reboot --
May 25 00:11:59 pve kernel: Linux version 6.8.4-3-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-3 (2024-05-02T11:55Z) ()
1
KINGWAY 163 天前
我的第三次 PVE 又有问题了, 这次是连不上网, 重启也解决不了问题, 估计最新这个版本有重大 bug.
|
2
white149 163 天前 via Android
有过类似情况是内存报错,我当时是降低频率或只插两条
|
3
geekvcn 163 天前 via Android
服务器内存别超频,别开 xmp ,内存默认频率电压加到 1.35V 试试。
这里科普下 AMD APU 只有 PRO 版支持纯 ECC 内存,AMD 非 APU 全部版本除了 APU 阉割核显的版本比如 5500 ,都支持纯 ECC 内存。 AMD 非 APU 平台做服务器的有条件的建议上华擎的主板上纯 ECC 内存,服务器可以少很多莫名其妙的问题,华擎 AMD 主板基本都支持纯 ECC 。 DDR4 非 ECC 内存做服务器的,一律建议非 XMP 默频率电压加到 1.35v 。 DDR5 非 ECC 内存做服务器的,一律建议用海力士 Adie 非常稳定,而且有内存容量需求的 Adie 插四根更稳定,镁光三星最好不要用,插四根不稳定除非降频。DDR5 24G 48G Mdie 挑主板适配,注意兼容性,新主板新 BIOS 基本没问题。 |
4
Radeon 163 天前
memtest86 跑过没有?
|
5
ruidoBlanco 163 天前
沒遇到過。當然我目前還是 6.5 內核,uptime 70 天了,沒事不升級不重啟。
話說,考慮過關掉 mysqld exporter 沒? |
6
00oo00 163 天前 via Android
换内存可以试试
|
7
ltkun 163 天前 via Android
有台 5700u 还是天钡的 插了 32x2 的笔记本 ddr4 没啥问题也是 pve8 稳定不稳定和内存没多大关系
|
8
wsbqdyhm 163 天前
肯定是硬件问题
|
9
totoro625 163 天前
遇到过一次内存问题,换了大厂内存解决的
PS:可以先安装 Windows 一段时间,并长期开机,跑几遍测试 |
10
lazyyz 163 天前
5600G PVE 8.2.2 内核 6.8.4-3 没有遇到这个情况
|
11
lazyyz 163 天前
不过去年在用 7 的时候,遇到过死机情况是因为内存问题,建议 OP 跑一下 memtest86 测试
|
12
yc8332 163 天前
正常不是内存就是硬盘,用大厂的产品。。May 27 00:44:43 pve kernel: BUG: Bad page state in process mysqld_exporter pfn:3ea78d 这个看起来是内存问题
|
13
KyonCN 163 天前 via iPhone
一样的问题,不过我开了 sriov 。
我觉得是 bios 的问题。目前关了 c states 在测试 |
14
yinmin 163 天前 via iPhone
主机或虚拟机有没有对 internet 开放的服务?所有公网服务断开几天,看看有没有死机改善。
|
15
yinmin 163 天前 via iPhone
对于某些内存条,黑客攻击 http/https 服务,使用特殊包能造成死机(可能与 ddr4/ddr5 内存 bit 翻转有关)
|
16
qW7bo2FbzbC0 163 天前
B660 也约到开机一段时间死机的问题,寄给华硕,他们检查了两次说是内存模块有问题
|
17
TimPeake 162 天前
想起了我 N5105 pve 里装 istore, 网口疯狂 up/down 切换,物理机直装再也没出现这问题。
|
18
Mithril 162 天前
之前说过了,8.1 的内核是有 bug 的,负载高的时候会直接卡死。
但我是虚拟机卡死,并不是 PVE 。你如果是 8.1 可以更新一下试试。 |
19
children009 162 天前
内存是大概率的问题,遇到 1 个群友,换了内存就没问题了
|
20
mingge2333 162 天前
pve 遇到过类似的问题, 系统问题很棘手,即便是修复了这个问题, 难保还会遇到其他问题, 后来切换 VMware 就没问题了
|
21
CareyQ OP @children009 #19 群能加吗,搞这个,一直找不到组织
|
22
CareyQ OP @mingge2333 #20 我这段时间,一度想换 ESXI ,晚上我先试试上面几位老哥说的方法吧
|