V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  gridsah  ›  全部回复第 4 页 / 共 8 页
回复总数  146
1  2  3  4  5  6  7  8  
@MeteorCat 不存在什么突然断电,所有机器都接了 ups
单网口,配静态地址,不带链路聚合也能触发 bug ....
@mantouboji 我查了 RHEL 7-9 的文档,都没说 mdadm 可以防止静默错误。我问了华为存储设备的售后,他们只是说,他们的盘阵有定期巡检来修复静默错误,但不是 mdadm 。

倒是这篇文章提 mdadm 和静默错误了,但它只是加了个检测静默错误的中间层,无法自动修复。检测到静默错误整个文件系统直接 read only 了。
https://www.redhat.com/en/blog/what-bit-rot-and-how-can-i-detect-it-rhel

mdadm 那个校验阵列的 timer 叫啥?我去看看它配置文件咋写的
@nuk Microserver Gen10 没有 IPMI 。而且我推测也不是中断机制的问题,因为这个 bug 在开机几个小时后就很难触发。

我刚刚让 11 楼提到的的 '第一次操作' 也触发了 bug ,就是双口链路聚合但只插一个口到傻交,然后开机后马上用 NFSv4 的负载占满 Gen10 的 1G 上行,4.7G 满载的上行流量就能触发 bug 。两个网口都试过了,都可以以这种方式触发 bug 。

我现在接上冷备盘,备份数据之后开始转 Linux 。

另外,修正 13 楼,是,我让 NFSv4 以单线程读文件,所以无法触发链路聚合。NFSv4 本身是多线程结构。
@cnbatch 这 bug 修了我也很难从 Linux 转回去了。这种基础组件定下了几乎就只升级,不更改了 hhhhh

tb 有卖 ASM1182E 芯片的 PCIEx1 转双 nvme 的转接板。我用的就是这个,也确定不是它的问题。因为转接卡上放的是 SLOG , 而这 bug 是读数据时候触发的。
@nuk 6G 60s 左右,因为 NFSv4 读文件时候是单线程,所以无法触发链路聚合,只能跑 1G 带宽。

是不是触发 watchdog 我就不了解了。触发 bug 的一瞬间机器就重启了,重启完日志也很干净,我的水平也不足以给内核 debug 。

包括 BIOS 在内的所有固件已经更到最新版了。现在的只能把数据备份一下转 Linux 了。
@sky96111 KVM 怎么管理的? libvirt ?手搓参数一两次还好,搓多了太累了.....
@mantouboji 嚯,98 年,那会还是流行 redhat 的时候,老哥你的使用经验很丰富啊。

你们是怎么处理机械硬盘上的静默错误的?就是 bit rotate ?

mdadm 这种软 raid 没有办法处理的吧。xfs 也没有针对静默错误的方案。

btrfs 倒是带校验,但是我不相信你高强度用了 /滑稽
突然想起来,影响 L2ARC cache 行为的那个参数是 secondarycache ,primarycache 控制的是 ARC 的缓存行为....再更正一下
@nuk Gen10 插显示器重新复现了一下 bug ,机器的表现是突然暴毙,啥输出都没看到。

我从感觉上来说是 bge 有 bug 。因为我第二次重新配好链路聚合才复现出 bug 来。

第一次操作:

Gen10 双端口链路聚合 loadbalance l3 l4 算法,只插一个口到傻交上,另一个口没插。单网口跑了 40G 流量还没触发 bug 。

第二次操作:

把管理交换机拆出来,重新把 Gen10 的两个口都插到交换机配好链路聚合的两个口上,重新测。6G 流量之后暴毙,显示器没有任何 echo 。

就是,突然,就没了。暴毙。
>首先,L2ARC 的独立性极强,它缓存的多是小文件,偏向于提升随机读写性能。

改成 偏向于提升随机读的性能
@totoro625 我看了看你咨询 PVE+ZFS 的帖子,也分享了一下我的使用经验。

@cnbatch btrfs 肯定是不考虑了,如果没啥意外 lvm + ext4 就是我的最终方案。

xfs ,下次一定,下次一定

当然我依旧希望能修好我的 FreeBSD.
Q1:对于特别热衷于备份的 PVE 用户,RAID or ZFS 是否有必要?

RAID 是高可用方案,不是备份方案。

如果你的服务不能中断,至少上个 raid5 ,掉一块盘可以以降级模式跑,服务不中断。况且有足够的备份,也不怕 raid5 连炸 2 块盘,无非整个机器掉线一两天用备份重建一下。多出的一块盘能多出好多空间。

raid 可以用 ZFS 来做。rsync.net 这家专做数据备份的公司从 2012 年就把 ZFS 用于生产了。用来存数据还是很稳的。

当然我主要看重 ZFS 的快照和文件系统级别的 checksum (防止 bit rotate)。 我对数据完整性要求高,所以即使只有单盘也会上 ZFS 的 raid0 (strip)。



Q2:不适用 ECC 内存、RAID 卡的情况下,4 硬盘 RAID10 对比 ZFS(RAID-Z2)哪个好?

ZFS 并不一定需要 ECC 内存,而且 ZFS 并不推荐使用 RAID 卡。但是推荐使用 HBA 卡或者 RAID 卡的 HBA 模式。

需要读写性能 raid10 ,需要安全性 raidz2 。我自己是 4 盘 raidz2 ,但是如 Q1 所说,我有足够的备份,也可以接受 raid5 连炸两盘的情况。所以我准备在 raidz2 的磁盘空间使用 70% 以后,用冷备数据重建为 4 盘 raidz (raid5)。



Q3:不适用 ECC 内存、RAID 卡的情况下,2 块硬盘 ZFS(Mirror)+1 块硬盘 ext4 备份 对比 2 块硬盘 RAID1+1 块硬盘 ext4 备份哪个好?

推荐 ZFS 。我需要 ZFS 的快照和文件系统级别的 checksum (防止 bit rotate)。 我对数据完整性要求高,所以即使只有单盘也会上 ZFS 的 raid0 (strip)。我自己用两年多了。没啥毛病。



Q4:不启用重复数据删除的情况下,预留 8G 内存给 32T ZFS 存储池是否足够? zfs.arc_max 是否是刚性的?如果如果突发内存占用较大,PVE 系统可用内存不足是否会 boom ?
Q5:低内存条件下 ZFS L2ARC 是否有必要?官方推荐不大于 10 倍内存,如果分配 512G nvme 固态能否充分利用?

如果你加 L2ARC 的话,要把 ARC 和 L2ARC 一起考虑。

首先,L2ARC 的独立性极强,它缓存的多是小文件,偏向于提升随机读写性能。L2ARC 和 ARC 的联系并不是特别紧密。但是,L2ARC 的索引在内存里,所以它会和 ARC 抢内存。

现在假设你的 4*8T 硬盘创建出的存储池有 15T (raid10 或 raidz2),但是你只有 8G 内存可以用作 ARC+L2ARC 。

primarycache=all 下 8G ARC 的命中率会比较难看。我推荐把 primarycache 的值改成 metadata 这样 ARC 的内存占用就比较小,可以把内存匀给 L2ARC ,然后 L2ARC 设置 primarycache=all 。

我的 raidz2 (4*8t) 15T 左右,配 30G ARC (primarycache=all) 才有 80%+ 的命中率。raidz2 也有 L2ARC ,给了 180G ,命中率 20% 左右。可以看到 ARC 利用率很高。L2ARC 利用率不高,可以接受,因为我的 raidz2 上随机读写比较少,多数是顺序读写。

你这个 15T 可用空间配 8G ARC..... 命中率有多难看我都不敢想 hhhhhh

https://note.lishouzhong.com/article/wiki/zfs/ZFS%20%E9%92%88%E5%AF%B9%E4%BD%BF%E7%94%A8%E5%9C%BA%E6%99%AF%E7%9A%84%E4%BC%98%E5%8C%96%E6%96%B9%E6%B3%95.html

你可以在这看到我写的关于 primarycache 相关的东西。

其实你不用太关心那个 10 倍的数据。

https://note.lishouzhong.com/article/wiki/zfs/ZFS%20%E6%8A%80%E5%B7%A7%E4%B8%8E%E7%9F%A5%E8%AF%86.html#org7c13e2d

这是计算 L2ARC 占多少内存的方法,你可以用这个算法算出你的 L2ARC 要用多少内存。



Q6:PVE 自带的 ZFS 会不会有坑?只用过 ext4 的一般 Debian 用户能否维护好?

我目前有一台 DELL R220 装了 PVE ,系统盘默认的 raid0 在跑,小问题有一点,出在 ZFS 和 systemd 的配合上面,影响数据的问题没有。



Q7:用了 ZFS 之后如何备份 PVE 虚拟机比较优雅,如果打算异地备份,可以怎么操作?计划 导出 ZFS 的 snapshot 用 Restic 增量去重备份为一堆 128mb 大小的小文件再传输到各个备份点,减轻网络传输压力。

不了解,我一直是 PVE 本地的第二个 raid1 的 zpool 存备份文件。



Q8:ZFS(RAID-Z2)不适合存放虚拟机数据,是否应将 VM 系统盘单独放在一个 SSD 上(或者两块 SSD ZFS Mirror)?

没有什么不适合存放虚拟机数据的,担心性能的话,加个 SLOG 就行。我只是把数据库之类对 I/O 敏感的 VM 放在了 SSD 上,跑应用的都放在 raidz2 上了。后来给 raidz2 配了 SLOG 之后,把数据库 VM 放在 raidz2 上的性能表现也变得可以接受了。

看这里
https://note.lishouzhong.com/article/wiki/zfs/ZFS%20ZIL(SLOG)%20%E7%BB%84%E4%BB%B6.html



Q9:大量的小文件会影响 NFS 性能,具体需要多大的量会影响性能?

注:目前 1.2T 共计 182 万文件,如果 500 万小文件,会有影响吗?

我是 NFS 重度用户,没这个说法。NFS 的瓶颈在于硬盘或者网络。小文件影响硬盘 I/O 进而影响 NFS 效能,并不是小文件直接对 NFS 产生影响。

FreeBSD 上 NFS 几个核心服务的文档是我翻译的,你需要可以看这里。文档里压根没提小文件。

https://note.lishouzhong.com/article/translation/sitemap-index.html



Q10:PVE 下各个 VM 是否应该启用 SWAP ?能否使用内存膨胀替代 SWAP ?

我的使用经验是,SWAP 可以搞小点。一般我只给 VM 最大 2G SWAP (8G ram 1G swap, 16G ram 2G swap),作用是降低一下突发的大内存申请、或者大量内存操作带来的压力。如果 VM 真的开始杀进程了,SWAP 根本救不回来,重启吧。



Q11:我即将利用淘汰配置组一套全新的 PVE ,有什么建议给我的吗?

讲道理,如果你的新 PVE 够用的话,淘汰的配置可以装 PBS 专门用作备份。定时开机,定时跑任务,但是这确实有点浪费。

注:优先计划增加 UPS

UPS 很重要很重要很重要很重要很重要很重要 一定要优先 (我手里两台 APC bk650m2-ch)

注 2:已有 1 块 16T 机械硬盘,计划增加 3 块。当前重要数据 1.2T ,归档存储数据 0.5T ,不重要数据 6T ,备份数据若干

注 3:看了 DELL R730XD ,我这点数据量暂不考虑
@totoro625

/t/819674 的 12 楼我看到了我自己的回复,也是不推荐使用 Root on ZFS hhhhhhh
@guochao

> The RAID 5 and RAID 6 modes of Btrfs are fatally flawed

Arch 的 wiki 说的是真的,btrfs 自己的文档也说 raid56 unstable
https://btrfs.readthedocs.io/en/latest/Status.html

我需要足够灵活的快照,所以 LVM 用起来很吃力,特别是在空间规划方面需要更多精力。
@zdy349 我需要快照、文件系统级别的 checksum (修复 bit rotate)。
另外,核心数据我有冷备,不怕丢数据,但是我怕 bit rotate 。

我现在偏向于 Linux + ZFS 所以来论坛请教一下使用经验。注意看主题。
@guochao 是的,FreeBSD 现在也切到了 OpenZFS 上。dedup 目前没有足够有说服力的应用案例,所以我不用这个功能。

OpenZFS 不支持 samba ,但支持 NFS ,原理是 OpenZFS 直接和内核里的 NFS 子系统通信,但是据说还有点小问题。所以 FreeBSD 上的 OpenZFS 在这里有一些 hack ,就是让 OpenZFS 把发往内核的信息解析成 /etc/exports 文件的配置项,放在 /etc/zfs/exports 再用常规的方法加载进 NFS 子系统。

由于我是 NFS 的重度用户,所以 FreeBSD 上 NFS 服务的几个核心文档的中文版是我翻译的 https://note.lishouzhong.com/article/translation/sitemap-index.html 另外,说起来我还是 Gentoo wiki 简中区的翻译 hhhhhhh

btrfs 我只在群晖 718p 上用过半年多,但是它的性能实在太差,而我的群晖又没法在 WebUI 上配缓存,所以我就切到 ext4 下面了。另外我看到有帖子说群晖上的 btrfs 离开群晖之后只能在特定几个版本的 Linux 内核下读数据。所以,我对这个文件系统的稳定性还是持怀疑态度。

lvm 快照占用的硬盘空间是预先分配的,如果给快照用的空间被写满,那快照对于后续的数据就失效了。这时候回滚可能会让 APP 认为数据不一致。但是 ZFS/btrfs 就没有给快照预分配空间这种操作,快照默认可以利用剩余的最大空间。

我还挺喜欢 FreeBSD 的,但是这个硬件兼容性实在是让人头大.....我在公司 ESXi7 上的 FreeBSD VM 倒是跑得一点问题都没有。

我不选成品 NAS 系统是因为,我的核心需求很简单,NFS/samba+python/sh ,并不需要 WebUI 也不买 support 服务。
@henyi2211 Unraid TrueNAS 现在都是 Linux+OpenZFS+WebUI 。我的需求里面没有 WebUI ,也不需要买它们的 support 服务。

bro 注意看主题,我是在问这几个组合的使用体验,不是求推荐。
@nuk 今天晚上我接个显示器看看 console 有没有报错,估计是没有。

我个人觉得是 bge driver 的锅,因为我配 Wake on LAN 的时候,bge 的行为就很古怪,bugzilla 也找到了相关问题说它还没法正常支持 WoL 。最终方案是,我在 BIOS 里记下两个网口的 mac 地址,需要 WoL 的时候向这两个 mac 发 magic packet ,这才可以正常唤醒。

倒是 NFSv4 有问题的可能性不大。
hhhhhh 让我先笑一会。我也被这样坑过。

虽然 OneDrive 搞丢我文件好多次了,但是我明年还是会继续续费 Office 365 。我回到墙内以后发现,没有哪家网盘能把 Windows, Windows Office 套件整合得比 OneDrive 更好了。
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2383 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 12:58 · PVG 20:58 · LAX 05:58 · JFK 08:58
Developed with CodeLauncher
♥ Do have faith in what you're doing.