V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gkair
V2EX  ›  程序员

咨询一个 CentOS 系统网络请求延迟异常变大的问题

  •  
  •   gkair · 204 天前 · 1831 次点击
    这是一个创建于 204 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问题场景:

    我们在项目上放置了一个工控机,上面部署了一个 Java 服务,用于接收项目上 200 个左右摄像头的 http 请求信息,然后 Java 服务接手以后,进行相应处理,最后通过 tcp 发送到我们的云端系统。每个摄像头的请求频率为三十秒一次。tcp 消息发送为五秒一次。

    问题描述:

    部署初期没有问题,运行三四个月后,偶尔会出现摄像头推送到工控机的 http 请求延迟非常大,甚至有些会达到 http 请求后过了五分钟,Java 服务中才打印出相应日志。目前,这个问题出现的频率越来越高。并且伴随着这个问题,还发现了一些其他问题。如:

    1. 工控机重启时间非常长,大概 7.8 分钟,并且重启后上述问题无法解决;
    2. ssh 连接等待时间非常长,1.2 分钟;
    3. 手动执行 sudo reboot 命令无效,只能断电重启;
    4. 局域网内,偶尔会 ping 不到该工控机;
    5. yum 命令无法使用,见图;

    请问有没有对 linux 比较熟悉的大牛能指点一下,或者能提供一下排查思路,万分感谢!

    其他工控机相关

    • 工控机系统:CentOS Linux release 7.9.2009 (Core)
    • 工控机部署服务:Java 服务一个,redis ,frpc ,nginx
    • 工控机资源占用:见图 1715224821449.png

    1715224807620.png

    29 条回复    2024-05-09 20:27:53 +08:00
    Mianmiss
        1
    Mianmiss  
       204 天前
    1 、http 请求延迟时间有特征吗? 比如在每天的几点左右,延迟时间段大概多久?
    2 、机器的网络是否正常,网线是否有问题,WiFi 是否稳定。
    3 、工控机资源图 是出现异常情况的吗? 感觉也不高。

    建议是在异常时间 tcpdump 抓个包看看。
    defunct9
        2
    defunct9  
       204 天前
    开 ssh ,让我上去看看
    gkair
        3
    gkair  
    OP
       204 天前
    @defunct9 这个可能不太方便让您上去看。。。。。。
    gkair
        4
    gkair  
    OP
       204 天前
    @Mianmiss
    1 、目前未发现任何特征,延迟无规律。
    2 、网络正常,网线正常,未使用 wifi 。
    3 、是,这个工控机只有这么几个服务,资源占用其实很低。
    另外,目前的情况是,网络延迟现象较之前变得频繁;但是这个工控机操作的迟钝感一直存在,无法通过重启来缓解。
    defunct9
        5
    defunct9  
       204 天前
    @gkair 拒绝猜火车,不上去看看,真正的原因天知道是什么
    Kinnice
        6
    Kinnice  
       204 天前
    ip 冲突,
    pota
        7
    pota  
       204 天前
    工控机重启时间非常长,大概 7.8 分钟 这条考虑是硬盘问题?
    ruidoBlanco
        8
    ruidoBlanco  
       204 天前   ❤️ 1
    CPU 内存都没有压力,load average 很低,所以我猜想 IO delay 也应该可以忽略不计。

    那么问题在大概在网络层面了。

    网络而言,需要看的就挺多的。是我的话,首先会看下面这几个地方,然后再缩小范围

    ethtool -S <网卡>. # 网卡丢包,ring buffer ?你这个 irq 不大可能了
    /proc/net/softnet_stat # 第二三列有没有数字很大? netdev_budget 不够?
    netstat -s # tcp exception ,会不会是 socket buffer ? ss -ntmp 怎么说?

    几句话说不清,每次弄起这些来我自己也得再查。

    还有可能就是你有内核报错,网卡驱动有问题啊什么的,看日志就可以发现了。
    hingle
        9
    hingle  
       204 天前
    1. MAC 地址重启后是否会变
    2. 系统时间是否正常
    Nicklove
        10
    Nicklove  
       204 天前
    @defunct9 ssh 老哥
    gkair
        11
    gkair  
    OP
       204 天前
    @ruidoBlanco 首先,感谢这位老哥提出的思路。但是,我们俩软件开发实在是搞不了这种专业性很强的问题排查,我们公司又没有这种专业的底层运维人员,我只能说先尝试一下吧。不行的话也不费力气了,直接换个新的工控机跑跑再看看吧。
    gkair
        12
    gkair  
    OP
       204 天前
    @Kinnice ip 写死,并且路由器上面做了限制,不会冲突。 #6
    @pota 硬盘现在无法确认有无问题,我想办法确认下吧。但是感觉有问题的可能性不太大,毕竟才跑了半年。 #7
    @hingle 1 、mac 地址固定。2 、系统时间正常。#9
    crc8
        13
    crc8  
       204 天前
    换工控机
    Immunize
        14
    Immunize  
       204 天前
    reboot 都不响应,机器坏了吧....dmesg 有错误信息么,跑一跑 MEMTEST 看看内存是不是有问题?
    sinx003
        15
    sinx003  
       204 天前
    我们最近有个类似的问题,也是一开始运行咩有问题,最近才出现.最后排查了好久,发现是硬盘速度太低导致的,我想你接受这么多的数据,硬盘读写的数据少不了,建议检查一下硬盘速度
    Richared
        16
    Richared  
       204 天前   ❤️ 1
    朋友之前加盟在线教育,后来总部倒闭了,他从别的渠道搞来课程,我们几个发小帮忙搭建了一套服务,服务器部署在教室,后来莫名其妙网络延迟,卡顿,接口超时。ssh 进不去,因为我们不在现场,看不到机器的情况,每次都是重启解决,后来去了他那才知道,这哥们给服务器锁在了一个箱子里。运行一段时间过热 cpu 降频。。。
    dode
        17
    dode  
       204 天前
    这些摄像头划分 vlan 隔离了吗
    dode
        18
    dode  
       204 天前
    感觉工控机设备有问题吗,硬盘状态,网络占用,USB 接口
    a0xbd4CX0DHC1EuT
        19
    a0xbd4CX0DHC1EuT  
       204 天前
    @gkair ssh 连接等待时间非常长,1.2 分钟,这个我遇到过,/etc/ssh/sshd_config 改成 UseDNS no GSSAPIAuthentication yes ,然后 systemctl restart sshd.service 重启。
    Mandy0
        20
    Mandy0  
       204 天前
    网卡芯片是什么型号,某些 Intel 在 Centos 上兼容会有问题,内核版本太老导致的
    xiaoranj
        21
    xiaoranj  
       204 天前
    如果排除掉网络问题的话,有点像硬盘快坏了或者过热导致的
    gkair
        22
    gkair  
    OP
       204 天前
    @sinx003 其实我们接受的数据主要在 Java 程序中就处理完成了,完成之后暂存一点统计信息到 redis ,然后就是每隔几秒通过 tcp 发送给业务系统了。基本上没多少磁盘读写。
    gkair
        23
    gkair  
    OP
       204 天前
    @crc8 已经准备换了,到时候重新刷一下系统。
    @ukec 目前是这样的
    #UseDNS yes 该行目前为注释状态
    GSSAPIAuthentication yes
    @Immunize https://img2.imgtp.com/2024/05/09/3ux2L21U.png 看着好像一堆错误。
    a0xbd4CX0DHC1EuT
        24
    a0xbd4CX0DHC1EuT  
       204 天前
    @gkair #UseDNS yes 要取消注释并改成 no ,重启 sshd 服务
    hahahahahahahah
        25
    hahahahahahahah  
       204 天前
    感觉是硬件出问题了
    iloveayu
        26
    iloveayu  
       204 天前
    综合分析应该是磁盘的问题
    hefish
        27
    hefish  
       204 天前
    别猜了,硬件问题, 换新之后故障消除。
    stcQ2G13k9yxep40
        28
    stcQ2G13k9yxep40  
       204 天前
    free -h ,top 看下,大概率是 CPU 资源消耗殆尽了。我遇到过好几次类似的情况,ssh 连接非常非常慢,经常断,有时候还会报错 fork:retry:Resource temporarily unavailable ,基本上系统资源不足造成的。硬重启以后,问题解决。
    gordon96
        29
    gordon96  
       204 天前
    ssh 慢可能 dns 问题,我记着之前遇到过类似
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   933 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 21:27 · PVG 05:27 · LAX 13:27 · JFK 16:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.