咨询一个 CentOS 系统网络请求延迟异常变大的问题

200 天前
 gkair

问题场景:

我们在项目上放置了一个工控机,上面部署了一个 Java 服务,用于接收项目上 200 个左右摄像头的 http 请求信息,然后 Java 服务接手以后,进行相应处理,最后通过 tcp 发送到我们的云端系统。每个摄像头的请求频率为三十秒一次。tcp 消息发送为五秒一次。

问题描述:

部署初期没有问题,运行三四个月后,偶尔会出现摄像头推送到工控机的 http 请求延迟非常大,甚至有些会达到 http 请求后过了五分钟,Java 服务中才打印出相应日志。目前,这个问题出现的频率越来越高。并且伴随着这个问题,还发现了一些其他问题。如:

  1. 工控机重启时间非常长,大概 7.8 分钟,并且重启后上述问题无法解决;
  2. ssh 连接等待时间非常长,1.2 分钟;
  3. 手动执行 sudo reboot 命令无效,只能断电重启;
  4. 局域网内,偶尔会 ping 不到该工控机;
  5. yum 命令无法使用,见图;

请问有没有对 linux 比较熟悉的大牛能指点一下,或者能提供一下排查思路,万分感谢!

其他工控机相关

1826 次点击
所在节点    程序员
29 条回复
Mianmiss
200 天前
1 、http 请求延迟时间有特征吗? 比如在每天的几点左右,延迟时间段大概多久?
2 、机器的网络是否正常,网线是否有问题,WiFi 是否稳定。
3 、工控机资源图 是出现异常情况的吗? 感觉也不高。

建议是在异常时间 tcpdump 抓个包看看。
defunct9
200 天前
开 ssh ,让我上去看看
gkair
200 天前
@defunct9 这个可能不太方便让您上去看。。。。。。
gkair
200 天前
@Mianmiss
1 、目前未发现任何特征,延迟无规律。
2 、网络正常,网线正常,未使用 wifi 。
3 、是,这个工控机只有这么几个服务,资源占用其实很低。
另外,目前的情况是,网络延迟现象较之前变得频繁;但是这个工控机操作的迟钝感一直存在,无法通过重启来缓解。
defunct9
200 天前
@gkair 拒绝猜火车,不上去看看,真正的原因天知道是什么
Kinnice
200 天前
ip 冲突,
pota
200 天前
工控机重启时间非常长,大概 7.8 分钟 这条考虑是硬盘问题?
ruidoBlanco
200 天前
CPU 内存都没有压力,load average 很低,所以我猜想 IO delay 也应该可以忽略不计。

那么问题在大概在网络层面了。

网络而言,需要看的就挺多的。是我的话,首先会看下面这几个地方,然后再缩小范围

ethtool -S <网卡>. # 网卡丢包,ring buffer ?你这个 irq 不大可能了
/proc/net/softnet_stat # 第二三列有没有数字很大? netdev_budget 不够?
netstat -s # tcp exception ,会不会是 socket buffer ? ss -ntmp 怎么说?

几句话说不清,每次弄起这些来我自己也得再查。

还有可能就是你有内核报错,网卡驱动有问题啊什么的,看日志就可以发现了。
hingle
200 天前
1. MAC 地址重启后是否会变
2. 系统时间是否正常
Nicklove
200 天前
@defunct9 ssh 老哥
gkair
200 天前
@ruidoBlanco 首先,感谢这位老哥提出的思路。但是,我们俩软件开发实在是搞不了这种专业性很强的问题排查,我们公司又没有这种专业的底层运维人员,我只能说先尝试一下吧。不行的话也不费力气了,直接换个新的工控机跑跑再看看吧。
gkair
200 天前
@Kinnice ip 写死,并且路由器上面做了限制,不会冲突。 #6
@pota 硬盘现在无法确认有无问题,我想办法确认下吧。但是感觉有问题的可能性不太大,毕竟才跑了半年。 #7
@hingle 1 、mac 地址固定。2 、系统时间正常。#9
crc8
200 天前
换工控机
Immunize
200 天前
reboot 都不响应,机器坏了吧....dmesg 有错误信息么,跑一跑 MEMTEST 看看内存是不是有问题?
sinx003
200 天前
我们最近有个类似的问题,也是一开始运行咩有问题,最近才出现.最后排查了好久,发现是硬盘速度太低导致的,我想你接受这么多的数据,硬盘读写的数据少不了,建议检查一下硬盘速度
Richared
200 天前
朋友之前加盟在线教育,后来总部倒闭了,他从别的渠道搞来课程,我们几个发小帮忙搭建了一套服务,服务器部署在教室,后来莫名其妙网络延迟,卡顿,接口超时。ssh 进不去,因为我们不在现场,看不到机器的情况,每次都是重启解决,后来去了他那才知道,这哥们给服务器锁在了一个箱子里。运行一段时间过热 cpu 降频。。。
dode
200 天前
这些摄像头划分 vlan 隔离了吗
dode
200 天前
感觉工控机设备有问题吗,硬盘状态,网络占用,USB 接口
a0xbd4CX0DHC1EuT
200 天前
@gkair ssh 连接等待时间非常长,1.2 分钟,这个我遇到过,/etc/ssh/sshd_config 改成 UseDNS no GSSAPIAuthentication yes ,然后 systemctl restart sshd.service 重启。
Mandy0
200 天前
网卡芯片是什么型号,某些 Intel 在 Centos 上兼容会有问题,内核版本太老导致的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1039041

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX