小小的网络故障,带来深深的思考,运维的成败果然在于细节

早晨8点多,收到Zabbix的邮件告警,显示客户的戴尔服务器和爱快路由器掉线了,由于该客户的机房之前有过多次停电,症状当然也是如此这般,加上客户没有电话或者微信报修,就先入为主地判定为机房又停电了,因此未采取任何措施。

小小的网络故障,带来深深的思考,运维的成败果然在于细节

直到过了下班时间,客户才反馈:外网无法使用向日葵远程控制服务器。因为不止一次,也就直说了,是不是机房又没电。

客户反馈有电,照片显示服务器处于开机状态,爱快路由器也是一样。

嗯?这怎么可能,难道短暂停电后就恢复了,恢复的时候,Zabbix没有自动发邮件提醒我?

远程登录爱快,失败;登录爱快云后台查看,显示该路由器为离线状态;登录部署在云服务器里面的Zabbix,发现客户的戴尔服务器和爱快还是离线状态,并没恢复。

小小的网络故障,带来深深的思考,运维的成败果然在于细节

指导客户重启爱快,无效;难道是停电后掉配置了?客户都已经下班了,也就没有其他远程手段了,为了不影响客户第二天上班使用,于是驱车前往。

到了机房,首先把显示器接到爱快上,果然有宽带没连接上?Lan口也是已断开状态?

小小的网络故障,带来深深的思考,运维的成败果然在于细节

把键盘接上,顺手按了几下回车键,所有网卡显示为已连接,貌似没问题啊,奇怪。

既然如此,打开笔记本电脑,登录爱快路由器,准备检查问题所在;

小小的网络故障,带来深深的思考,运维的成败果然在于细节

原来是固定IP的城域网掉线了,这是爱快的默认链路,专供服务器和监控使用的,所以白天办公的时候,用户是感觉不到的,直到要远程操作服务器的时候,才发现网络有问题。路由器端口好好的,网卡的“眼睛”唰唰地眨着,于是转到机柜后面,一眼就看到某个光猫闪着红灯,好吧,电信光纤断了;

小小的网络故障,带来深深的思考,运维的成败果然在于细节

可是爱快云显示路由器处于掉线状态也太不应该了,其他几条拨号宽带不都是好好的在线么?

也许是配置不仔细吧,没有配置自动切换线路,另外几条拨号的宽带倒是都配置了,只是固定IP的城域网没配置,主要是太相信电信了,嘿嘿,现在赶紧补上吧,来都来了,是吧。

小小的网络故障,带来深深的思考,运维的成败果然在于细节

勾上“掉线自动切换”后,爱快云立刻显示路由器在线了,哪怕没有固定IP,在外网也能通过爱快云远程登录这台路由器了;

服务器上的向日葵,本以为会自动上线,结果重试了几次都无法上线,只能手动退出软件,重新开启后,才恢复连接;

先让客户这么用吧,暂时没什么大影响,只能明天早上再向电信报修线路故障了。

准备收拾东西走人,先备份一下爱快的配置吧,下次有问题的时候,能快速恢复;

小小的网络故障,带来深深的思考,运维的成败果然在于细节

反思:

1、由此看来,先入为主和经验主义的确是害了自己,接到客户报修就先把自己掘进坑里了,没有冷静、认真地分析,虽然也快速解决了问题,没影响客户使用,但是这一趟其实可以不用跑,单程40分钟,毕竟说远不远,说近也不近;

2、云端的Zabbix,配置为smnp轮询客户的设备,一旦固定IP的链路掉线,所有的监测肯定是全部失效了,如果是在服务器上安装了Zabbix agent,并且配置为主动模式,就能主动向Zabbix Server上报信息,配合爱快的“掉线自动切换”,云端的Zabbix就不会与被监测的服务器失联了,这样就很容易地判断出是固定IP的城域网掉线了。

3、不能太相信运营商,该做的配置,还得做细致做完整,免得有问题的时候,再费时费力地排查。

——笔者为网络工程师,擅长计算机网络领域,创业多年,希望把自己的经验分享给大家,觉得有用的,如有相同或者不同观点,欢迎评论。

文章来源:https://www.cnaaa.net,转载请注明出处:https://www.cnaaa.net/archives/11799

(0)
凯影的头像凯影
上一篇 2024年5月21日 下午3:33
下一篇 2024年5月22日 下午2:45

相关推荐

  • iStoreOS,新增备份系统教程

    一、写盘。 本文主要是x86物理机安装教程(因为物理机才能获取到温度等硬件信息),esxi下安装也很简单,跟安装任何openwrt一样,先转成vmdk文件,添加现有硬盘即可。 我们继续物理机安装教程,首先,用balenaEtcher工具将gz安装包写入U盘,必须要这么做。 所以,请务必写入普通的U盘。 二、接入主机。 将U盘插入小主机,同时将内置硬盘也接入小…

    2023年4月4日
    2.8K00
  • 企业如何做好业务监控​?

    大部分企业都会做基础设施监控,觉得做好基础设施监控就可以解决大部分问题。至于业务方面监控,等有人来说了再处理就行。殊不知这种想法会有诸多隐患。 为什么要做业务监控? 通常情况下,大部分企业都会做基础设施监控,觉得做好基础设施监控就可以解决大部分问题。至于业务方面监控,等有人来说了再处理就行。殊不知这种想法会有诸多隐患: 1、运维比业务部门经常晚发现业务有问题…

    2023年12月6日
    65200
  • TCP的几个状态 (SYN, FIN, ACK, PSH, RST, URG)

    在TCP层,有个FLAGS字段,这个字段有以下几个标识:SYN, FIN, ACK, PSH, RST, URG。 其中,对于我们日常的分析有用的就是前面的五个字段。 它们的含义是: SYN表示建立连接, FIN表示关闭连接, ACK表示响应, PSH表示有 DATA数据传输, RST表示连接重置。 其中,ACK是可能与SYN,FIN等同时使用的,比如SYN…

    2022年11月19日
    1.3K00
  • 交换机密码忘了,肿么办?

    作为网络工程师,还要记住网络设备的密码。举个栗子,交换机有 BOOT 密码、Console 口密码、Telnet 密码、SSH 密码和 Web 登录密码。假如忘记了交换机的某个密码,该肿么办呢? 1、忘记 Web 登录密码 如果忘记了 Web 登录密码,可以通过 Console 口、Telnet 或 SSH 登录交换机,设置新的 Web 登录密码。比如:We…

    2023年12月14日
    77600
  • Nginx一网打尽:动静分离、压缩、缓存、黑白名单、跨域、高可用、性能优化…

    引言 早期的业务都是基于单体节点部署,由于前期访问流量不大,因此单体结构也可满足需求,但随着业务增长,流量也越来越大,那么最终单台服务器受到的访问压力也会逐步增高。时间一长,单台服务器性能无法跟上业务增长,就会造成线上频繁宕机的现象发生,最终导致系统瘫痪无法继续处理用户的请求。 ❝ 从上面的描述中,主要存在两个问题:①单体结构的部署方式无法承载日益增长的业务…

    2023年3月16日
    69400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

在线咨询: QQ交谈

邮件:712342017@qq.com

工作时间:周一至周五,8:30-17:30,节假日休息

关注微信