服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

做运维的都知道,服务器出点问题,就够我们受的,轻则被骂,重则丢饭碗,所以,每逢节假日,我们恨不得在机房点上三柱香、贴上几张符,给服务器和网络设备跪拜一番,求它们别出问题,也让我们过个清闲的假日。

服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

然而,服务器虽然有一两颗火热的心,但是他们出起问题来,却都是冰冷冷的,一点都不讲情面,总是留下我们在机房凌乱而慌张。

所以,给服务器配置邮件告警,让它有小问题的时候,及时主动地通知我们,是为上策,我们也好及时处理,防患于未然,免得出大问题的时候,手忙脚乱。

服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

本文以戴尔R740服务器为例,讲解邮件告警的配置过程,需要说明的是,戴尔服务器的iDRAC功能非常强大,硬件监测、系统安装和维修都不在话下,邮件告警只是其中一个功能而已。

直奔主题,打开“SMTP(电子邮件)服务器设置”,见图1,在不久以前,这些选项填写正确后,就能发送测试邮件了,但是现在基本上不行了,笔者测试了好多个品牌的邮箱,都发送失败了。

服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

正确的步骤如下:

1、到戴尔官网下载最新的iDRAC固件程序

服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

2、服务器做了虚拟化,里面有一台虚拟服务器安装了Windows Server 2016,遗憾的是,在虚拟机里面升级iDRAC固件程序失败了。

服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

3、在iDRAC界面里面找到手动更新,上传刚才下载的固件程序,完成后直接安装即可,放心,服务器是不会自动重启的,也不必重启,安装完成后,会有短暂的几分钟无法登录iDRAC,那是固件在更新而已,不用担心。

服务器出问题了,作为IT,怎样才能第一个知道?免得被骂
服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

注意版本号,iDRAC固件已经升级到最新的5.0了。

  1. 现在可以配置SMTP服务器了,笔者使用的是腾讯企业邮箱,具体设置见下图,注意SMTP端口号465,和连接加密协议是配套的,需要根据邮件供应商的参数设置。
服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

设置完成后,一定要进行测试,确认能收到测试邮件,才表示邮件告警成功完成了第一步的配置。

服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

如果测试邮件发送失败,那么请检查是否为iDRAC配置了DNS服务器,没有配置正确的DNS服务器,邮件是无法发送的。见下图。

服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

有时候,你会发现,测试邮件是收到了,可是时间不对啊,那是因为没有配置正确时区和NTP服务器,不好意思,经与戴尔公司沟通,iDRAC界面并不支持直接设置时间,所以要想让邮件显示正确的时间,只能配置NTP服务器,笔者选择了阿里的NTP服务器,以保证时间的正确性。

服务器出问题了,作为IT,怎样才能第一个知道?免得被骂
服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

收到测试邮件,并且时间正确后,就可以配置警报了,先启用警报,然后配置警报的类别和问题的严重性,笔者简单粗暴地选择了“快速警报配置”,类别选择了“系统运行情况”、“存储”和“配置”,问题严重性选择了“严重”和“警告”。

服务器出问题了,作为IT,怎样才能第一个知道?免得被骂

其实服务器硬件并不值钱,坏什么换什么就是了,数据是最重要的,所以一旦收到“存储”的警报邮件,哪怕只是个“警告”,也一定要严阵以待、谨慎处理,该换硬盘的时候,千万别心疼那几个硬盘钱,要是数据文件丢失了,那饭碗也就基本上丢了。

文章来源:https://www.cnaaa.net,转载请注明出处:https://www.cnaaa.net/archives/11815

(0)
凯影的头像凯影
上一篇 2024年5月22日 下午2:45
下一篇 2024年5月23日 下午2:12

相关推荐

  • CentOS安装noVNC,以Web方式交付VNC远程连接

    什么是noVNC noVNC 是一个 HTML5 VNC 客户端,采用 HTML 5 WebSockets, Canvas 和 JavaScript 实现,noVNC 被普遍用在各大云计算、虚拟机控制面板中,比如 OpenStack Dashboard 和 OpenNebula Sunstone 都用的是 noVNC。 noVNC 采用 WebSockets…

    2024年5月8日
    10000
  • 一个由MySQL安全插件引发的生产问题

    一、背景 生产环境下遇到一个问题,有数据库节点的连接数略高,触发了连接数告警。登录上查看后,发现实际业务压力不大。查看processlist发现有大量状态为“Waiting in connection_control plugin”的等待连接。 mysql> select ID,HOST,DB,COMMAND,TIME,STATE,INFO from …

    2023年3月6日
    33600
  • OpenSuSe系统登录密码忘了如何进行重置

    如果你的OpenSusE系统密码忘记了,又不想重装系统,那么,你可以通过如下几个步骤来强制重置root密码 1、重新启动机器,在出现grub引导界面后,按“e”,出现启动Linux的选项,移动光标至第一个选项上再次按“e”出现一个编辑字符的界面在字符后面加入“init=/bin/bash”字段,然后回车。按Ctrl+X,通过给内核传递init=/bin/ba…

    2022年11月24日
    56900
  • Grafana如何自定义告警消息

    以下是一个使用pushgateway获取磁盘健康状态的报警消息。 可以看到,grafana默认的模板有很多无用内容。 获取数据 在grafana的报警预览中,只有state和info两个列显示。 info内容看起来是一个键值对类型的数据,其实只是一个字符串,无法从中获取我们想要的键值对。 我们通过go templete语法,提取字符串里的数据。 将该内容填写…

    2022年12月8日
    2.3K00
  • Ping命令详解

    命令简介 ping 命令是 Linux 系统中一个非常常用的网络命令。ping 命令主要用于测试网络的连通性,也可用于测试网络的性能和主机的响应能力。 日常工作中,我们经常会遇到网页无法打开、网址无法请求的情况。这个时候我们的一般操作是 ping 一下网址,比如 ping baidu.com 使用 …

    2023年1月4日
    40100

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

在线咨询: QQ交谈

邮件:712342017@qq.com

工作时间:周一至周五,8:30-17:30,节假日休息

关注微信