企业如何做好业务监控​?

大部分企业都会做基础设施监控,觉得做好基础设施监控就可以解决大部分问题。至于业务方面监控,等有人来说了再处理就行。殊不知这种想法会有诸多隐患。

企业如何做好业务监控​?

为什么要做业务监控?

通常情况下,大部分企业都会做基础设施监控,觉得做好基础设施监控就可以解决大部分问题。至于业务方面监控,等有人来说了再处理就行。殊不知这种想法会有诸多隐患:

1、运维比业务部门经常晚发现业务有问题。

因为业务有问题会最先爆出来,等到基础设施出问题往往已经过了几分钟了。此时业务可能已经焦头烂额了。

2、由于发现业务问题较晚,这个时候有相互调用关系的业务可能也出现了问题。

导致业务故障定位较困难。如果做了业务监控,且做到妙极监控,那么当大量业务出现问题时,我们就能根据最先告警的来判断是哪个业务故障引起的。

3、危害公司利益和自身前途。

第三点也是最要命的,由于上述两个问题导致运维在业务部门乃至整个公司留下不良的影响,长此以往不仅会给公司带来经济损失,对自己的前途也是非常不利的。

因此做好业务监控,可以说是每个运维人员必须要完成的一个任务。

业务监控要做哪些?

企业如何做好业务监控​?

1、Web站点监控

企业如何做好业务监控​?

对公网服务的Web站点,无论是SAAS的还是在我们自己部署的站点都需要进行站点URL监控。公网站点监控建议使用商业服务进行监控,因为这些服务通常可以从多个地域来检测你当前站点的访问情况,通常是站点状态码和响应速度的监控。

对内网服务的Web站点也需要监控,因为内网是无法从公网访问的,所以内网建议使用自建Prometheus去监控站点的状态和响应速度。

2、健康检查接口

此处做服务健康检查接口监控,提供一个或多个监控API,监控应用自身状态、监控应用和数据库连接状态,监控应用和中间件连接状态。

健康检查接口建议统一使用/health路径的接口,如果是三个接口那么/app_health代表服务、/db_name_health代表数据库连接状态、/middleware_name_health代表中间件连接状态。

单独接口返回APP_OK,db_name_OK,middleware_name_OK,多个接口返回OK表示服务和数据库和中间件正常。

有些JAVA的Sprint框架是自带健康检查接口的,这些直接使用即可。

3、日志监控

首先,所有业务日志要接入日志中心。哪些关键字需要做告警?需要项目经理和开发负责人讨论给出。确保有必要的关键字做告警,避免告警的泛滥。

4、链路追踪

企业如何做好业务监控​?

链路追踪可以有选择性的接入,如果业务比较简单平时运行着也没有什么问题可以不用接入。一般业务如果上下游调用链较多,且业务逻辑比较复杂,同时会有大并发需求,对响应速度要求也比较高的可以接入。

主要给用户解决找出响应时间较长的API,并查看是否函数中存在问题。有些商业的链路追踪工具还可以看到SQL语句的问题。这些都可以帮助开发人员更好更快的解决业务代码中的问题。

5、大屏监控

针对业务大屏,首先我们要考虑哪些业务数据要放到大屏中?这里建议放业务负责人或管理层关心的数据。比如:

· 用户在线人数。

· 用户订单实时量数据。

这些数据能让业务负责人或管理层直观的看到当前的业务状况.还可以针对一些预估的异常值进行告警配置。

如何做好业务监控

企业如何做好业务监控​?

做好业务监控并不容易,所以这也是很多企业没有做或做的不够完善的原因。要做好业务监控得一步步来。首先,你要有业务监控其次我们需要对业务监控进行梳理,确保所有的监控项都是有意义的。最后,我们要有业务监控巡检和告警处理的流程和机制,确保所有业务监控被发现和及时处理。

另外,业务监控并非仅限于上面所描述的5类,如果一个企业有和业务相关的需要被监控,且并不再上面描述的类型中,都可以通过一些工具或自定义的手段来完成定制化的业务监控需求。

做好业务监控,我们才能让运维的价值得到充分的体现。

文章来源:https://www.cnaaa.net,转载请注明出处:https://www.cnaaa.net/archives/10413

(0)
凯影的头像凯影
上一篇 2023年12月6日 下午3:46
下一篇 2023年12月7日 下午3:17

相关推荐

  • Proxmox VE 网络配置 NAT共享IP 端口映射iptables、brook

    配置桥接网卡,使Proxmox VE(PVE)可以同时创建NAT虚拟机和独立IP虚拟机,同时可以使用脚本映射NAT虚拟机的端口到外网。 1、开启ipv4、ipv6转发 文件最后加入如下配置 2、 配置Proxmox VE网卡文件信息 新增一个vmbr172网桥,并设置流量转发 重启 3、 搭建DHCP服务器 4、 内外网端口映射转发 Pv4是经过内网转发的,…

    2023年8月2日
    6.4K00
  • 小小的网络故障,带来深深的思考,运维的成败果然在于细节

    早晨8点多,收到Zabbix的邮件告警,显示客户的戴尔服务器和爱快路由器掉线了,由于该客户的机房之前有过多次停电,症状当然也是如此这般,加上客户没有电话或者微信报修,就先入为主地判定为机房又停电了,因此未采取任何措施。 直到过了下班时间,客户才反馈:外网无法使用向日葵远程控制服务器。因为不止一次,也就直说了,是不是机房又没电。 客户反馈有电,照片显示服务器处…

    2024年5月21日
    1.1K00
  • 网管最后的倔强——你要上网可以,但是走哪条链路由我说了算

    作为一名合格的网管,除了修得了电脑,还要换得了灯泡;除了能折腾服务器,还得做好物业服务,要么擅长通下水道,要么会修中央空调。 但是,千万别说网管没脾气,他们也有倔强的时候,比如说,你想要上网,那没问题,但是走哪条链路(上高速还是走国道),那就是网管说了算。 如上图所示,公司有两条外部网络链,其中,左边一条是高速链路,网关为10.1.10.1/24;右边一条是…

    2024年5月22日
    96700
  • 深入浅出TCP中的SYN-Cookies

    SYN Flood 攻击 TCP连接建立时,客户端通过发送SYN报文发起向处于监听状态的服务器发起连接,服务器为该连接分配一定的资源,并发送SYN+ACK报文。对服务器来说,此时该连接的状态称为半连接(Half-Open),而当其之后收到客户端回复的ACK报文后,连接才算建立完成。在这个过程中,如果服务器一直没有收到ACK报文(比如在链路中丢失了),服务器会…

    2023年7月29日
    1.2K00
  • TCP的几个状态 (SYN, FIN, ACK, PSH, RST, URG)

    在TCP层,有个FLAGS字段,这个字段有以下几个标识:SYN, FIN, ACK, PSH, RST, URG。 其中,对于我们日常的分析有用的就是前面的五个字段。 它们的含义是: SYN表示建立连接, FIN表示关闭连接, ACK表示响应, PSH表示有 DATA数据传输, RST表示连接重置。 其中,ACK是可能与SYN,FIN等同时使用的,比如SYN…

    2022年11月19日
    1.8K00

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

在线咨询: QQ交谈

邮件:712342017@qq.com

工作时间:周一至周五,8:30-17:30,节假日休息

关注微信