主机知识库
分享服务器知识

服务器“异常”的6个可能性预警

腾友边肖知道,用户都已经听说了服务器,的停机时间,但当谈到服务器,的停机时间检测时,人们可能会认为服务器很快就会知道停机时间。这个问题还能怎么办?但事实上,当服务器大部分地区都不景气时,用户是无法及时察觉的。今天,本文滕友边肖来简单介绍一下服务器可能出现的六种“异常”警告

停机是指操作系统无法从严重的系统错误中恢复,或者系统硬件出现问题,导致系统长时间没有响应,必须重启计算机的现象。是电脑操作的正常现象,任何电脑都会发生这种情况。

服务器停机时,ping或ssh是最简单的方法,但真正的工程实践并没有这么简单。

如果你想知道服务器倒下了怎么办?用户可以通过服务器停机时间实时检测:

1)发现停机。

2)预警。

3)告知停机的详细原因,如硬件故障、内核bug、网络异常等。

4)自动维修报告生成工单。

我们用户要知道,全网物理机停机的准确检测和实时发现,可以为停机分析提供第一个站点,获取第一个站点的日志。您还可以将停机数据推送到业务或运营感知,并尽快进行处理,如自动维修服务和业务迁移,以尽可能减少业务影响。

更重要的是,准确的服务器停机时间发现数据可以为停机时间预测提供准确的标注数据,为后期停机时间预测提供数据依据,这些数据可以提供给运营部门进行整体分析,提高处理效率。

那么,用户如何准确找到服务器停机时间呢?减少假阳性呢?您可以执行以下操作,例如:

1.异常消除

排除非物理机,排除系统中暂时忽略的虚拟机产生的异常信息。

排除处于非业务状态的计算机,例如处于已安装状态的计算机,包括处于生产、维护、迁移、重新安装、销毁、重新启动、无控制状态的计算机,并且仅监控处于正常状态的计算机。

排除不工作的机器,如不工作的机器。

2.消除网络干扰

停机分析中,很多误报是由于网络问题的干扰,无法准确判断物理机是否停机,可能是网络问题。

消除网络设备异常导致的误报,包括机房断线、小区域网络故障、上行网络故障等做法。比如通过检测丢包,用一些逻辑初步判断网络问题。

除了过滤掉网络问题之外,服务器还应该通过数据包丢失数据分析来过滤掉服务协议误报。SA异常会报告心跳异常,被曲解为停机。

Icmp和tcp丢包分析,icmp采集频率固定几秒,包括多个不同大小的丢包(16、32、64、128、256等。),根据分析时间窗口中两项数据的丢包情况,

3.消除特殊情况下的干扰

在一些机房,会出现大规模的暴风雨般的不合理心跳异常,而网络ping包异常,但上行网络设备ping包正常。这种虚警一般根据具体情况来分析。例如,根据监控每个机房的报告频率,消除干扰。

4.进一步识别假阳性

至此,大部分干扰都被过滤掉了,但其中还是隐藏着一些假阳性。比如心跳异常、ping异常都符合停机判断的逻辑,会导致误判为停机,比如网卡被炸或者重试率高,这是业务原因造成的,但业务认为不是异常,需要排除。另一个例子是服务器没有死亡,但输入输出延迟和资源占用指标异常的情况。针对以上情况,增加正常运行时间判断和带外日志分析调查。

停机点探测正常运行时间,以确定是否发生了重启。

此外,分析日志是否连续,以判断重启是否发生。

记录重启特征值是否匹配,并确认重启是否发生。

如果您还不确定,请使用正常运行时间的时间窗口技术重新启动。

对于还不确定的待处理,进入长尾处理列表。

5.长尾被再次处理

未确认的要处理的会加到长尾列表中,比如分钟内心跳异常,ping,但是串口日志已经正常输出,通常是某种崩溃的场景,以至于连网络都被屏蔽了。会观察一段时间,如果在固定时间窗内没有恢复或重启,会临时报告停机。后面这种崩溃会单独分类。

6.异常心跳源检测

顾名思义,通过心跳源,初步发现异常。心跳变化一般有三种:更新消息、删除消息和插入消息。心跳逻辑是,正常情况下,SA服务器与NC建立长连接,每隔几秒缓存心跳,每隔几分钟打包上报。但当NC出现异常时,长连接感知并立即报告异常,修改路由表。因此,异常的心跳是在几秒钟内感知到的。

更新消息,在心跳变化时会出现,在心跳异常,心跳恢复正常时会启动,是主要的心跳来源。

删除消息,心跳异常时发起,SA判断ping失败,ssh失败。删除此消息以避免过长的延迟。

当添加新机器或重新安装机器时,会启动插入消息,这对于停机时间发现没有什么价值,并且与正常运行时间一起使用。

心跳源检测的任务逻辑主要是监控和缓存正常运行时间消息,避免在时间窗口内出现多个消息冲突,导致信息被覆盖。

上面介绍了这么多,会有什么效果?

准确率和覆盖率来看:
  准确率:目前发现的服务器宕机中有很高准确度,可以区分出真正宕机或者未宕机。而判断为宕机的数据中,也存在少量的,由于缺少相关信息导致误报,该部分将进一步优化,逐渐降低误报,在新的措施之后,该比例会接近0。
  覆盖率:当前统计的覆盖率已经能很好的支撑日常服务器宕机处理,该数据在有足够的特征后,会进一步提升。
  目前,服务器宕机感知是宕机分析的基础,通过服务器宕机实时检测,会把相应的宕机原因分布整理出来,明确具体的原因,达成服务器极致可靠性。
  看了以上本站小编为各位整理的关于服务器“异常”的6个可能性预警的介绍,希望用户在遇到服务器宕机的时候会第一时间知道,上面所介绍的服务器宕机的一系列问题,希望能帮助到想要了解服务器宕机方面信息的朋友们。
(服务器内容来源于IDC同行,若侵权,请联系我们删除)

赞(0)
文章名称:《服务器“异常”的6个可能性预警》
文章链接:https://www.cmy.cn/host/10991.html
版权声明:茶猫云所有发布的内容,部分为原创文章,转载请注明来源!网络转载文章如有侵权请联系我们解决!
最新优惠:茶猫云VPS服务器