首页 > 范文大全 > 正文

网络故障诊断技术概述

开篇:润墨网以专业的文秘视角,为您筛选了一篇网络故障诊断技术概述范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:对网络故障诊断技术进行了概述。介绍了网络故障诊断的基本概念及一般过程,重点对网络故障诊断中的故障检测、定位、原因诊断三个主要阶段的关键技术和方法进行了深入研究,总结了相关领域经典主流方法,并给出了方法具体过程和细节。

关键词:网络故障;故障检测;故障定位;故障诊断;专家系统;数据挖掘;神经网络

中图分类号:TP393.06

随着计算机、通信以及互联网技术的飞速发展及应用,网络作为一种重要的工具,在军事、政治、经济和科研等诸多领域起着越来越重要的作用,已经成为社会生产和生活必不可少的一部分。与此同时,网络的规模和复杂性不断增大,一旦网络发生故障,如果不能在有效时间内对网络故障进行诊断与修复,将会造成巨大的损失,甚至严重威胁社会的安全与稳定,因此对网络故障诊断技术进行研究具有越来越重要的应用价值和现实意义。

1 网络故障诊断一般过程

通常来说,网络故障诊断是以网络原理、网络配置和网络运行的知识为基础,根据网络出现的故障现象,并使用专门的网管理和检测工具以获取告警信息进而对网络中出现的故障进行诊断、恢复以及预测的过程,一般可分为以下五个部分[1]:

(1)故障检测,即网络故障告警信息的获取。网络发生故障时,通过主动轮询或异步收集方式,对网络中的相关设备或服务的相关告警信息、设置和性能参数,状态信息等进行收集和分析,及时发现网络出现的故障及问题。

(2)故障定位,即定位故障源。对故障检测阶段收集的海量告警数据进行分析和处理,在网络中找出故障,为下一步的故障原因的诊断提供依据。

(3)故障原因的诊断,即查找故障产生的根源。根据故障定位的结果综合运用各种规则进行系统的推理,快速的找到故障产生的原因或者最可能的原因。

(4)故障修复。根据网络故障诊断结果修复网络故障,恢复网络的正常运行。

(5)故障预测,即根据先验知识和监测数据预测网络可能发生的故障。

其中故障检测,故障定位,故障原因诊断是必不可少的三个步骤,下面将重点对上述三个步骤进行详细的介绍。

2 网络故障检测

通常计算机网络通过以下两种方式收集信息,通过分析收集到的信息来检测故障[2]。

(1)Trap机制。在网络中每一个被管设备中都要运行一个程序以便和管理站中的管理程序进行通信。

(2)主动轮询。网络中发生故障的被管设备或服务主动向网络管理系统发出告警信息,能够及时发现网络中的故障,网络管理系统还需通过主动轮询这种方式了解与网络性能密切相关的信息,并对这些影响网络性能信息设置阈值,来判断网络性能,超过设定阈值也会触发事件。

3 网络故障定位

网络系统中,一般通过监测被管设备或服务等各种方法获取大量原始告警数据或历史积累信息,这些数据往往由于通信系统的复杂性、网络结构异构性、噪声、外界因素、因果关系等原因而具有相当大的不确定性和不精确性,导致故障症状和故障原因都存在非线性映射关系,需要利用关联技术对数据进行处理和分析才有效的进行故障定位[3],目前常用的故障定位技术主要有下面几种:

3.1 基于人工智能的故障定位技术

3.1.1 基于规则的推理技术

基于规则的推理(Rule-based Reason,RBR)是最简单的关联技术,已被用于多种构架。一般而言,基于规则的系统由三个组成部分组成,如图1所示。

(1)推理引擎,主要提供解决问题所需要的策略。

(2)知识库,提供和定义与问题相关的规则和专家知识。

(3)工作内存,主要提供解决问题所需要的数据。

在基于规则的推理的网络故障定位系统中,知识库充当一个专家的角色,利用从人类专家获取专家积累的经验和知识,这些知识主要包括对网络问题的定义以及当某一特定问题发生时,网络故障定位系统需要执行的操作。工作内存主要是利用具体的网络协议对网络中的被管设备或服务进行监测,得到有关被管设备或服务的各种信息。在对网络故障进行定位时,推理引擎与知识库共同合作,将监测得到的网络中被管设备或服务的状态信息与知识库中定义好的条件部分进行比对,根据条件满足与否,来进行网络故障的定位。

基于规则的网络故障定位系统,由于无需对专家系统的具体结构和操作细节进行深入了解,从而具有结构简单等诸多优点,并且实现起来比较简单,非常适用于小型系统。但是基于规则的网络故障定位系统在匹配规则时,需要网络状态与知识库中的规则条件精确匹配,否则将推出整个推理过程,无法定位故障,并且规则存在不易维护性和指数增长性,所有这些缺点决定了基于规则的网络故障定位系统不适用大型系统。

3.1.2 基于模型的推理技术

基于模型的推理(Model-based Reason,MBR)是建立在面向对象上的基础之上,利用现有的专家经验和知识,将具体的目标系统中的实体都模型化诊断对象,并且明确地表现出现实目标系统中对象之间存在的各种关联关系,再根据系统模型对具体的目标系统的行为进行推测。由于通常情况下,具体的目标系统与理想的系统模型之间存在差异性,因此基于模型的推理的专家系统需要对推测的行为和目标系统的实际行为进行不一致诊断,以确定具体目标系统中的故障根源。

为了更好地说明基于模型的推理专家系统的工作流程,文献[4]使用一个物理模型和对应的对等模型分别如图2、3所示的网络系统。网络系统按一定的周期,有规律的向图2中的被管设备发送ping命令以监测网络系统中的被管设备是否运行正常。管理系统和被管设备之间通过一个模型对象实现彼此之间的相互通信,具体来说,如图2所示,系统中的集线器模型向被管设备集线器发送ping命令,路由器模型则向被管设备路由器发送ping命令。当目标网络发生故障时,如果故障发生在集线器1,则集线器1模型可以将其发现并且识别出来,如果集线器1模型连续3次向被管设备集线器1发送ping命令,在3次响应超时以后,集线器模型1根据现有的网络现象推测被管设备集线器1有可能发生故障,或者说目标系统中的故障位于集线器1。集线器1模型则会在确定故障并正式发送告警信息之前,集线器1模型将分析自身与图2中其他被管设备的模型之间的关系以此来确定其是否应该询问网络中路由器模型,如网络中的路由器模型返回的是相应的被管路由器设备工作处于正常状态,则集线器1触发警报。

3.1.3 基于范例的推理技术

基于范例的推理(Case-based Reason,CBR)故障定位技术与前面的基于规则推理技术和基于模型推理技术相比具有很大的差异性,主要因为基于范例的推理技术的思想源于人类现实生活,主要根据过去积累的实际经验或经历,利用类比的推理方法对现有的新问题做出相似的解答,然后根据新问题与旧问题之间的差异对解答进行修改从而得到新问题的完全解答。基于范例推理的网络故障定位技术主要由四个部分组成,检索 (Retrieve)、复用(Reuse)、修正(Revise)、保存(Retain),简称4R过程。

基于范例推理的故障定位技术与基于规则推理的故障定位技术相比,由于在基于范例推理的故障定位技术中检索只是基于对案例的部分匹配,而基于规则推理的故障定位技术则是完全匹配,因此基于范例推理的故障定位技术对网络配置变化的适应度更好,更适用于问题的总体解决方案。

3.2 模型遍历技术

模型遍历技术(Model traversing techniques)是一种构建网络故障传播模型的方法,该方法在构建故障传播模型时,主要根据网络在运行时各种被管对象之间的相互关系,并且按照从引起事件的被管对象开始的顺序进行构建。该方法主要适用于网络中被管对象之间的相互关系类似于图形,并且一般情况下较容易获取的情况,并且在系统配置变化较频繁时该方法的鲁棒性很好。模型遍历技术主要具有两大特点,事件驱动和事件关联,所谓事件驱动是指在一个故障症状报告到来之前,系统一直处于等待故障症状状态;事件关联则是确定两个故障症状是否来源同一个事件源。

一般情况下,模型遍历技术需要在其事件报告中明确标识网络系统中故障的征兆类型、征兆目标等相关信息,如果网络系统中出现故障征兆,且不妨用si来表示该故障征兆,当si的目标和si来源相同,则说明si是一个次要征兆也就说明某些告警信息可以被忽略。模型遍历技术的整个处理可分为以下3步:

(1)首先,对网络中的每个事件,依据网络在运行时各种被管对象之间的相互关系对其构建一个和事件源相关的对象图。

(2)当给定的两个事件的对象图相交时,此时说明两个图至少包含同一个对象,则认为这两个对象图的事件源是关联的。

(3)当给定三个故障症状si,sj,sk,其中si,sj相互关联,sj,sk相互关联,则根据故障症状的传递性可知si是一个次要的故障症状。

4 网络故障原因诊断

(1)基于信号处理方法。该方法主要是依据信号模型,直接对网络系统中的可测信号进行分析与处理,并通过提取可测信号的频率等特征值,对网络中存在的故障原因进行诊断。

(2)基于解析模型的方法。基于解析模型的方法主要依据数学模型和数学方法来进行故障原因的诊断,在诊断时需要建立对象的精确数学模型。

(3)基于知识检测的方法。与基于解析模型方法相比,此方法最大的特点在于其并不需要对象的精确数学模型就可以对网络中的故障原因进行诊断。

下面主要介绍几种目前国内外研究学者研究比较多的基于知识检测的方法,基于专家系统故障原因诊断方法和基于模糊理论故障原因诊断方法以及基于BP神经网络故障原因检测方法。

4.1 基于专家系统故障原因诊断方法

基于专家系统故障原因诊断系统主要是利用人类专家的经验和历史积累诊断数据,使用一定的方法将其转化为系统能够识别的规则存在专家系统的知识库中。当网络中出现故障时,诊断系统利用专家系统知识库中的规则,对发生故障网络中的被管对象的各项性能参数进行处理与分析以正确的确定网络故障发生的具体原因[5]。组成由人机接口、推理机、知识库等六部分组成:

目前,国内外学者公认的专家系统瓶颈是知识获取问题,因为专家系统在诊断过程中主要依赖于从人类专家领域内获取的知识、经验和以往诊断数据,而这些获取起来途径有限,操作起来具有一定的局限性和复杂性。另外,专家系统在实时性和学习能力等方面也存在一定的局限性,因此目前通常将专家系统同其他方法相结合以提高专家系统在这些方面存在的局限性和不足。

4.2 模糊故障诊断方法

很多时候,网络中的故障与系统得到的网络现象之间存在非线性的映射关系,这种非线性的映射关系很难用确定的数学公式或者模型来刻画,相应的在故障原因诊断时,很难给出故障的精确原因。相反,只能给出故障发生的可能原因。对于这种存在一定模糊性的问题,可以使用模糊逻辑来解决。

目前使用的比较多的是向量识别法,其诊断过程可分为以下3步:

首先,需要根据网络中的故障与表征网络故障的数据,建立二者之间的关系,通常用关系矩阵R来表示。

其次,对需要诊断的目标网络系统(对象)进行状态检测,提取相关的特征参数以构建特征向量矩阵X。

最后,根据模糊理论和矩阵理论,求解前面两步构建的关系矩阵方程Y=X・R,得到关系矩阵方程的解Y,再根据隶属度等原则,对目标网络系统的故障向量Y进行处理,得到故障的原因。

从上述诊断过程可知,在模糊故障诊断中,正确的进行故障原因诊断的前提是建立关系矩阵R、隶属函数、特征值向量X,而这些矩阵、函数、向量的建立是人为构造而成,难免具有一定的主观性,并且由于该模糊诊断方法对特征元素的选取也有一定的要求,所以两者若处理不当,会导致该方法的诊断结果精度严重下降甚至完全错误。

4.3 BP神经网络诊断方法

由于人工神经网络的这些特性以及网络中故障与征兆之间有可能存在的非线性映射关系,使得人工神经网络在网络故障诊断中大有用武之地。目前,人工神经网络已经大量应用在网络故障诊断领域。BP神经网络是常用的人工神经网络模型[6]。

BP神经网络故障诊断分为训练和诊断两个阶段:

(1)训练阶段。BP神经网络对样本进行训练,以选定网络结构和规模,确定网络总层数、各层神经元数。借助BP学习算法,将原始网络收集到的故障样本的特征参数作为BP神经网络输入样本集,以与之对应的网络故障原因编码为BP神经网络的输出,以此对BP神经网络进行训练。

(2)故障诊断阶段。主要对待检测对象的故障样本进行特征提取和归一化处理,然后输入到BP神经网络进行诊断输出诊断结果,整个过程分为以下4个步骤:1)故障样本集预处理。2)BP网络结构设计。3)训练BP神经网络。4)故障诊断。

5 结束语

本文对网络故障的概念以及基本过程进行了概述,重点对当前网络故障中的故障检测、故障定位、故障诊断的关键技术及方法进行了研究和总结归纳,对开展网络故障诊断技术研究具有一定的指导意义。

参考文献:

[1]王成等.网络故障诊断技术研究[J].科技信息,2011(11).

[2]陈琳.一种网络环境中的故障诊断模型[J].北京航空航天大学学报,2004(11).

[3]张燕.网络故障诊断关键技术[J].电脑知识与技术,2009(31).

[4]李千目.战略互联网智能诊断技术研究[D].南京理工大学,2005.

[5]吴晓知,李兴明.网络故障管理专家系统中知识库的构造[J].微计算机信息,2008(06).

[6]戚涌,刘凤玉.基于BP神经网络的网络智能诊断系统[J].微电子学与计算机,2004(10).

作者简介:张璋(1987.12-),男,安徽蚌埠人,硕士研究生,研究方向:网络安全、身份认证。

作者单位:南京理工大学 计算机科学与工程学院,南京 210094