首页 > 范文大全 > 正文

计算机网络故障管理技术的智能化研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇计算机网络故障管理技术的智能化研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:本文介绍了网络故障管理系统的基本功能,并简要分析网络故障管理专家系统及知识发现系统。提出将分布式智能Agent用于计算机网络故障的智能管理

关键词:网络管理;故障诊断;智能化;专家系统

中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)25-1530-02

Intellingence of Technology for Computer Network Macfunctions Management

HUANG Xiao-ming

(Guiyang Medical College of Computer Education Centre, Guiyang 550004, China)

Abstract: This article introduced basic function of network trouble management system, and analyze network trouble management expert system、knowledge discover system briefly. Proposing intelligence management of computer network trouble by using distrubuted intelligence Agent.

Key words: network management; trouble diagnosing; intelligentification; expert system

1 计算机网络故障管理的概述

故障是指软、硬件的缺陷;错误是指软硬件的不正确输出;失效是指所有和某故障有关的错误造成的网络的非正常运行。故障管理的主要任务是及时发现并排除网络故障。

一个网络管理系统应具有五大功能:故障管理、配置管理、性能管理、计费管理和安全管理。其中故障管理是最基本,也是最重要的功能,它保证网络能够连续可靠地运行。如果网络服务运行中意外中止,将会对(教学、工作)生产、生活造成很大影响,这就需要一套科学的故障管理策略,及时发现故障、排除故障。

网络故障的管理系统一般包括三个步骤:

1.1 故障检测

网络设备一般都具有感知异常情况的能力,当设备发现自身或网络中的不正常现象,它采用告警的方式报告给网管中心。因此,故障检测一般由网络中的设备来完成。

1.2 故障诊断及推理

故障会在网络中传播,所有感知到故障的网络对象(包括物理对象和逻辑对象)都会发出告警,在一个大型网络中,一个故障可能会引起大量的告警。故障诊断就是对网络设备发出的告警进行相关处理,从一大堆的告警中找出故障发生的真正原因。

1.3 故障排除

根据识别的故障原因,自动地或手工地对网络进行控制操作,恢复网络的正常运行。

2 网络故障诊断专家系统AngelES

网管系统IIENMS是包括主管理者/Web服务器层、子管理者一层和网元层的三层体系结构的综合智能网络管理系统,主要功能包括配置管理、性能管理、故障管理和安全管理。AngelES作为IIENM故障管理的一个子模块,其主要功能是实时一接收网元层设备发送的Trap告警信息,经必要的模式转化后与规则库中的规则进行匹配,然后向网络管理系统返回可能的解决方案和相关的故障诊断信息。

AngelES的特点集中体现在两个方面:首先它是实时在线的专家系统,它能对网络中的突发故障作出响应,并将故障诊断结果及时反馈给网管系统;其次它的知识获取是来自基于数据融合技术的知识发现系统DFSKDS,从而使该系统具有更高的实用价值和可靠性。因此AngelES对于提高网管系统的实用性、智能化和健壮性有重大意义。

AngelES主要由知识库、事实库、推理机和故障诊断四大模块构成,下面分别介绍各个模块的具体实现:

2.1 知识库

知识库管理模块主要完成知识获取、浏览、更新和存贮。Clips对于知识(规则)的描述有一定的语法格式,并在系统内部维护一张知识表。通过调用Clip、的相关外部函数GetRule-List, GetMFValue, GetDefrulePPForm等,可以在CLIPSFD中实现对知识的管理。

DFSKDS与CLIPSFD是松藕合的关系,被设计为离线方式配置在网络答理中心。DFSKDS强调多数据源的数据融和和基于序列事件的增量挖掘,通过它发现的关联规则可分为以下类型:

(1)告警―告警关联规则,如:如果A类型告警发生,那么在5秒内B类型告警发生的概率为80%;

(2)告警―故障关联规则,如:如果A类型告警和B类型告警在10秒钟内相继发生,那么70%的可能是设备D故障;

(3)告警―业务关联规则,如:如果A类型的告警发生,那么在15分钟内S类型的业务障碍申报产生的概率为80%。

告警―告警关联规则可以用来进行告警过滤和告警关联;告警―故障关联规则则用在故障定位和故障辨识;特别的告警―业务关联规则对于业务障碍的迅速恢复有非常重大的意义,能够在网络业务未受到严重影响或中断之前发现业务系统中的潜在问题并给予有效的处理,从而保证业务的健康、稳定运行。

2.2 事实库

事实库管理模块主要完成事实获取、浏览、更新和存贮,与知识库的管理类似。AngelES通过Socket通信接收来自IIENMS网元层设备发送的Trap原始告警信息,再将其转换为可供显不/浏览及后续处理的标准格式存放在事实表中。对任何一条告警信息包括告警时间、告警源、告警类型、告警级别、告警描述等内容。

2.3 推理机

推理机用于实现基于规则(知识)的事实推理,从而得到故障的诊断结果。基于Clips的专家系统在执行规则时,要把规则中的各个模式同事实表中的事实进行匹配。若所有模式均有事实与之匹配,则规则被“激活”,并置于“待议事件表”中。AngelES的推理机制就是每当接收到来自IIENMS网元层设备发送的Trap告警信息,就将其与规则表中已存在的所有故障诊断规则进行匹配,并调用Clips的系统函数Run返回被“激活”规则的结果。

2.4 故障诊断模块

是整个网管系统故障管理的一部分,负责网络故障定位和故障预测。一旦整个网络系统有设备上报Trap,IIENMS除进行必要的告警板显示故障信息外,会通过Socket通信自动、实时地将此告警信息发送给等待进行故障诊断的AngelES。AngelES将接收到的Trap进行必要的格式转化后存入事实库,基于知识库中的规则和Clips的推理机制进行推理,并将推理的结果通过Socket通信返回网络管理系统IIENMS。这一部分设计为后台运行方式,在启动IIENMS的同时启动AngelES。

3 智能化网络故障管理

在专家系统中,对知识的表示有逻辑表示法、语义网络表示法、规则表示法、特性表示法、框架表示法和过程表示法。产生式表示法,即规则表示法,是最常见的一种表示法。其特点是模块性、一致性和自然。知识库是知识的集合,严格意义上的知识库包括概念、事实和规则只部分,缺一不可。

而在上述传统的集中式网络故障管理模式中,所有故障管理报告被送到网管中心进行处理,此时网络中的设备是没有网管智能的,只有管理者才能执行故障诊断等功能。为了提高故障管理的智能水平,最佳途径是采用智能Agent技术来构造Agent。通常人们把这种具有分布式特征的智能Agent实体称为分布式智能AgentDIA。其基本思想是如果故障发生在局部区域(称为管理域),就在本地进行处理,而没有必要将本地的故障报告给网管中心管理者去处理。这样,可把具有特定网管职能的DIA派往更接近于被管理域的地方做出基本决策。

3.1 分布式智能故障管理的系统结构

在分布式智能故障管理系统中,将整个网络分为若干个区域,称为管理域,每个管理域对应一个负责管理该域故障的DIA,在此称为面向领域的分布式智能DODIA。管理域是一个抽象概念,它可能是一个子网、主机或功能单元。对于DODIA都无法解决的问题,允许DODIA向网管中心报告,以便网管中心进行全局考虑并协同解决问题。因此,整个系统是一个分布式、协同工作的多系统。它主要包括:故障检测模块和故障管理模块两个部分。

3.2 分布式智能故障管理系统的系统功能

该系统分不同的管理域,由DODIA对其进行监视并报告管理域的情况,并协同网管中心对整个网络进行有效的故障管理。DODIA通过分析系统的监测数据、报警信息和用户报告,获得当前系统的行为状况,从而产生关于故障的假设并对其进行测试。对发生的故障,通过神经网络和专家系统的集成故障诊断系统对其进行分析并诊断出故障的原因。在给出可能故障原因的前提下,由系统自动或有指导地手工完成一系列动作以修复故障,保留详细的故障处理记录。DODIA不能解决的故障问题,由CAM向网管中心报告,由网管中心协同处理该故障。该系统是基于DIA的故障管理系统,在功能上较传统的故障管理具有较大的优越性。

由于每个DIA是自主的和自包容的实体,它代表网管中心去各个管理域解决某个特定的故障问题,其间不需要网管中心的直接干预,具有很好的主动性。DIA之间也可分工协作以完成较大型的管理任务,在访问和处理远方的网络资源时,可灵活地从一个管理域迁移到另一个管理域。此外,包含一定的智能,其范围从预先指定的规则到自学习、自适应功能。

4 结束语

文中分析了网络故障的类型,提出将分布式智能Agent用于计算机网络故障的智能管理。实验表明,计算机网络故障的智能管理提供了基于知识的决策手段,比传统的管理方式具有更高的决策水平,为专家系统技术在故障的检测和隔离方面更加广泛的应用,奠定了一定基础。

参考文献:

[1] 赵志囡,李剑锋,贾志雷.计算机网络中的服务[J].现代情报,2006,26(11):214-215.

[2] 苏玉北.基于DIA的分布式智能网络故障管理[J].计算机工程与应用,2007:36(8):30-32.

[3] 白英彩.计算机网络管理系统设计与应用[M].清华大学出版社,1998.