首页 > 文章中心 > 网络故障诊断

网络故障诊断

开篇:润墨网以专业的文秘视角,为您筛选了八篇网络故障诊断范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

网络故障诊断范文第1篇

目前,微信虽然刚刚兴起,却在大学生中迅速的扩散。根据调查显示,目前94%的大学生使用具备上网功能的智能手机,微信在大学生中扩散率达到80%。由此可见,使用微信作为网络故障专家系统的载体,可以更快捷更高效的服务在校大学生[1]。本文利用微信在大学生中的广泛使用的优势,提出了基于微信移动端的网络诊断平台。该平台使用多种知识表示方法并结合模糊推理,制定出适合的诊断策略,充分利用微信的多功能互动效果,开发出的网络诊断专家系统平台。

2网络诊断专家系统的设计与开发(Designanddevelopmentofexpertsystemfornetworkdiagnosis)

2.1系统创设的总体架构

系统采用分层分布式结构,将系统分为:(1)腾讯微信服务端链接交互的模块。(2)微信信息分析模块。本模块用于将用户发送来的文字信息、图片信息、音频信息转换成专家系统使用的、包含系统关键字的可用信息。(3)网络故障诊断模块。本模块是本文系统的核心模块,通过使用故障树诊断模型来判断用户网络故障。(4)网络故障信息返回模块。通过本模块,可以将诊断模块的诊断结果返回到用户微信中,为用户提供网络故障判断和解决方法。

2.2知识库的设计

本研究的知识数据主要来源于网络维修中的实际维修经验的汇总。对于各种网络问题症状矩阵,症状只是表示为:。各种网络症状的权重集为:。每种网络症状在网络故障中的所占分值由网络维修专家打分,分数集为:。诊断结果集:。其中,Di表示某种网络问题,Zi表示Di问题的各种显式症状。将用户输入的症状和知识库中各个网络问题案例进行案例推理,诊断返回诊断结果:。R表示诊断结果的可信度;S表示诊断机构的诊断得分;I表示诊断结果说明,包括诊断出网络问题和有可能的成因等;T表示排除该网络问题的解决方案。本平台系统使用MySql数据库存放有关专家知识。根据以上分析,我们建立MySql数据库包含以下数据库表。(1)网络故障基本信息集:包括网络故障种类表、网络故障症状表。(2)网络故障诊断知识表集:包括症状向量表、症状-故障表、故障-排除故障表。(3)网络故障诊断案例记录表。

2.3诊断算法

本文的推理诊断采用基于案例的推理[2](CBR)的诊断方式。CBR是一种类比推理的诊断方法,它提供了一种近视实际人工诊断的思维模型来构建专家系统的新方法。CBR的研究方法只需利用案例中的已知案例就能达到诊断网络问题的目的,非常适合网络维修这种理论性不强,以实践经验为主的网络诊断专家系统。CBR的优点有可以节约大量匹配时间并且准确率较高,适合本文使用的微信这种实时性要求较高的系统[3]。案例的检索是案例推理的关键步骤,其主要目的是根据对现实中网络故障的症状描述和定义、从案例库中检索出尽可能少且较为符合症状的网络故障的一组相识案例为现实案例求解的依据。通常,案例知识的检索测率主要有最近相邻策略、归纳推理策略、知识导引策略和模板检索策略等。本文系统采用最近邻法作为检索策略,用过比较用户的输入故障描述和知识库中案例对比,选择距离最近、相似度最大的案例。

3系统平台应用实现(Systemplatformapplicationimplementation)

本系统使用微信公众号与用户交互,用户将网络故障症状发送至微信公众号上,系统自动获取用户网络故障症状信息,使用上文所述的诊断模块诊断网络故障。通过判断诊断结果,确定是自动诊断还是人工服务。

3.1系统的软硬件环境

本系统使用Java编程语言实现,以MySql6.0为数据库开发工具,以微信5.8版本为客户端。通过使用微信客户端,我们可以实现在安卓智能手机和苹果智能手机中无缝使用本文的网络故障检测平台,省去了用户安装更新手机APP的烦恼。在后台服务端,使用Spring3.0框架的Web服务后台,使用高效的proxool数据库连接池连接MySql6.0数据库,使用tomcatWeb应用服务器。

3.2系统使用实例

经过测试本文网络故障诊断平台能够识别网络维修中出现的常见故障。对300例实际网络故障检测中,有67个案例未诊断正确,失败率为22.3%;有49个案例诊断可信度在65%—85%,疑似成功率为16.3%;剩余的184个案例诊断可信度在85%以上,诊断成功率为61.4%;诊断的准确率为78.7%。诊断的正确率在实际使用环境中的较高准确率说明推理诊断算法选择合适,能够初步解决网络故障诊断的问题。而且平均诊断花费时间为1.32秒,完全适合微信这种快节奏的交互方式。但是同时需要说明的是,在实际使用过程中,用户对网络故障描述也需要一定的经验,并且要充分考虑网络连接的实际情况。对于部分连网络故障描述都不清楚的情况,也无从下手诊断。

4结论(Conclusions)

网络故障诊断范文第2篇

网络故障是影响计算机网络系统稳定性、有效性的重要因素。这就需要人们不断探讨计算机网络故障诊断和排除方法,从而确保通过不同通讯设备和线路进行信息交换、资源共享等的网络系统安全、可靠、稳定运行。

1.计算机网络故障的主要分类

1.1 计算机网络软件故障简要分析。计算机网络软件故障由于涉及到众多的软件和程序问题,所以比硬件故障要复杂,并且判断起来难度较大。其中计算机网络软件故障主要有以下几种类型:①网络卡的驱动程序问题;②网络协议的约定问题;③网络IP地址的预留与分配的问题;④路由器的内部编码程序配置问题;⑤网络下载速度过慢问题;⑥网络连接不正常,出现断网的问题。对于这些故障,由于都是由软件和程序引起的,所以我们可以称之为逻辑故障。

1.2 计算机网络硬件故障简要分析。对于计算机网络硬件故障而言,主要存在以下几种类型:①网络设备连接错误或者非正常连接;②未安装上网卡,或者上网卡安装错误;③网络线路存在断路现象,网络线路与网络控制模块在搭线和接线过程存在错接现象;④网络连接设备例如交换机或者路由器的电源和接线端口出现损坏,或者是设备内部的主板出现瞬间大电流损坏现象;⑤CPU的温度在使用过程中过高,并且计算机网络设备在潮湿或者静电较强的范围内工作,造成CPU或网络设备受到温湿度影响以及电磁干扰继而发生故障。由此可见,计算机网络硬件故障主要是硬件部分的损伤,因而我们可以称之为物理故障。

2.计算机网络故障诊断步骤

计算机网络故障诊断是从分析故障现象和原因出发的,用诊断工具初步诊断获得故障信息,确定发生故障的根源,并结合网络原理、网络配置和网络运行的知识,最后达到排除故障的目的,恢复网络正常运行。引发计算机网络故障的原因是多方面的,比如,硬件或者传输线路出现故障或者物理层中的设备连接不畅;数据链路层的网络设备的接口配置问题;上三层CISCO OSI或网络应用程序错误;传输层的通信拥塞和设备故障。计算机网络故障检查首先分析物理层,进而检查数据链路层。按照这样的顺序有条理的检查故障点,确定通信失败的原因,直到系统恢复正常。①弄清楚计算机网络故障的表现和具体现象,将计算机网络故障表现进行归类,并查找相关资料,看能否找到进一步的故障信息。②搜集故障和与故障相关的信息,为判断故障原因做充分的准备。③分析可能导致计算机网络故障的原因,根据计算机网络的故障表现,和前期搜集到的信息,确定故障原因。④根据计算机网络故障的原因制定诊断计划,便于整个故障排除工作的开展。⑤根据诊断计划进行故障排除,逐项解决存在的故障现象,最终使故障完全消除。⑥记录整个故障排除过程,为以后做准备,积累相似故障的处理经验。

3.计算机网络故障的诊断和排除方法

3.1 对应用层故障的分析判断和解决。应用层是计算机网络系统的嘴外层,主要作用是为应用程序的运行提供平台,其功能包括远程登录功能、文件传输处理功能、网络管理功能、文件邮件传统功能等。因为应用层的功能较多,所以其故障相对于其他层来说数量要多,故障原因也比较复杂。应用层故障经过分析之后主要为应用程序内部紊乱而引起的,具体表现是应用程序无法正常运行。排除应用层故障的最有效手段是对应用程序进行修复或重装。

3.2对表示层故障的分析判断和解决。表示层在开放系统互连(OSI)模型中的第六层,其主要功能是向应用进程提供信息表示方式,使不同表示方式的系统之间能进行通信。表示层的故障主要表现为信息表示方式错误,解决故障最有效的办法是对信息表示方式进行检查。

3.3对传输层故障的分析判断和解决。传输层的主要作用是为网络提供即时通信的通道,传输层中用到的通信协议主要是TCP/IP网络通信协议。对于这一层的故障来说,主要表现在端口配置不正确以及访问控制列表的时候发生错误。排除传输层的故障依靠的主要方法是利用display acl 命令显示出控制列表的信息,并对现有的规则进行检查,此外,还要利用Notstat 命令检查端口状态。

3.4 对物理层故障的分析判断和解决。物理层是整个计算机网络的基础层,在这一层中,规定了所有网络设备的功能和特性,并为数据链路层提供透明传输的基础。经过研究发现,在物理层的主要故障都是在连接方式上。主要的表现是连接电缆发生错误、信号电平发生错误、数字编码发生错误、电脑网络时钟时间不一致等。对于这些物理故障我们排除的时候首先要检查电缆连接是否正确,其次要利用displayinterface 命令,对每个物理端口进行检查。

3.5 对网络层故障的分析判断和解决。网路层的主要作用是为传输层提供快速的数据传输,并在传输过程中选出延时最短的路由路径。经过对网路层的故障了解后发现,网络层的故障主要表现在两个方面:一是路由中的信息没有正确配置,二是地址和子网掩码发生错误。目前解决网络层故障的最有效措施是利用display ip routing命令检查路由器的路由表数据是否正确,如果发生错误则通过手动设置的方式,修正路由表数据。

3.6 对会话层故障的分析判断和解决。会话层是传输层的下一层,在网络系统中属于互连(OSI)模型中的第五层,主要是解决面向用户的功能。会话层的故障主要出现在用户无法建立对话机制,并且对话建立之后不能有效拆除。解决会话层故障的办法通常是利用校验方法对用户对话机制进行点对点的校验。

3.7对数据链路层故障的分析判断和解决。对于数据链路层而言,其主要作用是建立准确的信道便于网络层的信息传递,通过信道的建立使上层的数据传送不必经过物理层而实现。此外,数据链路层的功能还包括流量控制和差错控制。在数据链路层经常发生的故障主要是链路接口不一致、链路没有得到充分利用、重复帧不正常等。对于这些故障,最好的解决办法是利用displayinterface 命令检查端口,找出出问题的端口。

4.结束语

计算机网络的不稳定性、网络故障等不同程度地影响到人们的正常生活与生产,产生巨大经济损失。能够正确地维护网络,并确保出现故障之后能够迅速、准确地定位问题并排出故障,对网络维护人员和网络管理人员来说是个挑战。重要的是要建立一个系统化的故障排除思想并合理应用于实践,将一个复杂的问题隔离、分解或缩减排错范围,从而及时修复网络故障,确保网络安全稳定运行。

参考文献

[1] 王朔磊.计算机网络故障研究[J].华南理工大学学报.2004.

[2] 高粹红.计算机网络故障分析及维护研究[J].机电信息.2009.

作者简介

网络故障诊断范文第3篇

关键词: PTN网络; 故障诊断流程; 故障定位; 专家系统知识库

中图分类号: TN915.07?34 文献标识码: A 文章编号: 1004?373X(2014)03?0022?02

Discussion on fault location thought in PTN network fault diagnosis process

YANG Jing?jing1,2, CHENG Rong1

(1. Fiber home Communication Technologies Co., Ltd., Wuhan 430073, China;

2. Wuhan Research Institute of Post and Telecommunications, Wuhan 430074, China)

Abstract: Aiming at the feature of PTN networks, and combine with the development tendency of telecommunications network management in current, a general PTN network fault diagnosis process is designed, which is based on overall consideration of PTN networks fault diagnosis process method. The detailed design thought and implementation method of fault location during the fault diagnosis process are analyzed, so that the diagnosis can be carried out in a timely manner for PTN network to deal with the fault.

Keywords: PTN network; fault diagnosis process; fault location; expert system knowledge base

在电信事业蓬勃发展的今天,电信网络管理技术正朝着综合化、分布化、智能化的方向发展[1]。而故障管理作为网络管理中最基本的功能之一,其智能化的要求也受到越来越多的关注。在PTN网络中,传统的依靠人工经验进行故障诊断的方法正逐步向智能化方向演变。本文设计的故障诊断流程是根据专家们的故障处理经验,将以前人为的诊断过程固化成为流程和规范,让系统代替人员操作,使人类专家的领域知识突破时间和空间的限制,在不同的地区和部门帮助故障处理人员及时的解决分组传送网(PTN)网络产生的故障。

1 故障诊断流程总体介绍

在PTN网络中,由于设备量以及业务量的巨大,一个故障的发生往往会伴随产生大量的告警,要在如此众多的告警中分析出故障发生的具体原因同时又要保证其分析效率,首先就需要对众多的告警进行一系列的处理,然后根据处理后的告警定位故障发生的大致范围,最后再在这个范围内进行相应的检测,从而定位故障发生的具体原因,如图1所示为故障诊断的整体流程图。

在该故障诊断流程中,可以将故障诊断分为两大部分,一部分为告警处理,另一部分为故障定位。告警处理部分主要是分析产生的众多告警是否存在某种相关性关系[2],在这里,把这种相关性关系称作根源告警和衍生告警的关系,通过这种关系可以对告警进行筛选,从而找到主要的告警即根源告警。在告警处理部分,告警校验是保障,告警预处理分派是前提,告警相关性处理是关键,知识库为告警相关性处理提供判定的规则和标准[3]。故障定位部分是根据根源告警进行相应的性能,配置,告警以及操作管理维护(OAM)检测,从而找到故障发生的具体原因。在故障定位部分,可以将故障的定位机制分为两部分。一部分是通过性能配置以及相关的告警检测定位到设备相关状态的故障;另一部分利用PTN设备独有的OAM检测定位到链路发生的故障。

2 故障定位设计思路

在PTN网络中,设备状态以及链路状态的相关故障是导致网络出现故障的主要原因,所以要将故障定位到具体的原因就需要对这两方面进行具体检查。首先进行设备状态相关的检查,包括检查设备相应的性能,配置以及与该告警相关联的其他告警,然后再利用OAM进行链路状态的检查。

图1 故障诊断流程图

在进行设备状态检测时,由于不同的单盘或端口的性能,配置以及告警数据不同,所以在进行故障定位的时候既要考虑到故障定位的效率,避免对所有设备的性能,配置以及相关的告警数据进行逐一检查,同时又要保证其通用性,使其能够囊括典型的性能,配置以及相关的告警数据,基于这两者的考虑,特制定了故障场景。在故障定位场景中,将常见的故障制定成典型的场景,再根据场景的不同,将每个典型场景中需要检查的性能,配置以及告警相关项的数据进行归类与总结,然后再依据一定的规则依次进行性能,配置以及告警的检测。

如果进行了前一方面的检测,但是并不能找到故障发生的具体原因,那么分析故障发生的具体原因可能并不在设备上,这时利用OAM检测中的链路环回(LB)的方法可以对业务传送的链路情况进行分析,判断是否是链路出现故障,从而对故障发生的原因进行定位。

针对链路故障诊断,是利用OAM发送以及接收LB报文的情况来判断。以前发送LB报文是利用人工的方式在每两个网元之间进行目的发送,现在根据业务传输的路径,将该业务路径上的所有的网元都找出来,然后自动的根据距离的远近依次向该业务路径中的每个节点网元都发送LB报文进行检测,根据接收到的LB报文的情况可以定位发生故障的链路。

如果所有项都检查完成,但是发现这些数据都是正确的,那么这时系统会给出其他的故障原因,这些其他的故障原因可能是由于外界的环境或者是人为的操作失误引起的。

3 故障定位实现方法

故障定位部分实现的重点在于,故障定位场景的建立。这里故障场景的建立不仅包括典型场景的归纳还包括在进行检测时采用何种标准和规则进行数据的检查。本文将常见的工程中需要覆盖到的业务中断类场景,业务性能劣化类场景以及其他类的场景进行细化,概括出典型的场景见表1。

表1 故障场景

[1.温度故障类\&7.连接确认信号丢失类\&2.信号丢失类\&8.高阶通道踪迹标识适配类\&3.激光器关断\&9.低阶通道踪迹标识适配类\&4.丢包类\&10.光模块不在位类\&5.PK_LOS过限类\&11.单盘失效类\&6.CRC过限类\&12.电源故障类\&]

在故障定位场景中进行数据检查的时候,需要运用专家系统中知识库建立的方法[4],将故障定位场景中性能,配置以及相关告警检查项的内容采用一定的标准进行规范制定成相应的规则[5]写入知识库中,然后在知识库中根据指定的规则进行逐一的检查。由于场景以及场景中检查的内容不同,其规则也不同。虽然每个检查项的判定规则不同,但是这些判定规则制定的标准是类似的,就是将设备在运行时产生的数据值与设备本身设置的数据值进行大小比较,看看设备在运行时产生的数据值是大于,等于或是小于设备本身设置的数据值。由于每个检查值的范围不同,有可能是大于产生故障,有可能是小于产生故障,有可能是等于产生故障,不管比较的结果是怎么产生故障,但是其基本要求都是要求设备在正常的工作值范围内。

采用故障场景的方式来进行故障检查,可以大大的提高故障诊断的效率,但是由于目前场景的种类还不够齐全,所以暂时不能分析不常发生的故障。但是,在知识库中,这个故障场景具有自主学习的能力,知识库中的故障场景还可以随着经验的累积从而不断的积累。故障处理人员只需要将首次不能分析的告警记录在知识库中,那么下次发生的时候便可以运用上次记录的知识进行相应的分析。

4 结 语

本文运用专家系统知识库的思想以及OAM检测的思想制定了PTN网络故障诊断中故障定位部分的流程,并详细的介绍了该部分的设计思路与实现方法,提出了故障场景定位分析法去分析设备产生故障的原因。但是该系统依然存在一些不足之处,随着日后技术的发展,相信故障定位智能化的程度会越来越高,帮助人们更加完善的管理PTN网络。

参考文献

[1] 张晓颖.电信网络管理的现状及未来发展趋势探索[J].中国新技术新产品,2011(24):34?35.

[2] 马秀丽,王红霞,张凌云.网络故障管理系统中告警相关性分析实现技术研究[J].沈阳理工大学学报,2009(3):9?14.

[3] 吴扬扬,陈怀南.基于关联规则的通信网络告警相关性分析模型[J].通信和计算机:中英文版,2004(1):57?60.

[4] 邵军力,张景,魏长华.人工智能基础[M].北京:电子工业出版社,2000.

网络故障诊断范文第4篇

关键词:粗糙集; 信息熵; 离散化; 神经网络; 故障诊断

中图分类号:TP212文献标志码:A

Fault diagnosis of BP neural network based on

rough set and information entropy

WANG Faxing1, SHEN Yonghong2

(1. Tongda College, Nanjing Univ. of Post & Telecommunications, Nanjing 210046, China;

2. School of Mathmatics & Statistics, Tianshui Normal Univ., Tianshui Gansu 741000, China)

Abstract: Rough set can only process quantization data, and the ability of fault-tolerant and generalization is weak, meanwhile, BP neural network has the dimension disaster problem. So a rough set attribute discretization method based on information entropy is proposed. The attribute is reduced to solve the dimension disaster problem of BP neural network. BP neural network is used to deal with the pattern classification to make up for the shortcoming brought by attribute reduction. The example result shows that the method has better performance for fault diagnosis.

Key words: rough set; information entropy; discretization; neural network; fault diagnosis

收稿日期:2009-05-08修回日期:2009-08-28

作者简介: 王发兴(1981―),男,甘肃武威人,讲师,硕士,研究方向为小波分析和计算机仿真等,(E-mail)

0引言

粗糙集理论是PAWLAK教授于20世纪80年代提出的1种新的处理模糊和不确定性知识的数学工具,具有无须提供除问题所需处理的数据集合之外的任何先验信息,仅根据观测数据删除冗余信息,比较不完整知识的程度――粗糙度、属性间的依赖性和重要性来抽取分类规则等的能力,其主要思想就是在保持系统分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则.目前,粗糙集理论已被广泛应用于机器学习、决策分析、模式识别与数据挖掘、故障诊断等领域.[1]

粗糙集模式识别的核心思想是首先导出问题的决策或分类规则,然后以此构成识别器对待识样本数据进行识别.当待识样本数据满足分类规则的条件时都会得到准确的识别结果,但当条件不满足时往往会有识别错误或不能识别的现象发生,其容错能力和推广能力相对较弱.BP神经网络是神经网络中最具代表性的1种,具有较强的模式分类能力,且容错能力和推广能力相对较好.但当网络维数较大或输入样本较多时,网络训练时间过于冗长.鉴于以上分析,在文献[1]中给出基于信息熵的属性离散化方法的基础上,本文克服粗糙集和BP神经网络各自用于模式识别时的缺点,将两者加以结合,从而建立1种基于新的离散化算法的粗糙集和BP神经网络故障诊断识别模型,以期在故障诊断识别中能取得更好的应用效果.

1粗糙集理论和信息熵

1.1粗糙集理论

1.1.1知识表达系统和决策系统

定义1在粗糙集理论[2-7]中,知识表达系统被定义为1个四元组S=(U,A,V,f).其中U={x,x2,…,xn}为对象的非空有限集合,也称为论域;A={a1,a2,…,am}为属性的非空有限集合;V为属性值域,V=∪a∈AVa;f:U×AV为一信息函数,表示对每一a∈A,x∈U,f(x,a)∈Va.当上述知识表达系统中属性A=C∪D,C∩D=Φ,其中C为条件属性集,D为决策属性集时,也称知识表达系统为决策系统.该系统通常采用决策表表达.[2-5]

1.1.2不可分辨关系

不可分辨关系是粗糙集理论中的1个重要概念.在决策表中,描述对象的属性是1种不精确信息,这种不精确信息造成对象之间是不可分辨或不分明的,观察这种不可分辨关系的对象正是粗糙集理论研究的出发点.

定义2S为知识表达系统,若PA,则定义属性集P的不可区分关系ind(P)为:

ind(P)={(x,y)∈U×U,a∈P,f(x,a)=

f(y,a)}(1)

如果(x,y)∈ind(P),则称x和y是P不可分辨的.不可分辨关系实际上是1种等价关系,具有不可分辨关系的对象是属性值完全相同的对象.符号U/P表示不可分辨关系ind(P)在U上导出的划分,称ind(P)中的等价类为P基本类.

1.1.3粗糙集的下近似、上近似及正域

定义3令XU,R是U上的1个等价关系.当X为R的某些等价类的并时,称X是R可定义的,否则称X是R不可定义的.称R可定义集为R精确集,称R不可定义集为R粗糙集.粗糙集可以用两个精确集,即粗糙集的下近似和上近似描述.其定义[3-6]如下:R-(X)=∪{YU/R|Y∩X≠Φ}(2)

R-(X)=∪{YU/R|YX}(3)其中,也称POSR(X)=R-(X)为X的R正域.

1.1.4属性约简

在决策表中,不同的条件属性具有不同的重要程度,一些属性可提供丰富的信息,对产生决策起着至关重要的作用,而其他一些属性却似乎可有可无.因此,可以在保证决策表具有正确分类能力的同时,对条件属性进行约简,去掉不必要的冗余信息.这就涉及到对属性约简的问题,其定义[3-4,6-7]如下:

定义4对于一给定的知识表达系统S=(U,A,V,f),条件属性C的约简是C的1个非空子集P.它满足:(1)a∈P,a都是D不可省略的;(2)POSP(D)=POSC(D),则称P是C的1个约简.

1.2信息熵

信息熵可表征信源整体的统计特征,是总体平均不确定性的量度.对于某一特定的信息源,其信息熵就只有1个,不同的信息源,因统计特性不同,其熵也不同.SHANNON定义自信息的数学期望为信息熵,即信息源的平均信息量H(X)=E[-log P(xi)]=-Ni=1P(xi)log P(xi)(4)式中:P(xi)表示事件xi发生的先验概率.

给定知识表达系统S和U为论域,P为U上的等价关系,令U/P={X1,X2,…,Xn},记P(Xi)=|Xi||U|,则依据式(4),可定义知识P的熵[8]为:H(P)=-ni=1P(Xi)log P(Xi)(5)2BP神经网络结构及BP算法

2.1BP神经网络结构

BP神经网络是指具有非线性传递函数神经元构成的、采用误差反向传播算法(BP算法)的前馈网络,在各领域有广泛的应用.[9-10]该网络通常由输入层、隐层(一层或多层)和输出层组成,层与层之间多采用全互联方式,同一层单元之间不存在相互连接,层间的连接权值和节点的阈值通过学习调节.理论上已证明,1个单隐层BP网络可以实现任意维到维的非线性连续映射,而且各节点均采用Sigmoid函数时,1个隐含层就足以实现任意判别分类问题.[11]常见的3层BP网络模型结构见图1.图 13层BP神经网络模型

2.2BP算法

BP算法是建立在梯度下降法基础上的适合于多层神经元网络的1种网络学习算法,主要思想是将学习过程分为2个阶段[8]:第1阶段(正向传播过程),给出输入信息通过输入层经隐含层逐层处理并计算每个单元的实际输出值;第2阶段(反向过程),若在输出层未能得到期望的输出值,则逐层递归地计算实际输出与期望输出之差值(即误差),以便根据此差调节权值,就是可对每个权重计算出接受单元的误差值与发送单元的激活值的积.因为该积与误差对权重的(负)微商成正比,将其称作权重误差微商.权重的实际改变可由权重误差微商逐个模式地计算出来,即它们可以在该组模式上进行累加.

3故障诊断模型

3.1基于信息熵的粗糙集属性离散化方法

对于决策表S=(U,C∪D,V,f),对每个连续型条件属性a∈C,论域中其有限个属性值经过排序后为la=va0

对于断点cai,决策属性值为j(j=1,2,…,r(d))的实例中,属于集合X且属于a的值又小于断点值cai的实例个数记为lXj(cai),大于断点cai的实例个数记为rXj(cai),令lX(cai)=r(d)j=1lXj(cai)rX(cai)=r(d)j=1rXj(cai)(7)因此,断点cai可以将集合X分成两个子集Xl和Xr,且有H(Xl)=-r(d)j=1pj log2pj, pj=lXj(cai)lX(cai)(8)

H(Xr)=-r(d)j=1qj log2qj, qj=rXj(cai)rX(cai)(9)因此,定义断点cai针对集合X的信息熵为HX(cai)=|Xl||U|H(Xl)+|Xr||U|H(Xr)(10)综合以上所述,可给出如下基于信息熵的属性离散化算法,为此首先引进记号:记P为已选取的断点集合;B为候选断点的集合;H为决策表信息熵;Va为属性a的值域;初值由式(6)取为H=H(X),其算法步骤如下:

(1)P=Φ,H=H(X);

(2)计算对每个断点c∈B针对集合X的信息熵,记为H(c,X);

(3)若H≤min{H(c,X)}或者min{H(c,X)}=0,则结束并转式(10),否则转式(4);

(4)选择使H(c,X)最小的断点cmin加到P中,B=B-{cmin};

(5)由步骤(4),断点cmin将集合X划分成X1和X2两类,依据步骤(2)针对X1和X2分别计算使得H(c,X1)和H(c,X2)取得最小的断点,分别记为cmin1和cmin2;

(6)若min{H(c,X1)}

若min{H(c,X1)}>min{H(c,X2)},则转(8);否则转(9);

(7)令X=X2,H=H(X2),转(2);

(8)令X=X1,H=H(X1),转(2);

(9)选取X1和X2中断点数目较少的集合记为Xr(r=1 or 2),并令X=Xr,H=H(Xr),转(2);

(10)对任一属性a,若存在断点ca∈P,而ca=min{Va}或ca=max{Va},则依据离散化时区间的选择对得到的断点集P进行检查,从而决定对断点ca进行取舍.

3.2BP神经网络故障诊断模型的构建

3.2.1故障诊断系统结构

故障诊断系统的结构框图见图2.图 2故障诊断系统结构

3.2.2构建过程及步骤

构建过程及步骤如下:

(1)构造学习样本集.从收集的原始数据中产生所需要的学习样本,数据的多少取决于许多因素,如神经网络的大小,测试的需要及输入、输出的分布等.其中,网络大小最为关键,通常较大的网络需要较多的训练数据.

(2)连续属性的离散化及决策表的形成.基于粗糙集的算法对数据的要求之一就是属性必须是离散值.然而,在实际应用领域,相当多的数据是连续的,因此要对数据进行离散化处理.采用离散化后的条件属性和决策属性值形成1张二维表格,每行描述1个对象,每列对应对象的1种属性.

(3)属性约简.对离散化后的数据利用粗糙集进行约简, 得到约简后各子神经网络输入.

(4)将约简后的属性数据作为神经网络的输入,并训练神经网络.

(5)输入诊断集进行故障诊断,并输出诊断结果.[12]

4应用实例

选取文献[11]中给出的某变压器的20组故障诊断样本数据对本文所述方法进行可行性与有效性分析.所构建的故障诊断决策表见表1,其中,A={s1,s2,s3,s4,s5}表示条件属性,分别表示所测的变压器中H2,CH4,C2H6,C2H4和C2H2的相对值;D为决策属性,有5种决策值,分别是无故障、低温放电、高温放电、低能量放电和高能量放电.

对表1样本数据进行基于信息熵的粗糙集属性离散化方法处理后,所得结果见表2.表 1变压器故障诊断决策表序号s1s2s3s4s5D146.1711.3733.128.520.620241.8833.5114.558.760.540333.4629.3232.9927.782.550446.8135.988.457.490.310515.2221.9817.8546.920.00160.8943.8827.0427.980.001735.1350.968.155.650.001837.9830.957.8723.010.001911.1921.7911.3052.982.392100.9516.0112.8968.410.9621115.0322.193.2657.961.0321220.0831.073.9843.221.5321358.0118.664.688.629.7831486.996.485.281.030.0031585.866.984.512.560.0031683.687.964.452.720.5631720.2316.961.6924.7434.5241826.8616.762.9838.9613.6141943.9224.416.6223.910.5442048.1210.884.2322.4623.684

表 2离散化后故障诊断决策表序号s1s2s3s4s5D1524350245443033546704553220514471161546117353111835351191347721012475211141762121517721373337314713113157121131671214317221684182216841944363420622584

按照粗糙集理论所给出的基于差别矩阵的属性约简算法进行约简后形成如下3个约简属性组合,分别为{s1,s3,s5},{s1,s4,s5}和{s1,s2,s3}.任选其中1组作为输入节点构建神经网络.不妨取约简属性集{s1,s3,s5},由于故障类别共分为5种,因此选输出节点为5个,选隐层节点为6个,误差精度为0.001.利用样本数据对所构建的BP神经网络进行训练,其误差曲线见图3.网络经过61次训练就达到预定精度要求.

图 3BP神经网络训练误差曲线

利用表2所给待识样本数据对训练好的神经网络进行检验,其结果见表3.从检验结果分析,与文献[11]中的识别结果基本一致,仅有对样本8的识别结果不相一致.在文献[11]中对实际故障为中温过热的样本8识别结果为低温过热,而此处识别结果为高温过热.虽然两者识别结果有些差异,但两者对故障类型的认定完全一致.因此,本文所构建的故障诊断模型具有一定的可行性与有效性.

表 3故障诊断及诊断结果(最后1列为检验结果)序号实际故障H2CH4C2H6C2H4C2H2检验结果1正常7.35.73.42.73.102低温过热12012033830.5413局部高温过热20.619.87.560.91.5224铁心多点接地4297156598025有局部放电1563933446036工频续流放电200471511512947层间绝缘不良98121322951528中温过热58761822029围频放电31.25.41.312.513.1410磁路高温过热7251813912995.82

5结论

随着设备结构的日趋复杂,故障类别也日趋多样,因此在实际生活中,对故障类别的诊断显得尤为重要.在实际故障诊断中采集到的数据往往是1个真实的数据,而且这些数据样本的分类边界不确定,故障与征兆之间的关系往往也不确定.本文在分析粗糙集和BP神经网络各自用于故障识别时的优缺点的基础之上,充分将两者的优点进行有机结合,并针对粗糙集只能处理量化数据的特点,给出1种基于信息熵的粗糙集属性离散化方法,从而建立1种新的故障诊断模型.通过对应用实例的分析发现,该模型对所给样本基本都进行准确识别,且与文献[8]相比,所需属性数更少.因此,该模型的提出将为有效进行故障识别以及其他诸如识别、分类等领域应用问题的解决提供更多可靠性方法.

参考文献:

[1]沈永红, 王发兴. 基于信息熵的粗糙集属性离散化方法及应用[J]. 计算机工程与应用, 2008, 44(5): 221-224.

[2]郭小荟, 马小平. 基于粗糙集的故障诊断特征提取[J]. 计算机工程与应用, 2007, 43(1): 221-224.

[3]胡寿松, 何亚群. 粗糙决策理论与应用[M]. 北京: 北京航空航天大学出版社, 2006: 4-51.

[4]PAWLAK Z.ROUGH set[J].Int J Comp & Infor Sci, 1982, 11(5): 341-356.

[5]曾黄麟. 粗集理论及其应用[M]. 重庆: 重庆大学出版社, 1998: 8-41.

[6]王国胤. Rough集理论与知识获取[M]. 西安: 西安交通大学出版社, 2001: 117-140.

[7]梁吉业, 孟晓伟. 信息熵在粗糙集理论中的应用[J]. 山西大学学报: 自然科学版, 2002, 25(3): 281-284.

[8]袁曾任. 人工神经元网络及其应用[M]. 北京: 清华大学出版社, 1999: 66-68.

[9]马维国. 纺纱生产BP神经网络模型[J]. 2004, 13(3): 57-59.

[10]张长君, 邹开其. 恶劣气象条件下高速公路匝道控制的神经网络方法[J]. 计算机辅助工程, 2006, 15(3): 86-88.

网络故障诊断范文第5篇

计算机网络安全是计算机管理关注的首要问题,尤其在大规模使用计算机的职业院校,计算机网络管理更为重要。本文结合专职院校计算机管理实践,分析计算机网络常见故障,并从网络故障诊断、网络设置方面提出强化计算机网络管理技术的措施。

【关键词】计算机网络 故障分析 故障诊断 网络设置

随着计算机应用范围的拓展,各职业学院加大了计算机设备设置量,与此同时,计算机网络安全问题也日益增多,计算机网络管理工作难度加大。为保证校园计算机网络安全,为学生提供安全的网络环境,计算机工作者、管理者必须提升计算机网络管理技术,重点把握计算机网络故障诊断与网络设置,以服务于学校教育教学。

1 计算机网络常见故障分析

1.1 物理故障

物理故障又称硬件故障,一般包括线路故障、网卡硬件故障和端口故障三种。线路故障如线路损坏、网络线路受电磁干扰而断路;网卡硬件故障如网卡未正常安装、网络设备未正常连接、网络设备内部板卡损坏、因CPU温度过高造成网络故障等;端口故障包括电源及接口端故障。

1.2 逻辑故障

逻辑故障即为软件故障,主要包括网卡驱动程序存在问题、IP地址分配存在问题、路由器和交换机配置存在问题、WLAN划分不正确等。通常软件故障发生时,多表现为网络配置错误、无法正常浏览网页等。

2 提升计算机网络管理技术的措施

2.1 强化计算机网络故障诊断与检测

计算机网络故障诊断是判断网络故障原因与故障点的前提,要强化计算机网络管理,首先应进行故障诊断。

(1)分析故障现行状况。在分析网络故障时,首先应确定故障表现形式,然后根据故障表现确定故障发生原因。

(2)搜集故障信息。应从网络管理系统、路由器诊断命令及协议分析跟踪等所输出报告或是软件说明书中寻找与故障现象相应的信息,依据信息提示,明确故障原因。

(3)强化故障检测。当网络故障发生后,应及时进行故障检测,充分考虑可能引发网络异常的各种因素,如计算机网络间断或不稳,则要考虑计算机网卡驱动程序是否存在问题,WLAN及子网划分是否正确,网络使用期限是否临近等因素,待检测、核定后,明确故障原因。

(4)制定故障排除方案。在依据故障现象确定故障原因后,应及时制定故障排除方案,尤其对多因素引发的故障应进行详细分析,并根据引发原因制定多样性的排除方案,以便于以后进行网络设置。如出现网络传输数据不稳现象时,则考虑安装路线是否正确、入户电话线是否过细、所用设备与分线器连接线是否过长等,并根据每一可能引发因素,制定不同的排除方案,如按照说明书正确安装线路、入户电话线应使用0.5mm或较粗的铜芯电缆线、适当缩短连接线长度等。

(5)做好诊断检测记录。诊断检测过程中,工作者应具有认真、仔细的工作态度,认真执行诊断计划,并做好每一步的检测、观察及诊断,直到排除故障。同时,正确记录诊断结果、故障原因、故障点等,并对所改变的参数进行确认,以保证诊断信息记录完整、正确,为以后诊断工作提供支持。

2.2 规范网络设置与使用

网络设置影响到网络安全及其性能,实际网络操作行为是引发网络故障的重要原因,因此,计算机网络管理必须规范网络设置与使用,以有效维护网路安全。

(1)正常断线。强制断线、非正常断线往往会造成网络连接受阻或使网络无法连接,尤其在使用ADSL时,此现象尤为严重。其原因在于现在网通公司将ADSL用户设置成单一在线制,一个用户名和密码仅能供一客户使用,若非正常断线,则网通平台则出现一种假在线,而只有当无数据交换时我们才能正常拨号上网。

(2)进行合理加装。加装分机行为不规范是造成网络不稳、断流的重要原因,当要加装分机即为电话串机时,则必须从PHONE口后面进行加装,否则电话拨进或拨出时网络会不稳、断流。

(3)调整安装软件个数。现在职业院校多使用Windows系统,尤其是Windows XP系统。在使用此系统时,若安装两个或多个拨号软件,则会造成网络不稳,Windows系统自带拨号软件较好,因此,此情况下应调整所安装的拨号软件个数,或直接用原系统拨号软件。

2.3 提升职业院校计算机机房网络管理效率的途径――自动修改网络设置

职业院校计算机网络管理目的在于服务教育,而机房电脑维护、重新安装是一项费时费神的工作。考虑到网络管理效率的提升,院校计算机机房工作者可以借助于网络克隆、还原卡等方法进行重装系统,如采用网卡绑定方式进行网络配置等,且随着探索实践的深入,一种有效提升管理效率的技术――自动修改网络设置技术被应用于计算机网络管理中。

自动修改网络设置技术即为利用批处理文件,重新设置IP地址、计算机名。这些批处理文件可应用于校园机房,也可以应用于其他领域机房,而因区域网相互隔离,故使用同样配置的机房之间并不会相互影响,且被编制好的批处理文件可供他人随时享用,利于实现网络资源共享。使用过程中,可将文件夹分为几部分,每个文件夹下有两个文件,其中一个用于IP地址修改,一个用于计算机名修改。每个ipset文件中均有3个IP数字串,一个是本机IP地址,一个是子网掩码,再一个是网关,而三个中只需修改本机IP地址,则可实现整个设置。重装机房工作中,将这些文件放置在一个文件夹中,以网刻传送至所有电脑,电脑通过网络克隆方式完成系统安装后,依据机器编号顺序点击对应文件夹里的两个文件,便可完成计算机IP地址重新设置与计算机重命名,进而提升学校计算机管理效率。

3 结语

职业院校计算机网络管理工作量大,管理过程中应全面考虑可引发计算机网络故障的各个因素,及时、科学诊断检测,在确定故障原因后给予相应解决对策,严格规范网络设置与使用,并探索计算机管理新技术、新途径,以实现院校计算机网络安全,提升计算机网络服务效能。

参考文献

[1]张燕.网络故障诊断关键技术[J].电脑知识与技术,2009(31).

[2]张敏.关于校园网络故障的排查和处理[J].职业技术,2014(12).

[3],张宏坡,张子蛟.大规模网络故障的排除与分析方法[J].中国教育网络,2013(5).

[4]罗伟,程飞.论计算机网络故障处理及维护[J].读与写(教育教学刊),2010(7).

网络故障诊断范文第6篇

关键词:网络故障;路由器;故障诊断;Hub

中图分类号:TP393.06 文献标识码:A文章编号:1007-9599 (2012) 07-0000-02

一、前言

计算机网络指的是由计算机以及专用通信设备共同组成的系统,即通过专用通信设备以及组网技术,将分散在不同地理位置区域上的计算机连接起来,形成一个网状的系统,这样,便可以实现计算机之间的相互通信以及软硬件、数据等信息资源的共享。计算机网络按照计算机分布的区域范围可以划分为广域网以及局域网。计算机网络之间的通信采用的是TCP/IP协议,通过协议实现跨区域地理位置的计算机之间进行通信[1],已经发展成为二十一世界最为流行的具备国际性质的网络。由于受到很多不可预料因素的影响,计算机网络故障频频发生,因此,作为专业技术人员需要具备计算机常见网络故障的常识,才能及时的解决网络故障,使得整个计算机网络畅通无阻,为更多的网民服务。

二、计算机网络常见故障分类

计算机网络故障应该从以下三个方面进行诊断和修复:找到网络故障的发生源,消除故障,使网络能够正常的进行运行;寻找网络配置和规划中的缺点,进行网络功能的优化;了解网络运行的质量,技术进行网络通信质量的改善。

了解熟悉计算机网络中的原理、网络中的配置及网络的运作是计算机网络故障诊断的依据。查找故障发生点,寻求其网络故障诊断的最佳工具获取网络故障诊断信息,确定故障点,从而排除故障,解决问题,以达到网络的正常运行。网络故障的发生通常有以下几种情况:网络拓扑结构中的物理连接设备连接没有成功或者线路硬件出现短路、开路等问题;在网络层容易出现的故障是网络协议配置不正确或者没有按照规范进行操作;数据链路层出现的故障很大一部分是由于网络硬件设备的接口配置不正确;传输层最为容易出现的故障通常是设备性能降低或者通信堵塞等;上三层容易出现的最容易出现的故障是网络应用或者CISCO IOS错误。计算机网络常见故障的诊断需要严格按照OSI七层模型逐层诊断,首先需要对物理层进行详的检查,接下来需要检查的是数据链路层,逐层向上,步步为营,想尽一切办法确定计算机网络通信失败的原因以及故障发生点,针对故障进行对应的解决,以求在最短的时间内排查出问题并解决,从而保证通信系统能够尽快的恢复正常。

计算机网络故障的诊断可以采用专业的广域网或者局域网分析仪等多种专业工具,比如应用比较多的路由器诊断工具、网络管理工具等。CISCO是我国大部分网络故障解决方案工具提供商,足以解决绝大多数的常见计算机网络故障。计算机网络常见故障解决的首要工作便是查看网络拓扑路由表,此外,ICMP提供了专业的网络状态测试命令,比如trace、ping、show等命令,这些都是计算机网络常见故障中获取有用诊断信息的首先工具[2]。虽然,计算机网络的故障种类比较多,但是,计算机网络故障从整体的角度可以分为逻辑故障与物理故障两类,即我们通常所理解的软件故障与硬件故障。常见的软件故障情况最多的便是网络协议出现问题或者由于网络设备的配置不对而导致整个计算机网络出现故障或者异常现象。而常见的硬件故障则主要包括网络通信线路、计算机网卡、路由器、交换机以及Hub(集线器)等网络设备出现异常或者故障。

三、计算机网络常见故障判断步骤

计算机常见网络故障的判断主要包括以下几个步骤:

(一)首先需要检查网卡是否出现故障

网卡是计算机的最为重要的组成部分,所有的网卡都会带有一个LED指示灯,指示灯主要用于判断网络工作是否正常,通常位于计算机机箱的背面,绿灯则表示计算机的网卡是正常的,一旦LED变成为红灯,则表示网络连接出现故障,如果不亮则表示线路没有连接上或者连接的线路不通畅。此外,网络中传输的数据流量的多少会导致指示灯的闪烁频率发生变化,有时快有时慢。通常情况下,网卡没有出现故障的时候,如果没有数据传送,则指示灯闪烁的比较慢,有数据传送的时候则闪烁的相对比较快。

(二)其次要排查连接计算机与别的计算机网络设备的网线、跳线是否正常,从而确定网络通信是否畅通,常见的网络接线的故障则主要包括网路连接线的内部出现断裂,RJ-45以及双绞线等的水晶头接触出现异常,造成网络不通畅,可以使用专门的测试网络线路的测线器进行全面的检测。

(三)检查RJ-45插头两端是否连接好。

(四)检查信息插座是否出现异常或者故障。

四、计算机网络常见故障解决方法

计算机网络出现故障的原因很多,但是可以总结为软件和硬件问题两大类,主要指的便是网络连接原因、网络协议配置原因、配置文件选项原因三类。寻找故障原因才是解决故障的关键。针对这三种计算机网络故障原因,对应的解决方案如下:

(一)检测网络连接畅通性方法

当故障发生之后,网络连接应该是最先考虑到的故障原因。网络连接的问题通常情况下会涉及到跳线、网卡、网络连接线、信息插座、Modem以及Hub等网络通信介质或者专业设备,在这所有的介质与设备中,任何一种出现故障都会造成计算机网络连接出现中断故障,网络连接出现的故障一般情况下可以选用专业的硬件或者软件工具进行检测验证。比如,当网络中的一台计算机浏览互联网网页的时候出现了故障,导致无法正常访问Web,这个时候想到的最为直接的原因便是网络连接步畅通,因此,可以针对这种可能的原因进行检测,当确定计算机网络故障是由于计算机网络连接造成之后,在检测Hub的连通性是否正常的时候,我们可以通过判断电脑中的网络连接是否正常,计算机是否能正常手法E-Mail,采用Ping命令能否Ping通网络中的其余电脑,当然,Hub的连通性不能完全依靠这些标准去判断,当网络协议出现故障的时候也会出现网络连接不畅通的问题,因此,我们可以核实下Hub接口或者网卡的LED指示灯是否正常闪烁[3]。一旦将网络连接故障是由于网络通信协议配置错误造成的原因排除之后,就可以通过测试网络通信介质是否畅通来寻找解决方案。

(二)查看配置文件或者选项方法

计算机网络拓扑图中的计算机、服务器、交换机等都有配置选项,一旦这些设备的配置选项以及配置文件设置的不对依然会造成计算机网络故障,如果服务器权限设置的不够完善,则就会导致计算机网络中出现资源无法共享的现象。电脑网卡配置的不合适,便会导致网络无法连接的故障,一旦当网络中的每一个服务器都没有实现的时候,则需要检查Hub。该种方法需要详细的检查每一个服务器的配置选线以及配置文件,通过检查配置数据定位故障,当配置出现错误的时候需要重新进行配置,达到解决故障的目的。

(三)告警性能分析法

该种方法需要网络管理人员的配合,从他们手中获取性能或者计算机网络故障告警的相关信息,接下来进行故障定位。比如,Site view网络管理系统工具,该系统可以管理网络中的所有网络设备,日常工作需要多观察各个网络设备的数据流量以及CPU负载率等参数。当计算机网络出现网络无法连接或者网络速度较慢等故障的时候,便可以通过网络管理工作人员观察交换机与计算机的连接时候出现时断时续等故障,各个交换机的CPU负载是否过高,线路数据流量是否过大等,通过仔细观察所有端口的状态,确定那个端口的数据接收与发送出现故障。

(四)替换解决方法

当排查出计算机网络故障造成的原因的时候,如果是设备或者通信介质出现故障,则可以采用替换法解决方案,就是将原来出现故障的设备用一个正常的设备进行替换,从而达到排除计算机网络故障、解决计算机网络故障的目的。

五、总结

计算机网络出现故障的现象是不可避免的。当计算机网络系统搭建完毕运行之后,计算机网络故障诊断便成为了管理计算机网络的最为重要的技术工作。如何确保计算机网络能够正常运行,如何及时准确的解决计算机网络故障等是本课题研究的重点内容,提高网络管理工作人员常见故障诊断水平技术则需要严格注意以下几个具体的问题:计算机网络管理工作人员需要扎实的掌握网络技术相关理论知识;必须清楚计算机网络结构设计,主要包括局域网网络拓扑结构,设备与设备之间的连接、相关软件的使用以及整个系统参数的配置等;需要及时准确的了解计算机网络的运行状况,需要时刻收集计算机网络正常运行时候的报告参数以及对应的各种正常状态等数据;熟练使用常用的计算机网络诊断工具,并能够准确的、详细的将遇到的故障描述出来。

参考文献:

[1]周炎涛,胡均华.计算机网络实用教程(第2版)[M].电子工业出版社,2004

[2]李艇.网络安全与认证[M].重庆大学出版社,2005

[3]杨富国等.网络设备安全与防火墙[M].北方交通大学出版社,2005

网络故障诊断范文第7篇

关键词:数据中心;InfiniBand;故障诊断;贝叶斯分类;增量学习

中图分类号: TP393.07

0引言

数据中心是Internet的重要基础设施,是为用户提供数据存储、计算和传输的核心。随着互联网的飞速发展,特别是大数据时代的到来,数据中心在Web服务、搜索引擎、电子商务、社交网络、网络游戏及大规模集群计算等领域中的关键作用日益显现[1]。目前数据中心的网络规模日益庞大,互联的计算节点数量能达到100000以上的量级,而交换节点的数量也接近10000量级。数据中心性能需求表现为高带宽、低延迟、低主机开销和低存储开销等特点[2]。InfiniBand(以下简称IB)是目前数据中心互联的主流网络。2013 年 11 月公布的TOP500高性能计算机排名中,InfiniBand 是最常用的互连技术,在 TOP100 名单中占 48%,TOP200 占 48.5%,TOP300 占 44% 而在 TOP400 系统中则占 42.5%。2010年,Oracle通过在其数据仓库和数据处理平台Exadata中使用IB交换,处理性能提升10倍[3]。2010年,Google在其研究工作中采用IB和蝶形网络拓扑构建数据中心,网络功耗节约85%[4]。2011年,Microsoft基于IB组建高性能数据中心支持其Bing Maps应用,与传统基于以太网的架构相比节约80%的功耗和50%的成本[5]。Stanford课题组通过IB互联分布式DRAM实现了高性能数据中心存储系统[6]。

在大规模数据中心网络中,网络的故障率呈指数增加,长期的实践[7]表明,故障率随着网络中节点数快速增加,例如,从服务节点故障的角度看,服务单点可靠性为99.99%,按照10000级的规模计算则网络故障率为63%,若单点可靠性为99.9%,则网络故障率几乎达到100%。大规模数据中心网络运行的应用通常对网络性能要求严格,需要管理者能更加实时、精确地掌握全网态势和端到端的通信性能,在网络性能下降之后及时发现和定位故障和网络拥塞, IB网络在大规模数据中心网络中的应用越来越广泛,研究面向大规模IB网络的故障诊断方法,保持和提高IB网络运行的健壮性,提高网络的修复能力,保障网络上关键任务的成功完成非常重要。

1相关研究

近年来针对网络故障的诊断方法已经进行了大量的研究。出现了以贝叶斯网络方法、数据挖掘方法等为主的故障诊断方法。文献[8]提出了一种基于拉格朗日和次梯度法的网络故障诊断方法(novel location approach based on Lagrangian Relaxation and Subgradient Method,LRSM),该方法对现在的二分图故障传播模型进行改进,加入虚假故障因素,在改进二分图模型的基础上提出了故障定位问题的01最优化描述,并利用拉格朗日松弛法和次梯度法对问题进行求解,有效提高了分类检测精度和减少了诊断时间。文献[9]提出了一种基于谱图理论的故障诊断算法(Alarm Correlation Algorithm based on Spectral Graph theory,ACASG),建立了时序告警关联数据模型,将告警数据看作一个高维空间,具有相关特性的告警是隐含在该空间中的局部结构,通过谱图理论发现高维数据空间中潜在的低维映射结构,通过分析低维空间中点结构之间的相似性,实现告警数据的可视化显示,该方法不仅可以发现告警的相关性,而且还可以通过分析谱图的变化预测定位网络中发生的故障。文献[10]针对网络层和数据链路层,为简化故障决策算法、降低误报率,提出了一种基于粗糙神经网络的故障诊断算法 (Rough Artificial Neural Network,RANN)和分层故障诊断思想,通过神经网络来逼近故障诊断这种映射关系,实现对故障的分类,利用正域的概念,去除冗余属性,求取条件属性集对于决策故障属性集的简化,同时结合分层分布优化的思想,将网络故障分类,每一类故障诊断系统含有多个反向传播(Back Propagation, BP)子网络,通过粗糙集理论逐层分类,构成一个多级复合神经网络系统,实现故障分类。文献[11]基于PMC(PreparataMetzeChien)模型,提出了一种适用于当代数据中心网络的分层式诊断(Hierarchical Fault Diagnosis, HFD)算法,由网络拓扑结构生成涵盖所有单元的最小生成树Xtree,按其路径组织多次测试。根据测试结果,求出各基本单元组的故障概率,依此将系统中所有单元组划分为存在故障概率较大的“相对故障单元组”和存在故障概率非常小的“相对正常单元组”两类。文献[12]提出了基于贝叶斯征兆解释度的链路故障诊断方法进行网络的故障诊断。

由于大规模数据中心网络本身的复杂性、不规律性的特征,网络故障分类处理过程涉及到多方面的综合知识,想获得良好的分类效果,不仅仅是单纯的分类算法问题,必须运用多种策略加以解决。目前网络故障分类方法的研究存在以下几点不足:

1) 训练样本参差不齐,分类方法首先要进行训练学习,其训练过程需要一定数量的训练样本。而在网络系统中包含着大量的不确定因素,故障症状与故障源之间可能存在非线性映射关系,同一种故障往往有不同的表现,同一症状又往往是几种故障共同作用的结果,多个相关故障可能同时发生。因此,选择越多的训练样本,样本的代表性越强,训练效果才会越好,分类性能才能越高。一般情况下,人们比较容易得到一些大致的样本类别,比如用户数据报协议(User Datagram Protocol, UDP)报文、传输控制协议(Transmission Control Protocol, TCP)报文和Internet控制报文协议(Internet Control Message Protocol, ICMP)报文等等,然而这些训练样本集中样本的质量往往是参差不齐的,有些样本的表现模棱两可,有些甚至是错误的,若直接在这些样本上进行学习,将使分类的效果大大降低。可以想象对存在大量不准确的分类样本地学习是很难获得良好的分类效果。而且在实际使用过程中,大量高质量的训练样本集合的获得是非常困难的,通过人工的方法对训练样本进行筛选也是不现实的。

2) 没有统一的特征选取标准,构造分类器的关键是选择合适的特征构成特征向量。网络系统中故障发生时的网络表现有着很大的差异,代表不同故障的特征也不尽相同,选择什么样的特征来构成特征向量,特征向量的长度取多大,都一定程度上影响着网络管理平台下故障分类的精度。以简单贝叶斯分类方法为例,我们知道简单贝叶斯方法具有简单和分类精度高的特点,但是如果随意使用训练样本中任意单位作为特征向量的一维,不仅满足不了简单贝叶斯方法对特征独立性的要求,而且会极大地影响分类精度。

3) 学习能力弱,对待分类数据进行分类的阶段是一个开环处理过程,分类系统在经过一次训练之后,将再也无法从实际的分类处理过程中获得更新信息,这样缺乏学习能力的分类系统在实际使用过程中不能根据实际情况进行分类模型的调整,从而导致了分类系统随着运行时间的延长和范围的扩大,性能逐渐降低,这也是制约分类系统实用化的重要因素。本文提出的大规模IB网络自学习的故障诊断方法IL_Bayes有以下创新:

1)对现有的训练样本进行必要的预处理,从初始的训练样本集中去除噪声样本,选取高质量的样本构造分类器,实现良好的分类效果。

2)我们对不同的故障类型选取不同的特征向量,构成特征向量的特征分量要尽可能地反映故障的特征,获得较高的故障分类精度。

3)通过增加对分类结果的学习能力,使分类系统不断自我完善和更新,可以应对实际大规模网络的复杂情况。

2大规模IB网络自学习的故障诊断方法

2.1相关描述

首先给出本文所提故障诊断方法的相关定义。

定义1C={C1,C2,…,Cm}是一个故障类集合,其中C1,C2,…,Cm分别是该故障类集合的故障类。

定义2d=(x1,x2,…,xn)为新故障样本,即待分类故障,其中x1,x2,…,xn是新样本d的n个属性。

定义3f(xj)为故障d中属性的评估函数,在P(xj|Ci)f(xj)中, f(xj)越小,属性xj在分类器中的作用越小。

贝叶斯分类方法起源于贝叶斯统计学,是以概率论为基础的分类模型,它为不确定知识的表达提供了自然、直观的方法,是目前非精确知识表达与推理领域最有效的理论模型。贝叶斯分类方法主要有以下3个规则[12]:

1)贝叶斯规则。

P(B|A)=P(A|B)P(B)P(A)(1)

式中:P(B)被称为先验概率,即在A状态未知时B发生的概率; P(B|A)为后验概率,表示A状态已知时B发生的概率。贝叶斯规则允许在两个方向上进行概率推理。

2)独立性规则。

如果P(A|B)=P(A|B,C),则给定变量B,变量A和变量C是独立的。即在B已知的情况下,变量C不能改变变量A的概率。

3)链式规则。

在P(A|B)中,A具有n个属性,即A={x1,x2,…,xn},则:

P(A|B)=P((x1,x2,…,xn)|B)=∏ni=1P(xi|B)(2

2.2大规模IB网络自学习的故障诊断方法IL_Bayes

设故障训练集样本有m类,记为C={C1,C2,…,Cm}, 对于给定的新样本d,其属于Ci类的条件概率是P(d|Ci)。根据贝叶斯定理,Ci类的后验概率为P(Ci|d),即:

P(Ci|d)=P(d|Ci)P(Ci)P(d)(3)

其中:P(Ci)、P(d)对于所有的类均为常数,可以忽略,则式(3)可以简化为:

P(Ci|d)∝P(d|Ci)(4

贝叶斯分类器将新的故障样本d归于类Ci的依据就是要求出极大后验假设,即:

P(Ci|d)=argmax{P(Cj|d)P(Cj)}; j=1,2,…,m(5

新故障d由故障的不同属性所组成,即d=(x1,x2,…,xn),n是d中的属性个数,根据朴素贝叶斯分类器的独立性假设,有:

P(d|Ci)=P((x1,x2,…,xn)|Ci)=∏nj=1P(xj|Ci) (6)

式中P(xj|Ci)表示分配器预测属性xj在类Ci中发生的概率。

P(xj|Ci)=(1+T1(xj,Ci))/|q|+∑mw=1T1(xj,Cw)

其中:|q|表示属性总数,T1(xj,Ci)表示属性xj在Ci类的所有类中出现的频数之和。

构造每个故障的向量,用n维属性向量表示A={x1: f(x1),…,xn: f(xn)},xi(i=1,2,…,n)为故障属性,f(xj)为属性的评估函数,则式(4)可以改进为:

P(Ci|d)∝∏nj=1P(xj|Ci)f(xj)(7

为未分类故障d分类就是计算P(Ci|d),未分类故障d属于类别Ci P(Ci|d)>P(Cj|d),i≠j,由式(7)可知,计算P(Ci|d)只需要计算未分类故障d的n个属性xj在类Ci中的概率即可。

基于上述分析,本文提出面向大规模IB网络增量学习的故障诊断方法IL_Bayes,在利用贝叶斯分类器处理数据的过程中,难免会遇到训练集类别里面不存在的其他类,对于这种情况处理过程就会发生错误,如果在贝叶斯分类器上建立自学习机制,对于处理过程中产生错误的数据,根据数据特征建立新的类别,就可以有效解决这个问题。本方法分为3个阶段,即构造和训练分类器阶段、故障分类处理阶段和再学习阶段。

1)构造和训练分类器阶段。

依次读取训练样本集中的每个故障告警信息,提取故障属性xj。根据专家知识和经验,人为地对这训练集样本进行故障分类,记为C={C1,C2,…,Cm};

①对样本集的每个故障和该故障的属性,分别计算∏nj=1P(xj|Ci)f(xj),根据计算结果判断未分配故障d属于哪个故障类,即Ci P(Ci|d)>P(Cj|d), i≠j;

②对于没有匹配上的故障告警信息,则重复步骤①,建立新的故障类,并加到故障类集合C中,重复步骤②;

③训练结束,将所分的故障类C添加到分类器中以便处理故障数据。

2)故障告警数据分类处理阶段。

①当网络发生异常时,读取待处理故障告警信息d的属性xi,计算∏nj=1P(xj|Ci)f(xj),根据计算结果判断未分配故障d属于哪个分类,即Ci P(Ci|d)>P(Cj|d), i≠j;

②对于处理错误的告警信息,即故障类集合C中不存在此类故障的分类,则转入再学习阶段。

3)再学习阶段。

①读取故障处理过程中出现错误的告警信息,提取故障属性xj。

②根据故障告警信息的属性值,建立新的故障类,并加到故障集C中,重复故障告警数据处理阶段步骤①;

3实验分析

为了验证本文方法,构建了一个基于InfiniBand的高性能计算机互联结构,其网络拓扑为胖树结构,如图1所示。

其中存在12个边缘接入的汇聚交换节点(Aggregate Switch),每个接入交换节点支持18台服务器接入。二级交换采用全相连结构,每个汇聚交换节点通过3个连接和每个核心交换节(Core Switch)互联,从而构成了非阻塞的网络结构。链路均采用QDR(40Gb/s)传输速率。

所有服务器均运行Red Hat Linux 6.1 x86 64位操作系统,采用开源OFED(Open Fabrics Enterprise Distribution)1.5.4驱动和管理HCA设备,通过其中的OpenSM模块提供了对网络的管理。

OpenSM是InfiniBand的子网管理软件,用来管理集群系统中的成百上千个节点,默认的工作模式是发现IB的子网拓扑,初始化子网,然后定期扫描子网的变化。OpenSM运行的日志文件存放在/var/log/message和/var/log/opensm.log中,第1个文件一般存放的是主要的事件日志,第2个文件存放的是系统运行错误的详细情况。

具体内容包括:告警时间、线程id、日志等级和日志具体内容。下面对日志等级进行详细说明:OpenSM的日志共分为8个等级,具体如下:

0x01 CERROR(error message

0x02 CINFO (basic message, low volume

0x04 CVERBOSE(interesting stuff, mosderate volume

0x08 CDEBUG(diagnostic, high volume

0x10 CFUNCS(function entry/exit, very high volume

0x20 CFRAMES(dumps all SMP and GMP frames

0x40 CROUTING(dump FDB routing information

0x80 Ccurrently unused

在网络运行过程中日志记录的比较常见故障类型如表1所示。

故障类型描述

osm_get_port_by_mad_addr当前SM不能识别一些查找请求的LID

pi_rcv_check_and_fix_lid

1.SM质疑一些结束端口的PortInfo和基于LID 0xffff的接收数据

2.SM还未配置的端口,IBA 规则不能识别其LID

3.日志消息属于某些调试信息

osm_pr_rcv_process1.当前SM不能识别被SA PathRecord请求的端口

2.由于SM没有作出反应导致结束端口堆栈查询超时

3.上述两个错误显示在子网改变期间查询,结束端口堆栈应该重试查询

log_trap_info1.流量控制监视程序计数器在监视时超时,SMA交换机发出紧急trap

2.流量控制更新错误

3.可能是由于在OperationalVLs上的对等端口不匹配

log_rcv_cb_error1.可能是新的MulticastFDBTop字段选项出问题

2.从SM流入交换机的初始路径出问题

3.交换机的固件版本不相符

4.在SM中禁止了这些流

sm_mad_ctrl_send_err_cb1.SM没有收到从SMA的NodeInfo查询响应

2.检查VL15的下行计数器

sm_mad_ctrl_send_err_cb1.Mellanox需要FDR10的专有SM MAD支持

2.可能是使用了旧版本的Mellanox固件,如果可能,需要检查版本和更新

3.替代方法是关闭opensm配置文件中的SM经由FDR10的FDR10支持

perfmgr_mad_send_err_callbackPMA没有回应PerfMgr的请求(获取或设置)

Perfmgr_send_mad当发送PerfMgtMAD到PMA时,PerfMgt没有在“suspended”状态

osm_get_port_by_mad_addr当前SM不能识别一些查找请求的LID

pi_rcv_check_and_fix_lid1.SM质疑一些结束端口的PortInfo和基于LID 0xffff的接收数据

2.SM还未配置的端口,IBA 规则不能识别其LID

3.日志消息属于某些调试信息

osm_pr_rcv_process1.当前SM不能识别被SA PathRecord请求的端口

2.由于SM没有作出反应导致结束端口堆栈查询超时

3.上述两个错误显示在子网改变期间查询,结束端口堆栈应该重试查询

在一个故障发生的时候,诊断算法应该能够尽可能准确地定位故障,按照某种故障是否发生以及是否正确诊断出故障,故障诊断算法的精确性表现为4个方面,如表2所示。

故障诊断的精度由公式(A+D)/(A+B+C+D)计算,其中A+B=100%,C+D=100%。在实际的诊断中,人们常常更加关心A类和C类的精度,A类精度代表了一个诊断方法的实际能力,一个故障发生后是否能够被诊断方法识别和定位,C类精度标志着一个诊断系统的可靠性。

本文选取1500个网络事件信息作为待分类故障样本集,根据上述分析,故障样本集大致可以分为15个故障类,将其中的x个事件作为训练集,1500-x个事件作为验证集,将IL_Bayes算法与文献[12]中提出的基于模糊概率神经网络的故障分类算法(Fuzzy Probabilistic Neural Network Classifier, FPNNC)在故障A类精度(即诊断精度)和C类精度(即误诊率)两方面进行了比较,结果如图2和图3所示。

由图2可以看出,两个分类算法的分类精度随着训练集的增大而增加,由于对故障进行了增量学习,IL_Bayes算法比FPNNC算法的分类精度高。

图3可以看出两个算法的故障误诊率随着训练集的增大而降低,增量再学习机制使得IL_Bayes方法比FPNNC方法的故障误诊率更低。

通过上述实验证明,IL_Bayes方法具有较高的分类精度和较低的故障误诊率,在一定程度上有效地解决了IB网络的故障分类问题,为IB网络故障的诊断提供了一个较为有效的方法,同时在IL_Bayes方法中引入了再学习机制,能对分类器进行修正,不断完善故障类集合,达到了故障分类性能优化的目的。

4结语

本文针对大规模数据中心网络中如何有效监控网络异常事件、发现网络性能瓶颈和潜在故障点,为网络性能优化提供支持,深入分析IB网络的特性,引入了特征选取策略和增量学习策略,提出了一种面向大规模IB网络增量学习的故障诊断方法IL_Bayes,在天河2真实的网络环境,并对算法的诊断精度和误诊率进行了验证。

本文研究了贝叶斯理论在故障诊断中的应用,进一步研究高效率的贝叶斯推理算法和学习算法将是提高故障诊断决策方法效率的关键因素和重要研究内容。

参考文献:

[1]DENG G, GONG Z, WANG H. Characteristics research on modern data center network[J]. Journal of Computer Research and Development, 2014, 51(2):395-407.(邓罡,龚正虎,王宏. 现代数据中心网络特征研究[J]. 计算机研究与发展,2014,51(2): 395-407.)

[2]SHEN L. Research and implementation of InfiniBand network interface [D]. Changsha: National University of Defense Technology, 2010: 1-3.(沈力. InfiniBand网络接口的研究与实现[D]. 长沙:国防科学技术大学,2010: 1-3.)

[3]Oracle Corporation. An oracle white paper: consolidating Oracle applications on exalogic[EB/OL].[20150322].http:/// us/products/middleware/appconsolidationexalogic395610.pdf.

[4]ABTS D, MARTY M R, WELLS P M, et al. Energy proportional datacenter networks[C]// Proceedings of the 37th Annual International Symposium on Computer Architecture. New York: ACM, 2010:338-347.

[5]Mellanox Corporation. Mellanox solution brief: Mellanox low latency, high bandwidth InfiniBand for Web 2.0 and cloud deployments[EB/OL].[20150322].http:///relateddocs/company/MLNX_Corp_Inv_deck.pdf.

[6]OUSTERHOUT J, AGRAWAL P, ERICKSON D, et al. The case for RAM clouds: Scalable high performance storage entirely in DRAM[J]. ACM SIGOPS Operating Systems Review, 2009,243(4): 92-105.

[7]SONG H, QIU L, ZHANG Y. A flexible framework for largescale network measurement[J]. IEEE/ACM Transactions on Networking, 2009, 17(1):106-119.

[8]ZHENG Q, YAO M, QIAN Y. Novel fault location approach based on Lagrangian relaxation and subgradient method[J]. Systems Engineering Theory and Practice, 2008,28(11):155-164.(郑秋华,姚敏,钱云涛. 基于拉格朗日松弛和次梯度法的网络故障定位新方法[J]. 系统工程理论与实践,2008,28(11):155-164.)

[9]XU Q. Study of network fault alarm correlation based on data mining[D]. Beijing: Beijing University of Posts and Telecommunications, 2007: 88-102.(徐前方.基于数据挖掘的网络故障告警相关性研究[D].北京:北京邮电大学,2007: 88-102.)

[10]QI Y. Computer network intelligent diagnosis technology[D]. Nanjing: Nanjing University of Science and Technology, 2004.(戚涌.计算机网络智能诊断技术研究[D].南京:南京理工大学,2004.)

[11]XUAN H, ZHANG R, ZUO M, et al. A hierarchical fault diagnosis algorithm for data center network[J]. Acta Electronica Sinica, 2014,42(12): 2536-2542.(宣恒龙,张润驰,左苗,等.面向数据中心网络的分层式故障诊断算法[J].电子学报,2014,42(12):2536-2542.)

网络故障诊断范文第8篇

【关键词】网络;互联网;路由器;故障诊断

Excluded from analysis computer network connectivity problems

Hao Xue-mei

(Yongnian County Land Resources BureauYongnianHebei057150)

【Abstract】This paper briefly introduces the basic concepts of networks and routers, network stratification brief diagnostic techniques, combined with discussion of diagnosis router interfaces, excluding Review Internet connectivity problems.

【Key words】Fault diagnosis;Internet;Router Network

1. 引言

从国际上看,网络管理与故障诊断已经经历了从无到有的过程,现在正在从初级到高级,从不完善到完善,从集中到分散的目标发展。实现故障诊断的科学化、规范化已经成为影响网络持续、高速、健康发展的重大问题。在美军《2010年联合构想》中,首次把通信故障管理作为与“主宰机动、精确打击、全维防护”相并列的四大作战原则之一。

2. 计算机网络概述

计算机网络是由计算机集合加通信设施组成的系统,即利用各种通信手段,把地理上分散的计算机连在一起,达到相互通信而且共享软件、硬件和数据等资源的系统。计算机网络按其计算机分布范围通常被分为局域网和广域网。局域网覆盖地理范围较小,一般在数米到数十公里之间。计算机网络的发展,导致网络之间各种形式的连接。采用统一协议实现不同网络的互连,使互联网络很容易得到扩展。因特网采用TCP/IP协议作为通信协议,将世界范围内计算机网络连接在一起,成为当今世界最大的和最流行的国际性网络。

3. 常见计算机网络故障分析及影响

3.1计算机网络故障的分类。

虽然有各式各样的网络故障,但所有的故障总体可分为物理故障与逻辑故障,也就是通常所说的硬件故障与软件故障。硬件故障有网卡、网线、集线器(Hub)、交换机、路由器等。软件故障中最常见的情况就是网络协议问题或因为网络设备的配置原因而导致的网络异常或故障。

3.2计算机网络故障判断步骤。首先要检查网卡是否正常。连接计算机与其他网络设备的跳线、网线是否畅通。网络连线的故障通常包括网络线内部断裂、双绞线、RJ-45水晶头接触不良。可用测线器检测。两边的RJ-45头是否插好。信息插座是否有故障。

故障原因:虽然故障原因多种多样,但总的来讲不外乎就是硬件问题和软件问题,说得再确切一些,这些问题就是网络连接性问题、配置文件等选项问题。

3.2.1网络连接性:网络连接性是故障发生后首先应当考虑的原因。连通性的问题通常涉及到网卡、跳线、信息插座、网线、Hub、Modem等设备和通信介质。其中,任何一个设备的损坏,都会导致网络连接的中断。连通性通常可采用软件和硬件工具进行测试验证。排除了由于电脑网络协议配置不当而导致故障的可能后,就应该查看网卡和Hub的指示灯是否正常,测量网线是否畅通。

3.2.2配置文件和选项:服务器、电脑都有配置选项,配置文件和配置选项设置不当,同样会导致网络故障。如服务器权限的设置不当,会导致资源无法共享的故障。电脑网卡配置不当,会导致无法连接的故障。当网络内所有的服务都无法实现时,应当检查Hub。网络诊断可以使用包括局域网或广域网分析仪在内的多种工具:路由器诊断命令;网络管理工具和其它故障诊断工具。CISCO提供的工具足以胜任排除绝大多数网络故障。查看路由表,是解决网络故障开始的好地方。ICMP的ping、trace命令和Cisco的show命令、debug命令是获取故障诊断有用信息的网络工具。我们通常使用一个或多个命令收集相应的信息,在给定情况下,确定使用什么命令获取所需要的信息。另外show buffer命令提供定期显示缓冲区大小、用途及使用状况等。Show proc命令和 show proc mem命令可用于跟踪处理器和内存的使用情况,可以定期收集这些数据,在故障出现时,用于诊断参考。

4. 解决计算机网络故障的方法

4.1物理层及其诊断。物理层是OSI分层结构体系中最基础的一层,它建立在通信媒体的基础上,实现系统和通信媒体的物理接口,为数据链路实体之间进行透明传输,为建立、保持和拆除计算机和网络之间的物理连接提供服务。

物理层的故障主要表现在设备的物理连接方式是否恰当;连接电缆是否正确;MODEM、CSU/DSU等设备的配置及操作是否正确。确定路由器端口物理连接是否完好的最佳方法是使用show interface命令,检查每个端口的状态,解释屏幕输出信息,查看端口状态、协议建立状态和EIA状态。

4.2数据链路层及其诊断。数据链路层的主要任务是使网络层无须了解物理层的特征而获得可靠的传输。数据链路层为通过链路层的数据进行打包和解包、差错检测和一定的校正能力,并协调共享介质。在数据链路层交换数据之前,协议关注的是形成帧和同步设备。

4.3硬件诊断。

4.3.1串口故障排除:串口出现连通性问题时,为了排除串口故障,一般是从show interface serial命令开始,分析它的屏幕输出报告内容,找出问题之所在。接口和线路协议的可能组合有以下几种:(1)串口运行、线路协议运行,这是完全的工作条件。该串口和线路协议已经初始化,并正在交换协议的存活信息。(2)串口运行、线路协议关闭,这个显示说明路由器与提供载波检测信号的设备连接,表明载波信号出现在本地和远程的调制解调器之间,但没有正确交换连接两端的协议存活信息。(3)串口和线路协议都关闭,可能是电信部门的线路故障、电缆故障或者是调制解调器故障。(4)串口管理性关闭和线路协议关闭,这种情况是在接口配置中输入了shutdown命令。通过输入no shutdown命令,打开管理性关闭。

4.3.2以太接口故障排除:以太接口的典型故障问题是:带宽的过分利用;碰撞冲突次数频繁;使用不兼容的类型。使用show interface ethernet命令可以查看该接口的吞吐量、碰冲突、信息包丢失、和类型的有关内容等。

(1)通过查看接口的吞吐量可以检测网络的利用。互联网发生这种情况可以采用优化接口的措施,即在以太接口使用no iproute-cache命令,禁用快速转换,并且调整缓冲区和保持队列。

(2)两个接口试图同时传输信息包到以太电缆上时,将发生碰。以太网要求冲突次数很少,不同的网络要求是不同的,一般情况发现冲突每秒有3、5次就应该查找冲突的原因了。碰冲突产生拥塞,碰冲突的原因通常是由于敷设的电缆过长、过分利用、或者“聋”节点。

4.4网络安全。目前,防火墙有两个关键技术,一是包过滤技术,二是服务技术。

(1)包过滤技术:包过滤技术主要是基于路由的技术,即依据静态或动态的过滤逻辑,在对数据包进行转发前根据数据包的目的地址、源地址及端口号对数据包进行过滤。包过滤不能对数据包中的用户信息和文件信息进行识别,只能对整个网络提供保护。

(2)服务技术服务又称为应用级防火墙、防火墙或应用网关,一般针对某一特定的应用来使用特定的模块。服务由用户端的客户和防火墙端的服务器两部分组成,其不仅能理解数据包头的信息,还能理解应用信息本身的内容。当一个远程用户连接到某个运行服务的网络时,防火墙端的服务器即进行连接,IP报文即不再向前转发而进入内网。

5. 结语

网络发生故障是不可避免的。网络建成运行后,网络故障诊断是网络管理的重要技术工作。搞好网络的运行管理和故障诊断工作,提高故障诊断水平需要注意以下几方面的问题:认真学习有关网络技术理论;清楚网络的结构设计,包括网络拓朴、设备连接、系统参数设置及软件使用;了解网络正常运行状况、注意收集网络正常运行时的各种状态和报告输出参数;熟悉常用的诊断工具,准确的描述故障现象。

参考文献

[1]李艇《网络安全与认证》 重庆大学出版社,2010(33-35).

[2]杨富国《 网络设备安全与防火墙》,北方交通大学出版社2008(24-25).

[3]靳爱国等.计算机实用维修技术,北京:国防工业出版社,2009( 78-80).

[4]王丽艳,浅谈防火墙技术与防火墙系统设计[J].辽宁工学院学报,20011(10):28-33.