首页 > 范文大全 > 正文

浅谈光传输SDH网故障定位及排查方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇浅谈光传输SDH网故障定位及排查方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:SDH全称叫做同步数字传输体制(协议),它规范了数字信号的帧结构、复用方式、传输速率等级,接口码型等特性。sdh传输系统的好坏直接制约着通信网的发展。但网络故障的发生是不能完全避免的,它将直接影响到整个运营网络的通信业务,笔者根据多年的维护经验总结出一套快速、精准、行之有效的故障排除方法

关键词:SDH 传输 处理方法 案例

中图分类号:TN914.332 文献标识码:A 文章编号:1007-9416(2012)02-0041-02

我们知道当今社会是信息社会,高度发达的信息社会要求通信网能提供多种多样的电信业务,通过通信网传输、交换、处理的信息量将不断增大,这就要求现代化的通信网向数字化、综合化、智能化和个人化方向发展。而SDH传输系统是通信网的重要组成部分,传输系统的好坏直接制约着通信网的发展。故障的发生将不可避免,它直接影响到各运营商的业务,造成严重的经济损失。因此,必须在日常的SDH维护工作中制定出一套故障处理的流程和方法,来指引我们快速、精准、有条不紊地进行排查,将损失减少到最低。

笔者从事SDH光传输维护已有多年,本文将简单论述以下三点:一、如何做好日常巡检及维护工作;二、根据告警信息定位故障的处理方法;三、目前常见的几个排查方法及故障案例。

1、日常巡检及维护工作

故障的发生是难以估计的,有些是日积月累,有些是突发事件,有些是人为破坏或自然灾害,等等因素。因此,做好日常巡检工作尤为重要,如同人的身体需要定时体检一样,发现问题毛病后要及时治疗,机器设备也不例外,尽早发现隐患尽早排除。日常维护主要工作:

(1)保持机房清洁干净,防尘防潮,防止鼠虫进入;检查机房电压输出正常,电源无异常告警;测试相对温湿度。

(2)设备运行状态检查包括观察机柜顶端指示灯,观察各单板指示灯。测试设备表面温度,观察风扇指示灯,观察风扇转动情况,测试通话情况。

(3)网管维护项目包括网管的启动、关闭检查,定期备份,网管和数据库运行正常。保护倒换检查,查询日志记录,设备环境变量检查。

2、根据告警信息定位故障的处理方法

2.1 网管上报单站丢失,光板断纤告警信息

按照网管上报的告警信息,显示某网元监控数据丢失,无法对其操作配置,承载业务中断,此故障定义为业务中断类; 可能有三种原因;第一、外部原因,包括供电电源故障、接地故障、环境异常、光纤、电缆故障;第二、人为原因,包括误操作设置了光路或支路通道的环回,误操作更改、删除配置数据,设置业务未装载;第三、设备本身故障,单板失效或性能不好。

2.2 网管上报某网元有误码告警信息

此故障现象时断时续,时好时坏,我们将其定义为误码类故障;同样可能有三种原因;第一、外部原因包括光功率问题、接地故障、环境温度、电缆故障、设备外部干扰;第二、人为原因,时钟配置错误;第三、设备本身故障、单板失效或性能不好(交叉、时钟、线路、支路)。

3、目前常见的几个排查方法及故障案例

3.1 故障排查的常用方法

故障处理原则能从大的方向来把握故障,而实际故障定位到具体故障点是有方法可循的,常用的有以下几种:

3.1.1 告警、性能分析法

通过设备告警指示灯获取告警信息,这种方法能大概判断出故障的现象,缺点是设备指示灯仅反映设备当前的运行状态,对于设备曾经出过故障,无法表示,设备指示灯状态只能反映设备告警级别,而不能准确告知具体告警。通过网管获取告警和性能信息,有两大优点;全面性,不仅仅是一个站、一块板的故障信息,而且是全网设备的故障信息;详实性,能够获取设备当前存在哪些告警、告警发生时间,以及设备的历史告警;能够获取设备性能事件的具体数值。

3.1.2 仪表测试法和经验法

该法一般用于排除传输设备外部问题以及与其他设备的对接问题,广义上是指用具体仪表测试的手段分析故障,定位确切故障点或者证明非传输原因故障,因为仪表的测试结果是最有说服力的,该方法有时要结合环回法一起使用。SDH光传输维护中经常用到的2M误码测试仪、OTDR、光源光功率计、SDH分析仪、发光二极管、等等。典型应用如:用OTDR来测试光纤断点,2M误码仪测试业务的正常状态,发光二极管可测试同轴电缆线头的收发线序与好坏。笔者从事多年的维护工作,对一些紧急的故障,可凭丰富的经验对设备进行复位单板、单站重启、重新下发配置、将业务倒换到备用通道。

3.1.3 环回法和替换法

这两种方法是SDH传输设备故障定位最常用、最行之有效的方法。环回法的处理步骤为:环回业务通道采样、画出所采样业务一个方向的路径图、逐段环回,定位故障站点、根据环回现象初步定位故障单板。替换法就是使用一个工作正常的物件去替换一个被怀疑工作不正常的物件,可替换物件包括线缆、光纤、法兰盘、电源、单板、设备等。

3.1.4 更改数据配置法

该法适用于故障定位到单站后,用以进一步定位故障,如特定故障。更改时钟配置:时钟告警、指针调整;更改板位配置:怀疑单板或是母板槽位故障;更改时隙配置:将故障定位到单站;判定线路或支路故障;更改单板参数配置:以太网故障、对接故障。

3.2 典型故障案例

以下的几个案例就是本人在工作过程中遇到的事情,我们可以看到,在这些案例的处理上,充分体现了以上所述的故障定位原则和方法。

案例一:客户业务配置错误导致设备掉电重启后业务中断

3.2.1 故障现象

某运营商使用两台设备组成1+1线性复用段,两台设备为2500+设备A、155/622H设备B。A节点使用9、10槽位的SL4和B站点的1、2槽位的OI4单板组成1+1线性复用段,保护属性为单端不恢复。A节点的9-SL4和B节点2-OI4相连,10-SL4和B节点的1-OI4相连。A站点配置的业务为:9-SL42-PQ1,B站点业务配置为:4-PD2T2-OI2D。某日B站点掉电重启后业务中断,客户在A节点将相关业务去激活后再激活,业务正常。

3.2.2 原因分析

(1)纤缆连接错误;(2)复用段设置错误;(3)业务配置错误

3.2.3 处理过程

(1)查询2500+设备上SL4单板条码发现该单板是新发货单板,排除SD525芯片问题引起的告警锁定。(2)查询纤缆连接,收发都正常,且纤缆连接没有问题。(3)查看倒换情况,从网管的告警信息来看倒换正常,两端的参数设置也没有问题,进而需要考虑是不是业务配置方面有问题。(4)用命令行查询B站点业务发现支路业务配置在无保护的sys2上,但没有复制到sys1的业务,此处的业务配置有问题。咨询客户后发现客户在B节点配置数据步骤上出现问题,客户先配置了两个无保护逻辑系统,然后就配置了支路板到sys2的业务,最后才配置了1+1线性复用段,即目前设备上所运行的业务属于无保护业务。当B节点设备掉电重启后,A站点的9、10槽位SL4单板上报R_LOS告警,现场查询历史告警信息,发现上报时间有差别,9槽位单板先于10槽位3秒上报R_LOS,复用段倒换是毫秒级的,于是两点之间发生线性复用段倒换,A节点倒换到10槽位接收业务。由于A点配置的是单段不恢复式,所以A点将一直从10槽位接收业务,而此时B节点并没有发往1-OI4的业务,导致A节点收不到业务而上报TU-AIS告警。客户在A节点将相关业务重新激活后,A节点将从9-SL4接收业务,此时业务可以通。

解决方法:将B节点现有业务删除后重新配置。

3.2.4 结论

注意业务配置顺序,主机设备配置业务前必须要指定相应的逻辑系统或是保护组。

案例二:端口设置不匹配导致以太网业务不通

(1)系统描述。在一组网应用中,两个华为的OptiX 2500+网元组成一两纤双向无保护链,如图1-1所示。用户通过ET1板接入网络。

(2)故障现象。用户反馈网络接入有问题。在网管上查询,但没有发现告警。在两个网元处分别连接一台计算机并ping对方,但无法ping通。

(3)处理过程。1)检查硬件如连接网线、计算机和尾纤,但是没有发现问题。2)检查配置如虚通道设置、路由设置和端口的工作模式设置。发现以太网接口的工作模式设置不正确。计算机只支持10Mbit/s的速率,但ET1板的端口工作模式被设为了100M全双工。当把ET1板的端口工作模式修改为10M全双工之后,ping命令显示两个网元之间的连接是正常的。业务也随之恢复正常了。

(4)结论。对接设备时,必须将两端设备的端口工作模式设置为相同的模式。举例说明,如果对端的工作模式设为固定模式(如100M全双工),本端的工作模式也必须设为固定模式。如果对端的工作模式设为自协商,本端的工作模式也必须设为自协商。

综上所述,只要我们熟悉SDH设备的性能、网络结构、配置数据及步骤,做好日常巡检工作,准备好各种应急措施,当故障发生时,定能有条不紊的处理好。