首页 > 范文大全 > 正文

基于随机丢包网络的网络存储系统故障检测方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于随机丢包网络的网络存储系统故障检测方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:针对网络随机丢包的特性,研究网络存储系统在带有随机丢包的网络中故障检测失误率高的问题,提出了一种在随机丢包网络中的网络存储故障检测方法。该方法将残差发生、残差评估和误报率引入故障检测中。首先,在系统框架中实现残差发生;然后,充分利用随机丢包的随机特性获得残差评价;最后,通过切比雪夫不等式对所设计的阈值进行性能评价,即误报率的计算,给出了相应的诊断算法。仿真结果表明,该方法对故障具有较高的检测灵敏度,并且也证明了该方法的有效性。

关键词:网络存储;故障检测;残差发生;残差评价:误报率;丢包

中图分类号: TP393;TP206.3 文献标志码:A

Fault detection approach of network storage based on random packet dropout network

YANG Guang1*, ZHOU Jingli2, XIONG Ting1, JI Houling3

(

1.School of Information and Safety Engineering, Zhongnan University of Economics and Law, Wuhan Hubei 430073, China;

2.School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan Hubei 430074, China;

puter School, Wuhan University, Wuhan Hubei 430072, China

)

Abstract:

Focusing on the random packet loss, the high failure rate of failure detection for network storage system with random packet loss was studied. A Fault Detection (FD) for network storage with random packet dropout was presented. The residual generation and residual evaluation as well as False Alarm Rate (FAR) were used in the approach. First, residual generation was carried out in the periodic system framework. Then, residual evaluation was got by making use of the stochastic properties of the random packet loss. Finally, performance evaluation of the computation of FAR is fulfilled with the assistance of Chebyshevs inequality, and the algorithms of fault detection were given. The simulation results show that this approach can effectively detect the fault. Moreover, this approach is sensitive to fault.

Key words:

network storage; Fault Detection (FD); residual generation; residual evaluation; False Alarm Rate (FAR); packet dropout

0 引言

网络存储系统是通过实时网络形成分布式的存储系统。在网络存储中,数据的输入和输出通过网络进行传输。然而由于网络传输的不可预知性也会带来新的问题,比如网络延迟[1-3]、丢包[4-5]、传输受限[6-7]等。

故障检测(Failure Detection, FD)技术是提高动态系统安全性和可靠性的必要手段,而故障检测技术的应用也极为广泛:网络通信协议[8]、组成员管理[9]、集群计算机管理[10]等。然而回顾现有文献发现,带有随机丢包的故障检测技术仍然是一个普遍的问题。由于无法正确区分故障节点和反应很慢的节点,导致很多重要的基础性问题(如一致性问题)无法解决[11]。

近年来,人们提出了各种故障检测方法:

Chandra等[11]提出了一种不可靠故障检测器的概念:1)进程失效了,但是它不会被怀疑失效;2)一个被怀疑已失效的进程也许并没有失效,而且故障检测器能重新信任以前被怀疑的进程。最后作者根据完整性和准确性描绘了故障检测器的特性。完整性是指故障检测器能永远怀疑已失效进程,而准确性是指故障检测器不会将正常进程误认为失效。

自适应故障检测[12-14]能自动调整以适应网络状况。若考虑网络丢包,网络行为在高数据传输时和低数据传输时应有很大的不同,期望信息到达时间和时延都会不同。因此自适应故障检测器是很有研究价值的。

Chen等[12]提出了著名的基于网络流量概率分析的自适应故障检测方法。这种方法通过计算到达时间的采样以估计下一个心跳信息的到达时间,而时延是根据估计值加上一个安全常量,而且会在每个心跳信息到达后重新计算。

Bertier等[15]结合了Chen的方法和Jacobson的方法,提出了一种类似于Chen的方法,但这种方法没有使用Chen方法中的安全常量而是按照Jacobson方法计算一个可变的安全量。

积累故障检测是由Hayashibara等[14]提出。这种方法不输出进程是否被怀疑失效还是正常,它会在一个连续的空间给出一个怀疑信息,若怀疑信息高则说明被检测进程失效的概率高。Hayashibar的方法与传统的只输出怀疑或不怀疑故障检测器有很大的区别,它只是输出一个怀疑概率。这种方法最大的价值是将应用需求与监视环境联系起来。

缓慢故障检测是利用应用服务消息去监视其他进程[13]。Alfrio等[16]基于神经网络提出一种新的算法。Renesse等[17]基于Gossip协议[18]采用轮询检测方法对Gossip故障检测服务进行了改进,提高了性能。Horita等[19]基于组成员管理故障检测服务提出了一种高效的、可扩展的故障检测服务。

本文主要研究带有随机丢包的网络存储故障检测。残差发生和残差评价与误报率(Failre Alarm Rate, FAR)计算都将被考虑。首先,基于系统确定的公式,周期系统框架中完成残差发生。然后,通过充分利用随机丢包、数学期望和变化,获得残差评价。在残差评价阶段,要提供一个阈值来做出故障判断,阈值的性能要通过相应的FAR来评价。为了评估指定阈值的性能,给出了相应的FAR。

1 网络存储模型

如图1所示,在本文中专门设计一个控制器用来检测网络存储系统中所有被检测节点,因此故障检测系统是由分布式接收部件、分布式传感器、一个控制器、被测节点和通信网络组成。