开篇:润墨网以专业的文秘视角,为您筛选了一篇浅议网络流量抽样测量技术范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘要:随着高速网络技术的发展,使得实时在线的流测量非常因难,基于抽样的流量测量方法作为一种可扩展的技术已经成为人们经常采用的一种有效的流测量,本文简要介绍了抽样测量的基本理论,对当前抽样测量测量方法进行了综述,并对抽样技术的发展趋势做了简要的探讨。
网络流量检测和管理在广域网络的运行、管理和用法分析、路由权值配置、负载平衡、容量规划等方面都有越来越多的需求和应用,特别是随着网络应用的不断丰富和网络速率的不断提高,这种需求变得日益突出。传统的网络流量测量是对链路上通过的所有报文进行都捕捉和统计的方式进行的。随着今天高速网络技术的发展,传统的流量测量方法会对测量设备产生很大的开销,因而逐渐变得不再实用。基于抽样的流量检测方法作为一种可扩展的技术逐渐引起人们更多的关注。
一、 抽样技术的基本概念
所谓网络流量的抽样测量,就是在网络流量测量的时候,只是选择保存部分报文,而不是采集流量的所有报文。然后用统计分析的方法对抽样测量的样本进行分析,从而得出网络的一些性能参数。
将统计抽样的方法引入流量测量具有十分重要的意义。网络流量的抽样测量方法主要解决了如下几个问题:
降低了资源的需求:采用抽样测量的方法,由于仅需要处理全部流量的一小部分,这不仅降低了对CPU资源的需求,同时也降低了存储空间。
提高了分析的速度:在对采集的样本进行分析的时候,抽样测量的样本总量比母本的总量要少得多,由于数据总量的减少,对这些数据的维护和分析也更加容易,特别是在进行离线分析的时候,能够在很大程度上提高分析处理的速度。
将统计抽样的方法引入流量测量后,抽样测量主要应用在以下几个方面:
基本参数的测量:网络流量的基本参数譬如包长分布,包到达时间间隔分布,吞吐量,自相似系数等的测量是对网络进行建模或者分析的基础,采用抽样测量的方法能够比较准确的估计这些参数。
QoS IP:QoS是指IP的服务质量,即IP数据流通过网络时的性能。它的目的就是向用户的业务提供端到端的服务质量保证。它有一套度量指标,包括业务可用性、延迟、可变延迟、吞吐量和丢包率。将抽样测量应用在QoS的指标测量上可以提高处理的速度。
路径测量:网络流所经过的网络路径的测量在网络规划和管理中具有非常重要的意义。应用抽样测量的方法来进行路径测量具有如下几个优点:不依赖于网络的状况;对资源的需求比较低。
流量计费:将抽样测量应用到流量计费中,可以降低计费系统的运算压力和减少最终的数据量,但抽样测量系统必须保证计费的精确性,有很多学者正在进行这方面的研究工作。
二、 抽样测量方法
抽样测量的方法主要有两类[1],一类是基本的抽样测量方法,它由几种不同的抽样机制和几种不同的抽样技术组合而成;另一类是基于流的抽样测量方法,它在抽样选择的时候结合了流的概念。
1、 基本的抽样测量方法
定义1:抽样机制是指在每个抽样间隔内如何选择一个样本。它主要有下面几种:
(1) 系统抽样(Systematic Sampling):抽取每个抽样间隔内的第一个观察对象,每个抽样间隔都具有相等的长度k。
(2) 随机抽样(( Random Sampling):从每个抽样间隔内随机抽取一个观察对象,每个抽样间隔都具有相等的长度k。
(3) 简单抽样((Simple Sampling):直接从母群体(population)中随机抽取样本。
(4) 变长系统抽样(Variance-length systematic):和系统抽样类似,但是抽样间隔的长度不相等,它们是均值为k的随机变量。
这些机制的示意图如图一所示。
图一 抽样机制示意图
定义2:抽样技术是指如何定义一个抽样间隔。也就是说,它定义了抽样间隔k的单位。抽样技术主要有时间触发和事件触发两种。
(1) 事件触发(Event-driven):抽样间隔的长度由经过测量点的数据包的数目决定。在使用事件触发的方法时需要使用一个包计数器来决定抽样间隔的边界。k的单位在这里是指数据包的数目。
(2) 时间触发(Time-driven):抽样间隔的长度由一个定时器决定。在使用时间驱动的方法时需要使用一个定时器来决定抽样间隔的边界。k的单位在这里是指时间。
具体的抽样方法由所采用的抽样方案和抽样技术来决定,将以上的抽样方案和抽样技术进行组合,可以得到8种基本的抽样方法,如表一所示。
表一 基本抽样方法
这些方法各有优缺点,有的实现起来比较简单,但估计结果的准确度不高,有的实现起来较复杂,但准确度比较高。一般根据具体的需求来选择不同的抽样方法。
2、 基于流的抽样测量方法
数据在互联网上传输是基于分层协议模型的,不同的数据包在不同协议或处理方式上具有不同的属性。为便于研究,IETF将网络中数据以“流”[ 2 ]的形式来归类,将报文属性映射到Flow ID,即FlowID = f ( Packet Attributes) ,映射规则对不同的协议栈都有效,而且也适用于多协议的网络环境。IETF提出的归并属性主要有3类[ 3 ] ,它们分别是报头中的若干字段、报文具有的若干特征和报文在转发处理中派生的若干属性等,典型的是报头五元组(源/目的IP地址、源/目的端口号、协议类型等)。流特征反映了某一类应用、终端、子网或协议的特征,对于业务源流量建模、研究和开发新的网络传输协议、开发新的网络设备以及网络QoS管理等都有非常重要的作用。
基于流的抽样测量方法是根据包的内容来决定是否抽取这个数据包。一般通过一个哈希函数来对包的内容进行运算,如果运算的结果在抽样域内,则采集这个数据包。
三、 抽样技术的发展趋势
报文抽样技术的发展是网络技术不断发展的必然要求,也随着网络技术的发展不断改进的。
静态抽样不能随网络状态实时调整表现出诸多缺陷,严重影响了对高速网络的有效测量。近年来,由于人们对网络流量源特征、网络行为、高性能协议设计等的研究逐渐增多,人们越来越希望能将随机抽样的方式和报文过滤技术相结合,更好地满足各种网络性能的测量,因而基于流的抽样技术逐渐成了流量测量领域内的一个新主题。
流抽样测量是内容触发方式与其他抽样方式的结合,它的最大弱点是对系统资源的负担,为了克服这个弱点,人们逐渐将哈希算法引入其中。Duffield和Grossglauser首先将哈希函数引入抽样测量,但他们的目的是对观测域内各个报文进行识别,而在基于流的抽样中,哈希函数主要用来进行流的识别,同时还保证抽样样本的随机性。
另外,自适应抽样利用网络流量的相关性预测流量状态,并实时调整抽样策略或参数,自动在允许误差范围内进行尽可能精确的测量,更好地捕捉到网络流量特征和网络行为特征。因此,这种抽样技术也成为网络抽样测量的研究重点。
参考文献:
[1] Zseby T, Molina M, Raspall F, et al. Sampling and Filtering Techniques for IP Packet Selection[C/OL] .http:///internet-drafts/draft-ietf-psamp-sample-tech-07.txt
[2] 张宏莉, 方滨兴, 胡铭曾 等. Internet测量与分析综述[J]. 软件学报
[3] Claise B. IPFIX Protocol Specifications[C/OL].