首页 > 范文大全 > 正文

P2P流量分类研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇P2P流量分类研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要: p2p流量已经占据了目前互联网带宽的大部分,对P2P流量的有效监控管理已经成为网络服务提供商(ISP)迫切解决的问题之一。首先分析了P2P流量分类研究现状,对现有的各种流量分类技术以及研究成果进行了比较分析,指出了其中存在的问题。接着详细地分析了已发现的P2P流量特征及网络行为特征,对分类器常用的分类算法进行概括总结。最后分析目前P2P流量分类相关研究中的主要问题并给出下一步研究方向。

关键词: P2P; 流量特征; 流量识别; 分类算法

中图分类号: TP393 文献标识码: A 文章编号:2095-2163(2013)03-0001-06

Research on P2P Traffic Classification

LU Gang, ZHANG Hongli

(1.School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;

2.State Key Lab of Computer Information Content Security, Harbin 150001, China)

Abstract: At present, most bandwidth on Internet is already occupied by P2P traffic. Monitoring and controlling P2P traffic efficiently has been one of the pressing problems for Internet Service Provider. In this paper, the current situation of P2P traffic classification is analyzed firstly. All kinds of present research and related results on P2P traffic classification are compared and analyzed, and then the shortcomings are outlined. The features of P2P traffic and network behavior are discussed in detail. The classifying algorithms in classifier are generalized. Finally, the main problems in the related research about P2P traffic classification are analyzed and some suggestions for future work are also put forward.

Key words: P2P; Traffic Feature; Traffic Identification; Classifying Algorithm

近年来,对等网络P2P(Peer-to-Peer)已广泛应用于文件共享、实时通信、流媒体传输等技术领域。相关研究表明,由全球视角,P2P流量最高可占据整个网络带宽的95%[1] 。P2P流量的迅猛增长给网络带宽造成了严重的负担,而且还以其近乎对称的流量模式加剧了网络的拥塞状况。因此,对P2P流量进行分类并加以控制,已经成为P2P网络研究的热点之一。

P2P流量分类是利用P2P流量特征,将P2P流量与其他流量,例如E-mail和RTSP(Real Time Streaming Protocol,实时流传输协议)等有效区分,以帮助ISP为不同的业务提供相应的服务质量。目前,网络设备生产商和网络服务提供商推出各种流量分类技术,例如,端口识别技术,DPI(deep packet inspection,深层数据包检测)技术,流统计模式识别技术,行为规则匹配技术等等,这些技术从不同的角度对P2P流量进行了识别与控制。Sen等人[2]首次提出了流量分类技术的原则要求,即准确性、可扩展性和健壮性。

P2P流量分类技术涉及到网络测量、网络行为学、图论、算法设计、统计学、数据挖掘、模式识别等多个基础研究领域。其研究内容可以归结为三个问题:

(1)如何在高速网络环境下进行P2P数据的采集分析。流量分类首先要获取数据,而在高速网络环境下,计算及存储资源的限制给P2P流对象的采集分析提出了新的挑战。

(2)如何识别P2P流量,将P2P流量与其他流量区分开。

(3)如何建立实用的P2P流量模型,以预测和量化P2P流量对网络的影响。

这三方面内容分别涉及到P2P的三个研究方向:P2P的流量测量,P2P流量识别,P2P的流量建模。其中,P2P流量测量是P2P流量识别的基础;P2P流量识别又是P2P流量建模的核心。

本文第1节介绍P2P流量分类研究现状,对目前各种分类技术进行了比较分析。第2节讨论了P2P系统的特征,第3节介绍了目前常用的流量分类算法。最后,给出目前P2P流量分类的主要研究问题。

1 P2P流量分类研究现状

P2P流量分类技术按其发展的时间顺序,大致可分为基于端口的流量分类,基于深层数据包检测的流量分类、基于流量统计的分类、基于网络行为模式的分类、基于人工智能的流量分类技术和分布式协同分类六种。早期的P2P应用程序使用固定的端口号,所以利用端口即可以识别P2P流量,然而,目前的P2P应用程序使用端口跳变技术和端口伪装技术以绕开流量检测,Bleul等人[3]分析DirectConnect网络得出,在已观察到的端口中,70%的端口仅使用了一次。因此,若仅使用端口进行流量分类,势必会造成较高的误报率和漏报率,该技术已不是目前的主要研究趋势,本节主要研究后五种流量分类技术。

1.1 基于深层数据包检测的流量分类

基于深层数据包检测的流量技术(DPI, Deep Packet Inspection)是利用协议分析与还原技术,分析P2P载荷并提取相应的协议特征值,进而判断是否属于P2P应用。Sen等人[2]查阅大量的P2P协议相关文档和包级别踪迹(packet-level traces),提取得出P2P应用程序的特征,设计了一个在线P2P应用分类器。该分类器通过搜索数据报文的负载并利用模式匹配技术得到较准确的流量识别结果。然而,一些P2P协议文档并不是对外开放的,所以基于这些协议的P2P应用程序的流量特征也很难获得,且DPI技术是一种事后处理方案,也就是将很难识别未知的P2P流量。更严重的是,目前越来越多的P2P协议使用应用层负载加密技术,例如,一些流行的Bittorrent客户端,像uTorrent,BitComet,和Azureus都有协议加密功能或者是消息流加密功能,这极大地限制了DPI技术的应用。因此,研究者集中于研究P2P流量和网络行为的本质特征,以提高流量分类的准确性和有效性。第3期 鲁刚,等:P2P流量分类研究 智能计算机与应用 第3卷

1.2 基于流量统计的分类

流量统计分类是一种不依赖于应用层负载信息的技术,主要是利用网络层和传输层的特征来识别流量。流量统计分类一般需要两个特征:包级(Packet level)特征和流级(flow level)特征。包级统计要求分析待聚类的单个数据流的所有数据包长度的期望和方差的变化、数据包到达的时间序列等等;流级统计特征包括流的持续时间、流的大小等等。具体将在第2节详细分析流量统计的包级和流级特征。

Roughan等人[4]统计数据流中包的平均大小,包到达的间隔时间,数据流的平均持续时间等,提出区分大数据块流量(bulk-data traffic)和流媒体的方法,并且利用启发式方法来识别未知的流量。陈庆章[5]等人指出FTP流量和P2P流量各自的流统计特征。 Perényi等人[6]分析了Skype流量的统计特征并提出Skype流量的识别算法。

Sen[7]等人指出,P2P网络最本质的特征是动态性。动态性体现在两个方面:拓扑的动态性和流量的动态性。而流量的动态性会使得P2P流量在某些情况下不具有区别于其他流量的显著统计特征,例如在一个P2P文件共享的系统中,有两个对等体A和B交换文件,按照流统计的观点,可以利用P2P流量比FTP流量的流持续时间更长、流的总长度更大等特点[5],将P2P流与FTP流区分开。但是如果对等体A失去对下载文件的兴趣,而中途离开P2P系统,那么P2P流就不具有区分FTP流的明显特征了。因此,不应忽略网络行为对流量分类的影响,需要结合P2P网络的行为进一步挖掘P2P系统的动态特征。

1.3 基于网络行为模式的分类

基于网络行为模式的流量分类主要着眼于主机的流行度、主机间的连接模式、主机的功能角色以及网络群体行为模式等特征。Constantinou[8]等人通过记录每个节点与其他节点建立连接的情况而得到P2P系统的逻辑连接拓扑图,并计算其网络直径。研究表明,与其他网络形成的逻辑拓扑图相比,P2P系统所形成的逻辑拓扑图具有更大的直径。如果某个网络的直径大于规定的最大直径阈值,并且网络中的既是服务器又是客户端的结点数超过特定的阈值,则认为该网络是P2P网络。可见,阈值的选择直接影响着检测的准确性,阈值太高会产生漏报,阈值太低会产生误报。该方法具有初步的群体特征思想。陈贞翔[9]对Maze、PPlive、Game和Web Thunder等进行研究,得到部分应用的群体特征并建立形成相应的群体特征库。群体特征库完善程度越好,对群体发现的准确率以及相应的流量识别率越高。

Karagiannis等人利用P2P网络中对等体的连接模式识别P2P流量[10],其误报率大约在8%-12%之间[10]。为提高流量识别的准确率,Karagiannis等人又提出BLINC方法[11],该方法是在传输层上观察主机的行为模式,由三个层面即社会层面、功能层面和应用层面来分析主机的行为模式。在社会层面上,观察主机的流行度;在功能层面上,关注主机是服务的提供者还是服务的请求者;在应用层面上,则着重主机间的交互行为,其目的是识别应用的来源。Lin等人[12]利用这种思想,提取可得一组线性可分的特征并采用多项逻辑斯谛回归分类算法进行网络流量分类。

网络行为模式分类技术必须从每一台主机的若干个数据流中提取信息,此后才能决定该主机的功能角色、群体行为等特征,这显然是耗时的。所以,很难将网络行为模式的分类技术应用于高速网络的实时测量中。

另一方面,由于同一应用程序的不同版本网络行为特征不尽相同,而且同一应用程序的不同流的流量统计特征也未必都相同,例如P2P文件共享系统中的信令流与文件传输流就具有不同的流统计特征,甚至带有不同的传输协议,所以在某种网络环境下所获得的分类器不一定能适用于任何一种网络环境。无论是基于流量统计的分类技术还是基于网络行为模式的分类技术,其分类器都需要具备一定的学习能力和自适应能力以适应不同网络状态下的分类需要。

1.4 基于人工智能的流量分类技术

基于人工智能的流量分类技术是目前P2P流量分类的主要研究趋势之一。刘琼[13] 等人指出P2P流量在地域分布上具有差异性,时间特性上也体现了昼行性。所以分类器也应该能够适应地域和时间的变化,即分类器需要具有一定的自适应能力。于是,相应地就可将人工智能领域的相关技术应用到流量分类中。

按照分类器的学习方式,基于人工智能的流量分类技术在实际应用中大致可分为两种:基于半监督学习的流量分类和基于非监督学习的流量分类。

其中,基于半监督学习的P2P流量的分类过程通常是,首先在离线方式下利用有标记的训练样本建立分类器,即学习的过程,再使用分类器在线分类无标记的流量。Gao[14]等人利用支持向量机模糊网络(SVMFN)分类流量,目的是使分类器在不同的网络环境下具有更好的适应性和准确性。Fuke等人[15]提出了利用BP神经网络分类网络流量, Couto等人[16]的研究方法与Fuke相似。Hu等人[17]则利用关联挖掘的方法进行P2P流量分类。Morre等人[18]使用贝叶斯分类技术对网络流量进行分类。采用半监督学习的方式建立分类器,训练样本的质量将直接影响分类的准确性。然而,获得一个优质的训练样本是较难且耗时的,即使在可控环境下,训练数据的完备性也很难得到确实的保证。

非监督学习的方法利用没有类别标签的样本集进行工作。文献[19,20]采用聚类分析建立分类器。聚类分析的方法一般适用于离线的分类,而不适合在线识别。Chen[21]等人利用神经树,设计了基于网络处理器的硬件分类器在线分类流量。Wang 等人[22] 提出了一种基于可信列表的启发式流量检测方法,该方法通过将已识别的连接加入到一个可信列表中,具有“记忆”能力。但是,该方法在网络连接增多时,维护可信列表却需要消耗较大内存,就会引起内存抖动问题,并且降低识别效率。

机器学习的方法使分类器适应于网络环境的动态变化,但其明显不足却在于:采用机器学习进行流量分类准确性相对不高,流量类别细分能力不足,而且识别效果的验证难度较大。

流量智能分类技术的主要目的是:使分类器智能地适应不同的网络环境。但其面临的最大问题就是概念飘移(concept drift),即在时刻t得到的最佳分类模型yt,与前一时刻t-1得到的最佳分类模型yt-1不一致,引发这种现象的原因在于P2P网络的动态性。如何在P2P流量分类中解决概念飘移的问题将是未来的主要研究方向。

1.5 分布式协同流量分类

随着网络流速的不断提高、网络规模的不断扩大,基于固定点或者有限范围的流量分类,其准确性和效率都在不断下降,且对网络行为分析的能力也已显不足。而分布式协同分类技术则为大规模互联网分布式流量识别和行为分析提供了一个新的思路,业已成为目前分类领域的研究热点之一。该技术已经应用于垃圾邮件检测、网页内容自动分类、入侵检测等领域。

Datta[23]等人提出基于P2P网络的分布式分类方法,通过P2P的流量数据证明这种分类方法的有效性。Bandyopadhyay[24]等人提出一种基于P2P环境的分布式聚类技术。 陈贞翔等人[9]提出了基于DHT(分布式哈希表)设计分布式的自组织识别联盟模型,在联盟成员之间共享流量特征、数据样本和分类经验,借用医疗会诊思想实施联盟协助识别和预警。

分布式协同流量分类的有效性常与分布式识别联盟结点间的通信开销、结点间路由协议的选择等问题有关,如何设计更有效的分布式算法以解决这些问题亦是未来主要研究方向。

1.6 P2P流量分类技术的分析比较

基于端口的分类技术由于仅利用UDP/TCP端口号来分类流量,计算开销小,所以可扩展性好。另一方面,基于端口的分类技术仅使用单一数据包就分类流量,若数据包丢失势必影响分类,所以健壮性就差。同时,正如第1节所述,基于端口的分类技术的准确性也为差。基于深层数据包检测的分类由于负载加密和隐私等因素的考虑,其分类的准确性正在逐渐下降。而基于流量统计特征的分类技术和基于网络行为模式的分类技术需要采集和分析大量的数据,计算开销很大,可扩展性也因之就差。但随着分析数据的不断增多,这两种分类技术的准确性也不断提高,并且由于需要分析大量的数据,个别的数据包丢失,乱序等因素对流量分类的影响不大,由此健壮性就较好。基于人工智能的流量分类技术和分布式协同分类技术具有一定的网络环境自适应能力,所以健壮性和准确性均好,但其可扩展性相对于基于端口的分类技术,则较差。

综上所述,各种分类技术的比较结果如表1所示。

表1 流量分类技术的比较

Tab.1 The comparison of traffic classification techniques

流量分类技术 准确性 可扩展性 健壮性

基于端口的分类 差 好 差

基于深层数据包检测的分类 较好 较好 差

基于流量统计特征的分类 较好 差 较好

基于网络行为模式的分类 较好 差 较好

基于人工智能的流量分类 好 较差 好

分布式协同分类 好 较差 好

P2P流量分类工作大致可以分为特征提取和分类器设计两部分。关于P2P系统的特征研究已经实现了从静态特征研究向动态特征研究的积极转变。分类器的设计目的在于提高分类算法的速度和效率,且要求分类算法具有良好的网络自适应能力,能够动态检测网络的变化[25]。下面即从P2P系统的特征分析和分类器设计两个方面进行介绍。

2 P2P系统特征分析

就流量分类而言,P2P系统的特征可分为静态特征和动态特征。静态特征包括端口特征和应用层负载特征,而动态特征在本节主要分析的是P2P流的统计特征。

2.1 P2P系统的静态特征

常用的P2P应用程序端口号和相应的负载特征在表2中列出。

表2 端口号和负载特征

Tab.2 Port number and payload-based signatures

P2P应用程序 端口号 应用层负载特征

Gnutella 6346-6347 ‘Gnutella’

eDonkey 4662 ‘0xe3\’

BitTorrent 6881-6889 ‘0x13BitTorrent protocol’

正如第1节所述,由于目前P2P应用程序采用随机端口、加密应用层负载等技术,这极大地限制了静态特征识别方法的应用。研究P2P系统的动态特征是流量分类的本质问题。其后着重对P2P流量的统计特征、P2P系统的网络行为特征进行分析。

2.2 P2P流量的统计特征

P2P流量统计特征可以从数据包级和数据流级两个层面测量。利用流统计方法识别P2P流量,其优点在于不受随机端口和应用层负载加密技术的约束,更重要的是,可以通过P2P流量的统计分布进一步分析P2P流量的动态性。

2.2.1 数据包级特征

定义1 网络中存在任意两台主机A与B通信,假设主机A的IP地址为IPA,端口为PORTA,主机B的IP地址为IPB,端口为PORTB,通信协议为Protocol,则两台主机的通信模式可以描述为一个五元组。在超时约束下,采用相同通信模式的一组单向数据包的集合称之为流。

数据包级的流量测定需要统计待分类的单个流内数据包大小、数据包到达的间隔时间、数据包比率(单位时间内传输数据包的个数)、带宽等等。Perényi等人[6]对Skype呼叫流量进行实验,发现平均语音数据包大小在40~320字节之间变化。单向话语流的带宽在20Kbit/s~80Kbit/s之间变化。语音数据包到达的时间间隔是30ms或者60ms,相应的数据包比率分别是33个数据包/每秒和16个数据包/每秒。并利用这些特征将Skype流量与其他的VOIP流量(MSN、Yahoo Messenger、AOL Messenger、Gtalk)做以区别。Perényi等人仅对P2P即时通讯流量进行分析并加以识别,但没有区分其他种类的P2P流量,例如,P2P流媒体应用。同时,Roughan [4]等人指出仅在数据包层面上统计还不足以区分大数据块流和流媒体,也不能将FTP流与WWW流区分开。因此,还需要在数据流级获取更多的统计特征。

2.2.2 数据流级特征

目前,互联网流量主要是由P2P流量和Web流量组成,在此主要比较Web流量和P2P流量的特征。文献[7]分析了大规模网络下P2P流量特征,指出P2P流量的分布具备有偏性(skewed),即10%的大流量对象(heavy hitter)提供了99%的流量。但从定量分析而言,P2P流量并不服从Zipf分布。文献[3]指出P2P文件共享应用的流量具有很强的突发性,而文献[4]指出P2P流媒体的网络流量较少出现突发性,可见,不同应用的P2P流量之间,其特性也有所不同。文献[26,27]比较分析了web流量和P2P流量的特征,同时文献[26]还比较了Gnutella和BitTorrent之间流量特征的不同。就P2P数据流级的统计特征,大多数的研究主要在于流大小,流持续时间,流到达间隔时间和流速率这几个方面,相关定义表述如下:

定义2 设i和j是同一个应用程序发起的两个连续的流,Tsi是流i的开始时间,Tsj是流j的开始时间,则流到达间隔时间IAT=| Tsi-Tsj|。

定义3 令Lij表示第i个流的第j个数据包大小,Ni表示第i个流的数据包个数,那么,第i个流的大小 Si=∑Nij=1Lij。

定义4 设Tsi是第i个流的开始时间,Tei是第i个流的结束时间,则流的持续时间Td=Tei-Tsi。

定义5 假设第i个流的大小为Si,流的持续时间为Td,则流的速率Ri=Si/Td。

由于不同的P2P应用程序采用了不同的运行机制,因此流量特征上具有一定的差别,可以采用不同的数学模型,实现建模。一般而言,目前关于P2P流量建模,所采用的数学模型主要有Pareto分布模型、Weibull分布模型、Weibull-Pareto分布模型、泊松分布模型、对数正态分布模型,幂律分布模型。

现在,对以上定义的研究工作进行完整综述如下。

(1) 流到达间隔时间IAT

文献[26]的实验数据表明,P2P流到达间隔时间的数学期望和标准差要比Web流量的相应结果都要高,这说明P2P流到达间隔时间比Web流到达间隔时间更长且更分散。文献[27]提出可以利用泊松过程为P2P流量实行建模。而文献[26,27]认为Web流到达间隔时间IAT服从双模边界的Weibull分布,P2P流到达间隔时间IAT服从Weibull-Pareto分布。

(2) 流大小

P2P流大小的均值比Web流大小的均值要大[26, 27],这是由于P2P流量中既包括很多小字节流也包括很多大字节流,小字节流主要是由信令(signaling)构成,而大字节流则主要是用于文件或媒体信息传输。Web流量更多是由小字节流组成,很少出现大字节流。Web流量和P2P流量都体现了重尾分布(heavy-tailed)的特点,但P2P流量的重尾程度却比Web流量更大。如果采用Pareto分布近似模拟,那么相对于Web流量,P2P流量的Pareto分布的参数α就较小。流大小的重尾分布说明少数的大字节流占据整个流量字节数的大部分比例。

(3) 流持续时间

P2P流的持续时间要比Web流的持续时间长,文献[26]认为Web流持续时间服从双模的Pareto分布而P2P流持续时间服从Weibull-Pareto分布。而文献[27]认为Web流持续时间和P2P流持续时间近似服从对数正态分布。Web流量中绝大多数是短持续时间且短字节流,而P2P流量中绝大多数是长持续时间且长字节流。Web流速率均值及方差均要比P2P相应值为高[27]。

其他相关研究也有从P2P的上行流量和下行流量的比值来探讨P2P流量的统计特征。尽管利用这种特征在识别P2P流媒体和P2P文件共享流量中,会得到较好的结果,但是在识别QQ、SKYPE、MSN等P2P交互应用程序中,这种特征却并未达到较为明显。

通过比较文献[26]与文献[27]的结论可以看出,由于P2P流量在地域分布上的差异性,所以在不同的网络实验环境下得到的实验数据将会不同,流量建模也会有所差异。另一方面,文献[26,27]提出的模型并未区分信令流量和数据传输流量之间的不同,也未体现P2P流量对其他流量的影响。文献[28]指出在P2P流量识别中应该充分考虑数据传输流量和信令流量之间的不同,文献[29]又提出P2P IPTV的信令流对上行流量和下行流量则有不同的影响,因此需要对P2P的信令流和数据传输流分别进行建模分析。

中国的文化背景、版权管理法令以及网络运营商的计费策略均与其他国家不同,所以建立一个适合于本国国情的P2P流量模型极其重要。该模型不仅能够凸显P2P流量的固有特征,而且还能定量地分析P2P流量对其他流量的影响,这对ISP网络管理更具有实际的意义。

在P2P流量识别过程中,无论是基于静态特征的识别还是基于动态特征的识别,均有各自的优点。而在具体的工程实践中,却是常常将这两种流量识别方法相结合。例如,利用端口特征和负载特征在线实时识别P2P流量,再利用动态特征的识别方法对未知的P2P流量进行识别。这种方法就具有较高的识别准确率。

3 分类器设计

流量分类技术可以形式化描述如下:

令流集合F={f1,f2,f3……,fn},fi的一系列属性为{xi1,xi2,xi3……,xim}(i=1,2,3……n),流的类别集合C={c1,c2,c3……,cp},流量分类的目的就是为了找到映射关系y:FC。

分类器的工作方式可分为两种:在线分类和离线分类,下面详述之。

3.1 在线分类

在线分类过程可以有两种情况。一种是在线实时分类。这种分类清况下的流量分类函数y是已知的,并且使用已知的静态特征实时识别P2P流量。另一种是在线学习分类。在这种分类学习方法中,可以凭经验事先预知一个分类函数y,再从连续的数据流中抽取特征并相应地调整分类函数y。使用在线学习分类方法,典型地有文献[10]所提到的BP神经网络算法。在线学习分类算法要求较高质量的训练样本和较长的训练时间。此外,由于P2P网络具有动态特性,常常出现新的对等体加入,而旧的对等体离开(churn,扰动现象),这使得P2P网络更易发生概念飘移情况。为解决概念飘移问题,在线学习分类以特定的频度重新修正分类函数,这常常使得算法变得更加复杂。因此,需要研究最新的学习算法以适应动态的概念飘移数据流环境。

大部分的在线分类算法是常驻内存的,通常假定处理的数据量很小,所以并不适于大规模高速网络环境下的实时流量分类。为了解决这一问题,并行处理技术和分布式处理技术[27]的思想也都应用到设计在线分类算法中。

3.2 离线分类

利用离线方式分类,多数情况下流量分类函数y是未知的。因此,需要通过预先采集流量样本,再分析流量样本fi的属性特征和流类别C的关系,凭此确定流量分类函数y。离线情况下,分类数据的方法大致可分为两种[17]:确定性(deterministic)分类和不确定性(probabilistic)分类。机器学习、模式识别和数据挖掘等相关领域的算法大多可以归于这两类。

3.2.1 确定性分类

确定性分类可形式化描述如下:

定义类别集合C={c1,c2,c3……,cp},分类后的数据点集合ci={dij},(i=1,2……p,j=1,2……n),下标i表示数据点所属类别,下标j表示某一类别中的某一个数据点。dist(dik,djt)表示类别i中的第k个数据点与类别j中第t个数据点的相似性距离,则确定性分类结果应该同时满足下列条件:

确定性分类中,典型的算法有k-NN算法、K均值聚类算法等。其中,K-NN分类算法在数据维度较低时,有较好的分类性能,但对高纬度的数据处理效率较低。K-均值聚类算法在细分不同的具体应用时,有较高的准确率但不利于发现未知新类别,且需要重复调整聚类中心。文献[9]提出基于数据引力的分类算法,该算法受到牛顿万有引力定律的启发而得出,并在分类过程中考虑了数据类别中元素个数。

3.2.2 不确定性分类

使用不确定性分类技术进行数据分类是基于概率机制的。例如,如果观察到的流量属于P2P的概率是0.8,而属于E-Mail类别的概率为0.2,则该流量应该划分到P2P类别中。不确定性分类技术可以形式化描述如下:

定义类别集合C={c1,c2,c3……,cp},数据点集合D={d1,d2,d3……dn},如果P{cj|d=di}=maxk∈{1,2,……,p}P{ck|d=di},(di∈D, cj∈C),则数据点di将划分到cj类别。

典型的不确定性分类算法包括贝叶斯分类算法、EM算法等。不确定分类技术对于测量过程中出现的误差,具有鲁棒性。而且能够识别分类后的流量间的相关特征,例如,如果观察到的流量属于WWW流类别的概率是0.8,属于大数据块(BULK)流类别的概率是0.2,那么这个流量很可能正在使用HTTP协议下载文件。

离线分类能够处理较大的数据量,但其不足在于事后处理方案。文献[9]对机器学习识别的在线化展开了尝试性的工作,虽然识别结果的准确率较低(准确率大约在0.6~0.8之间),但是却提供了一个新的研究思路。由此进一步提高在线机器学习识别准确率,可作为下一步的研究方向。

4 下一步主要研究工作

综上,P2P系统流量分类总体上还处于起步阶段,无论是P2P系统的特征建模还是分类算法设计,都存在大量的开放性问题有待于进一步研究。鉴于P2P流量分类的研究现状,下一步的研究路线主要概括为以下4个方面:

(1)建立一个P2P流量对网络态势的影响模型,该模型不仅可以刻画P2P流量的统计特性,还可以量化分析P2P流量对其他网络流量的影响,并利用量化分析的结果对P2P流量加以控制。

(2)研究不同种类的P2P流量(包括恶意流量)各自的网络行为特性和共同属性,细化识别不同的P2P流量。

(3)设计一个在线分类算法,该算法不仅能够有效且快速地解决概念飘移的发生,还能够有较低的计算复杂度、以及提高实时性能。

(4)目前,P2P流量特征分析均是基于被动测量技术的,被动测量方法的不足在于无法深入了解P2P网络行为,所以,未来研究可将被动测量和数据主动获取技术相结合,如此更利于发现P2P网络内在的群体行为特征。

参考文献:

[1]WANG J, ZHOU Y, YANG Y, et al. Classify the majority of the total bytes on the Internet[C]// YU F, Luo Q. Piscataway, NJ, USA: IEEE, 2008: 68-72.

[2]SEN S, SPATSCHECK O, WANG D. Accurate, scalable in-network identification of p2p traffic using application signatures[C]//New York, NY, USA: ACM, 2004:512-521.

[3]BLEUL H, RATHGEB E P, ZILLING S B I. Advanced P2P multiprotocol traffic analysis based on application level signature detection[C]//345 E 47TH ST, NEW YORK, NY 10017 USA: IEEE, 2006:89-94.

[4]ROUGHAN M, SEN S, SPATSCHECK O, et al. Class-of-service mapping for QoS: a statistical signature-based approach to IP traffic classification [C]// Proceedings of the 4th ACM SIGCOMM conference on Internet measurement.Taormina, Sicily, Italy : ACM, 2004:135-148.

[5]陈庆章, 邵奔, 陈超. 基于复合特征的P2P业务识别系统的研究与实现[J]. 东南大学学报(自然科学版). 2008(S1):109-113.

[6]PER E N M, MOLN A R S A N. Enhanced skype traffic identification[C]//ICST, Brussels, Belgium, Belgium: ICST (Institute for Computer Sciences, Social-Informatics and Telecommunications Engineering), 2007:1-9.

[7]SEN S, WANG J. Analyzing peer-to-peer traffic across large networks[J]. IEEE-ACM TRANSACTIONS ON NETWORKING. 2004, 12(2): 219-232.

[8]CONSTANTINOU F, MAVROMMATIS P B I. Identifying known and unknown peer-to-peer traffic[C]//345 E 47TH ST, NEW YORK, NY 10017 USA: IEEE, 2006: 93-100.

[9]陈贞翔. 具有规模适应性的互联网流量识别研究[D]. 济南:山东大学, 2008.

[10]KARAGIANNIS T, BROIDO A, FALOUTSOS M, et al. Transport layer identification of P2P traffic[C]//New York, NY, USA: ACM, 2004:121-134.

[11]KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC: multilevel traffic classification in the dark[C]//New York, NY, USA: ACM, 2005: 229-240.

[12]林平,余循宜,刘芳,等.基于流统计特性的网络流量分类算法[J].北京邮电大学学报,2008(2):15-19.

[13]刘琼, 徐鹏, 杨海涛, et al. Peer-to-Peer文件共享系统的测量研究[J]. 软件学报, 2006(10): 2131-2140.

[14]GAO Z, LU G, GU D. A novel P2P traffic identification scheme based on support vector machine fuzzy network[C]//LUO Q, GONG M. 10662 LOS VAQUEROS CIRCLE, PO BOX 3014, LOS ALAMITOS, CA 90720-1264 USA: IEEE COMPUTER SOC, 2009:909-912.

[15]FUKE S, PAN C, XIAOLI R. Research of P2P traffic identification based on BP neural network[C]//LIAO B Y, PAN J S, JAIN L E, et al. 10662 LOS VAQUEROS CIRCLE, PO BOX 3014, LOS ALAMITOS, CA 90720-1264 USA: IEEE COMPUTER SOC, 2007:75-78.

[16]COUTO A, NOGUEIRA A, SALVADOR P, et al. Identification of peer-to-peer applications' flow patterns[C]//345 E 47TH ST, NEW YORK, NY 10017 USA: IEEE, 2008:292-299.

[17]HU Y, CHIU D, LUI J C S. Profiling and identification of P2P traffic[J]. COMPUTER NETWORKS. 2009, 53(6, Sp. Iss. SI): 849-863.

[18]MOORE A W, ZUEV D. Internet traffic classification using bayesian analysis techniques[J]. SIGMETRICS Perform. Eval. Rev. 2005, 33(1): 50-60.

[19]ERMAN J, MAHANTI A, ARLITT M, et al. Identifying and discriminating between web and peer-to-peer traffic in the network core[C]// New York, NY, USA: ACM, 2007:883-892.

[20]JUNIOR G P S, MAIA J E B, HOLANDA R, et al. P2P traffic identification using cluster analysis[C]//Piscataway, NJ, USA: IEEE, 2007, 128:132-133.

[21]CHEN Z, YANG B, CHEN Y, et al. Online hybrid traffic classifier for peer-to-peer systems based on network processors[J]. Applied Soft Computing, 2009, 9(2): 685-694.

[22]王蛟, 周亚建, 杨义先. 基于可信列表的启发式流量检测模型[J]. 北京邮电大学学报,2008, 31(2): 95-98.

[23]DATTA S, BHADURI K, GIANNELLA C, et al. Distributed data mining in peer-to-peer networks[J]. IEEE INTERNET COMPUTING, 2006, 10(4): 18-26.

[24]BANDYOPADHYAY S, GIANNELLA C, MAULIK U, et al. Clustering distributed data streams in peer-to-peer environments[J]. INFORMATION SCIENCES, 2006, 176(14): 1952-1985.

[25]RAAHEMI B, ZHONG W, LIU J. Exploiting unlabeled data to improve peer-to-peer traffic classification using incremental tri-training method[J]. Peer-to-Peer Networking and Applications, 2009, 2(2): 87-97.

[26]BASHER N, MAHANTI A, MAHANTI A, et al. A comparative analysis of web and peer-to-peer traffic[Z]. ACM 2 Penn Plaza, Suite 701 New York NY USA, 2008:287-296.

[27]MORI T, UCHIDA M, GOTO S. Flow analysis of internet traffic: World Wide Web versus peer-to-peer[J]. Syst. Comput. Japan. 2005, 36(11): 70-81.

[28]BOLLA R, CANINI M, RAPUZZI R, et al. On the double-faced nature of P2P traffic[C]//Piscataway, NJ, USA: IEEE, 2008:524-530.

[29]SILVERSTON T, FOURMAUX O, BOTTA A, et al. Traffic analysis of peer-to-peer IPTV communities[J]. COMPUTER NETWORKS, 2009, 53(4, Sp. Iss. SI): 470-484.