首页 > 范文大全 > 正文

利用数据挖掘的网络智能感知与自适应优化

开篇:润墨网以专业的文秘视角,为您筛选了一篇利用数据挖掘的网络智能感知与自适应优化范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:文章提出了一种利用数据挖掘的自适应优化方法。该方法将自优化问题与数据挖掘技术相结合,利用数据挖掘技术对海量数据进行处理,找出表示其中内在规律的知识,利用这些知识进行网络自适应优化。文章以通话业务时长预测分析为例进行分析,结果表明利用数据挖掘进行业务预测的精度高于传统的统计分析方法,论文分析在C-RAN架构下利用数据挖掘对网络状态进行预测是可行的。

关键词:自优化;数据挖掘;C-RAN架构网络;基带资源池

Abstract:In this paper, we propose a self-optimization method based on data mining. With this method, mass data can be processed and laws can be found for self-optimization. We analyze call service prediction and show that using data mining to predict services is more accurate than using statistical methods to predict services. We present data mining technology that can be used for network prediction in a C-RAN architecture.

Key words:self-optimization; data mining; C-RAN networks; baseband resource pool

自组织(Self-organizing)一词来自于物理学中,指的是这样的一类物理现象:系统无需外界指令,而能自行组织,自行创生,自行演化。根据物理学家的研究成果,系统演化的动力是系统中各个个体之间通过竞争,使得个体与个体存在协同性,从而使系统表现出一个或几个趋势。也就是说,是系统中的不同个体之间的相互作用,形成了整体的一种规律的表现[1]。

在文献[2]中,Christian Prehofer和Christian Bettstetter首先将自组织的概念引入到通信网络中,通过通信网络中的个体感知网络中可以感知的环境,并且对环境进行自适应的调整,以这种网络中单个实体的行为来实现网络的整体优化。在该文献中还阐述了自组织网络应该具有自配置、自优化和自愈合3个功能,其后,学术界多从这3个方面开展自组织网络的研究。

网络自优化问题显然是自组织网络中的一个重要的方面,是指网络设备在网络的运行过程中,自适应地调整自身的参数或者相关的资源管理策略,以达到提高网络性能的目的。自优化技术对于节省优化人员工作,降低网络的运营维护成本具有重要的意义。

目前已经有网络的自优化方法的相关研究,比如在文献[3]中已经指出,自组织网络中的自优化内容可以是容量、无线网络的覆盖优化,并且给出了无线网络中容量与小区覆盖的自组织优化流程。它包括3个步骤:容量和覆盖问题检测、做出参数调整决策、调整决策的执行。其中容量和覆盖问题检测是检测网络状态,而参数调整决策则是通过一定的算法来对参数调整方案进行求解,调整决策执行包括功率发射参数、小区重选优先级以及天线下倾角以及天线俯仰角等参数的优化;在文献[3]中还指出了自组织移动健壮优化,包括切换管理与负载均衡的优化,指出从接入策略的角度可以实现快速移动、慢速移动用户的区别对待,从而使得网络资源利用更加优化。

上述提出的这些自组织优化具很高的价值,然而在演进型基站(eNodeB)中,单纯地通过一个小区中的数据来进行优化显然是不足的。比如,针对移动用户的覆盖与容量自组织优化,不仅需要邻居小区列表,而且需要邻居小区的覆盖情况信息;再比如切换与负载问题中,单纯地从一个小区的信息来进行优化,显然不能够对终端的移动性进行预测,小区之间的负载均衡也会因此而性能不够理想,这就需要不同小区之间信息的相互交互,但是这样就会增加网络开销。

1 数据挖掘技术相关背景

1.1 数据挖掘技术

最近这些年来,随着科学技术和信息技术的发展,人们所接触到的信息量种类越来越多,信息量越来越大。而这些海量的信息中虽然蕴含着我们所想知道的一些知识,但是需要对这些数据进行处理,将所需要的知识挖掘出来,这就是数据挖掘的产生背景与目的。

数据挖掘是通过仔细分析大量数据来揭示其中有意义的新关系新趋势的过程,从大量的数据中提取其中人们所关心的一些潜在的信息知识的过程。该研究领域是一门将人工智能、数据库技术、统计学、机器学习和模式识别等多个领域相互融合的技术,自20世纪80年代产生以来受到多个学科的研究人员关注。

数据挖掘的主要任务是发现隐藏在数据中的模式,从而发现这些模式中的一些内在的规律和趋势。这些数据可能是不完全的、有噪声的、模糊的,但是一定是大量的数据。数据挖掘的流程和方法如图1所示[4]。

图1中数据挖掘可以分为3个阶段:数据预处理、数据挖掘、知识存储。数据预处理是指将原始的数据处理成为便于挖掘的数据等操作;数据挖掘是指从预处理的数据中发现其中的内在联系和特征,形成知识;知识存储是将挖掘出来的知识进行存储以便于利用,具体的相关内容请查阅数据挖掘的专业文献。

目前,数据挖掘技术通过一段时间的发展取得了一定的成果,在分类预测模型方法上面,已经有诸如决策树方法、神经网络方法、规则归纳方法、支持向量机方法、贝叶斯方法、回归分析方法、K-最近邻方法、组合学习方法等。这表明数据挖掘技术已发展到了一定的水平,对大规模数据处理和预测已经具有了较好的基础。

1.2 C-RAN架构及其特点

在文献[4]中提出了一种新型的绿色节能无线接入网架构——C-RAN架构,并且中国也启动了针对该架构的国家科技重大专项,目前中国多家大型的移动通信企业,如中兴通讯、华为、大唐都投入到该项目的研发中。无线接入网(RAN)架构网络结构如图2所示[5]。

在该网络架构下,基带资源池以云计算的模式对多个小区进行资源管理,从而可以较大地降低运营成本。由于网络状态信息较为集中,在提高网络智能化等方面具有很好的优势。

在C-RAN架构下的无线接入网络具有如下特点:

(1)数据量庞大

在C-RAN架构下,很显然一个基带资源池是需要处理一个较大区域网络基带资源业务,而这个区域的所有小区的基带资源都存储在这个基带资源池中,这些数据的量与所覆盖的小区数量是大致呈线性增长的。如果用最优化的方法进行分析处理,则计算量会随着数据量的增加而呈现快速增加,这对于实现来说带来了很大的困难。

(2)数据更加丰富

由于在网络中会采用虚拟基站集群处理一个较大区域的网络业务,与单一小区分别处理和数据存储相比较,其中所蕴含的信息更加丰富,比如由于运动所引起的移动终端切换,在原服务小区可以对目标小区的资源优化提供相应的信息,从而使得目标小区能够更好地进行资源优化管理。正是由于这种构架下处理和存储网络的多个小区的网络状态数据,所蕴含的有用的信息资源更加丰富,为实现多个小区之间相互协调的自适应优化提供了可能。

(3)小区间的数据不再需要交互

由于C-RAN架构下虚拟基站集群处理和存储的是各个小区的数据,采用的云计算的模式来进行处理的,换句话说其中的数据包含了多个小区的数据,因此在多个小区相互协调优化的过程中,不需要小区之间频繁的相互更新网络状态数据信息。自组织的目的是通过小区对周围环境(临近小区)的监测来调整自身策略,从而实现网络优化,而这就需要小区不断监测与查询周围小区的网络状态。在C-RAN架构网络中,因为所有的数据都存储在虚拟基站集群当中,因此不需要通过小区之间相互通信就能感知网络情况,可以节约大量的资源。

2 C-RAN架构下的自优化

2.1 C-RAN架构下的自适应网络优化

在C-RAN架构下,因为数据都集中在虚拟基站集群部分,因此数据挖掘也针对虚拟基站集群中所存储的数据进行挖掘。其结构示意图如图3所示。

图3中数据预处理是指对所记录的网络状态的数据、历史数据等进行一个处理,是把原来不是数值化表示的参数进行数值化描述,并且对所有的参数都进行一定的映射,这样做的目的是避免参数之间存在数量级别上的过大差距,避免在挖掘过程中出现某些参数被其他数量级过大的参数吞掉而不起作用。

数据挖掘过程就是指根据数据挖掘的相关方法,将这些数据的特征发现出来,以数学的形式表达参数之间的内在关系。

知识库是将通过数据挖掘出来的参数特征集中存储。使后续网络自适应优化能直接使用。

自适应的网络优化是指通过对网络状态参数的监控,通过已经观测到的某些参数,根据知识库中的参数特征知识来进行网络状态预测,并且根据预测结果来进行网络的优化和资源调度。利用上述方法可以实现网络的实时的、自适应的网络优化。

2.2 C-RAN构架下网络状态感知与

预测

为了验证数据挖掘方法对数据中知识挖掘的感知与预测的准确性,我们对某城市中若干个小区的业务进行了分析验证。这些数据中,每条记录包含话务时间、接通方式、通话类型(局间/局内)、建立延迟、指配请求时延、指配完成时延等11个参数进行数据挖掘。挖掘方法采用的是运用K-means聚类算法进行聚类方法,通过对数据分类从而实现数据特征提取,并根据所得到的数据特征知识对另外的通话时间长度进行预测。由于C-RAN架构网络还没有建立,不能使用真正的C-RAN架构下的无线网络数据进行验证,而是采用了若干个相邻小区的业务进行分析验证。由于条件限制,所采用的小区数量较少,所采用的记录也严重存在数量不足,只对3 000多条记录进行了挖掘,而且暂时没有实现自适应地挖掘与预测。实现过程概括如下:

(1)首先数据进行归一化处理,将数据规约到0与1,消除不同属性之间的不同量纲对结果产生的影响。

(2)根据K≤ n 的结论可以确定K值的范围,得出归一化后的数据通过上述K-means优化算法保证代价函数在此范围内取值最小,计算出最优K值。

(3)根据所得K值,运用K-means聚类算法分出K类,同时概括各类的特征。

(4)根据各类的特征对数据进行预测,对于抑制某些参数而尚不知道通话时间参量的数据,根据已知的参数,按照数据挖掘出的各个类的特征进行归类,利用所属类的特征来对该业务的通话时间进行预测。预测结果如图4所示。

图4中横坐标指的是我们用于数据挖掘的记录数量,纵坐标是对一些业务的通话长度进行预测的平均误差,其中聚类精度指的是以统计的方式得到的预测平均误差情况,统计精度指的是以数据挖掘方式得到的误差情况。从图中可以看出对于多个小区联合的数据挖掘预测方法所产生的误差,明显低于用统计的方法得到的预测误差,这表明数据挖掘对网络的业务预测比统计预测方法更加准确。这说明利用数据挖掘是进行业务特征的预测是比较准确的。

同时图中也存在着一些平均误差的波动情况,这是由于用来进行数据挖掘的业务记录数量较小造成的。

另外一方面,由于此次分析验证采用的业务量数据太少,不能对网络中终端的切换性能、负载均衡等方面的预测与优化进行性能分析。

3 结束语

网络的自组织技术中自优化技术是其中的关键技术之一,针对C-RAN架构的无线通信网络特点进行分析,得出在C-RAN架构的无线网络下,由于采用的是云计算分析模式,其中存储着多个小区的网络状态信息,数据量非常巨大,而且其中也蕴含着表征小区内部、小区之间相互联系的一些知识信息。针对这个特点,提出在C-RAN网络架构下将自优化问题与数据挖掘技术相结合,利用数据挖掘技术对海量数据进行挖掘,找出表示其中内在规律的知识,网络利用这些知识进行自适应优化。本文仅仅是对网络中的通信业务时长进行了分析,而在实际的C-RAN架构网络中,在虚拟基站集群的模式下,网络状态数据更加庞大、更加复杂,对基带信号等进行数据挖掘将更加复杂,也可能会有更有意义的知识被挖掘出来。

然而目前的殊绝挖掘虽然具有较为完备的技术,但是这些技术在C-RAN构架无线网络下进行应用,仍然是需要进一步研究的关键技术之一;另外一方面,C-RAN构架无线网络的状态数据是动态变化的,如何实现动态的自适应的挖掘,以及如何对所挖掘的知识进行应用也是很有意义的研究内容。

参考文献

[1] 哈肯 H. 协同学, 引论: 物理学、化学和生物学中的非平衡相变和自组织 [M]. 徐锡申, 陈式刚, 陈雅深, 等, 译. 北京: 原子能出版社, 1984.

[2] PREHOFER C, BETTSTETTER C. Self-organization in communication networks: Principles and design paradigms [J]. Communications Magazine, 2005,43(7):78-85.

[3] 张军, 张平. IMT_Advanced系统中的自组织网络技术 [J]. 中兴通讯技术, 2011,17(5):1-4.

[4] 朱明. 数据挖掘 [M]. 合肥:中国科学技术大学出版社, 2002.

[5] 王晓云, 黄宇红, 崔春风, 等. C-RAN:面向绿色的未来无线接入网演进 [J]. 中国通信, 2010(3):107-112.

收稿日期:2012-11-05

作者简介

刘占军,重庆邮电大学在读博士研究生,重庆邮电大学副教授、硕士生导师;主要研究方向无线接入网络。

陈前斌,重庆邮电大学教授,博士研究生导师;主要研究方向为多媒体传输技术、下一代网络技术。