首页 > 范文大全 > 正文

数据挖掘在移动通信业中应用研究综述

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据挖掘在移动通信业中应用研究综述范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:数据挖掘是人工智能、机器学习与数据库技术等多学科相结合的产物,移动通信业是数据挖掘技术当前重要的应用领域之一。本文重点介绍了数据挖掘技术在移动通信业中应用的客户描述、客户分群、与客户流失分析的最新研究方法与进展。

关键词:数据挖掘;移动通信;客户流失

中图分类号:TP393文献标识码:A 文章编号:1009-3044(2008)23-867-02

Survey of Application Based on Data Mining in the Mobile Communication

LI Xin

(School of Statistics and Applied Mathematics, AUFE, Bengbu 233030, China)

Abstract: Data mining is the production of artificial intelligence and machine study and database and so on. The industry of the Mobile telecommunications is one of the most significant applied fields in which data mining is used.This treatise mainly introduces the newly method and process in which data mining is uesd in the customer descriptions,customer segmentation and customer churn in the Mobile Telecommunication.

Key words: data mining; mobile telecommunication; customer churn

1 引言

21世纪,人类迈入了“信息爆炸时代”。人们利用信息技术生产和搜集数据的能力大幅度提高,数以万计的数据库在政府办公、科学研究、工程开发、商业管理中得到应用,并且这种趋势仍将持续并进一步发展下去。因此一个新的问题出现了:在这个信息爆炸的时代,人们每天要面对无数的信息量。数据挖掘(Data Mining)就应运而生了。数据挖掘就是从大量的、模糊的、部分的、有噪声的、随机的数据中,提取隐藏在其中的、事先不了解而又有用的信息和知识的过程。发现的知识可以用于信息管理、决策选择、查询优化、过程控制等。因此数据挖掘是一门广义交叉学科,它汇聚了不同领域的研究者,尤其是数据库、数理统计、可视化、人工智能等过方面。移动通信业是数据挖掘技术当前重要的应用领域之一,例如通过决策树的分类预测技术,可以在销售活动中根据商品或服务的描述特性,帮助企业理解给定销售活动的影响,并帮助企业设计出在未来更有效果的销售活动。同时还可以利用决策树分析模型的诱导分析,通过客户相关信息对比发现客户流失的一些特征,从而筛选出与流失相关的显著指标,对于企业发展和保留客户都有很大的意义。

2 数据挖掘概述

2.1 数据挖掘的任务

数据挖掘的任务是从数据集中发现有价值的模式。模式按功能分主要有两大类:描述型模式和预测型模式。针对不同的实际问题,数据挖掘的任务主要有关联分析、分类、聚类分析、概念描述、孤立点分析、时间序列等。

关联分析:关联分析的目的是为了挖掘出隐藏在数据之间的满足一定条件的依赖性关系。关联分析的主要对象是事务数据库,典型的应用是购物篮分析。

分类:分类是从历史数据中选出类标记已知的训练数据集,通过数据表现出来的特性,为每一类数据找到一个类别的准确描述,并用这种描述来构造模型,以便用模型预测类标记未知的数据。

聚类分析:聚类是根据数据对象的不同特征,将其分组成为多个不同数据类的过程,使得同一类中的数据彼此相似,不同类中的数据差别较大。聚类通常作为数据挖掘的第一步。

概念描述:概念描述是描述性数据挖掘中最基本类型,通过数据的特征化和区分描述来提供一类数据的概况,或与对比类相区别。特征描述是对目标类数据一般特征的简洁汇总,描述了该类所有记录的共性。区分是将目标类与一个或多个对比对象的一般特征进行比较,来描述类之间的差异。

孤立点分析:孤立点是数据集合中,远远偏离其他数据对象、与数据的一般模型不一致的比例较小的数据对象。在大部分数据挖掘算法中为使孤立点的影响最小化,通常将孤立点作为噪声或异常数据而舍弃。但在某些场合,检查孤立点的存在有非常重要的意义,使我们能发现一些真实而又出乎意料的知识。

时间序列分析:时间序列是按时间顺序取得的一系列观测值,由这些观测值组成的数据库为时序数据库。

2.2 数据挖掘使用的主要技术和方法

统计学:统计学方法主要在于从抽样分析中提取未知数学模型。在数据挖掘中经常会涉及到统计过程。

决策树:决策树是一种重要的分类预测模型。通过分类的方法找出可以描述区分数据类或概念的模型,使得未知对象能够被模型预测和标记。当被预测的值是数值时,称为预测。

人工神经网络:人工神经网络从结构上模拟生物神经网络,通过训练水平学习非线性预测模型。

遗传算法:遗传算法是一种优化技术,它利用生物进化的一系列概念经行问题的搜索,最终达到优化的目的。

粗集:粗集是一种处理含糊不确定的问题的新型数学工具,它具有较强的数学基础、方

法简单、针对性较强和计量小等优点。

2.3 数据挖掘过程

定义业务:从业务角度来理解数据挖掘的目标和要求再转化为数据挖掘问题。

设计数据模型:建立数据库或数据仓库。

分析数据挖掘:建立数据集市。

建立模型:选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数生成模型。

评估、解释和应用模型:对模型进行比较评估、生成一个相对最优模型、并对此模型用业务语言加以解释并应用到业务活动中。

3 应用研究

3.1 客户描述

客户描述类信息主要是用来理解客户的基本属性的信息,这类信息主要来自于客户的登记信息,以及通过企业的运营管理系统收集到的客户基本信息。

客户资料:客户资料包括了客户的姓名、通信地址、联系邮编、出生日期、性别等客户在移动开户时登记的信息。

客户账单:客户账单包括了某一月内该客户的分项消费合计如本地费、长话费、漫游费、短信费等。

网内、网间通话情况:移动的客户与其他移动客户的通话称为网内通话。移动的客户与联通、电信通话称为网间通话。这其中都包括了本地通话的费用、时长、次数,长途通话的费用、时长、次数,漫游的费用、时长、费用等等。由于客户通话的时段也是业务部关心的内容,所以还需要对用户通话的时段按工作时间和休息时间进行分析。

短信网内、网间使用情况:移动客户与其它移动客户的短信通信称为网内短信,与联通、电信的短信称为网间短信,需要分析使用次数和费用。

其他使用情况:包括彩铃、GPRS、IP 电话使用情况以及套餐使用以及变更情况。

3.2 客户分群

客户分群是指按照一定的标准将企业的现有客户划分为不同的客户群的行为。正确的客户细分能够有效的降低成本,同时获得更强、更有利可图的市场渗透。同属一个细分群的消费者彼此相似,而隶属于不同细分群的消费者是被视为不同的。比如那些带来最多盈利的客户和带来最少盈利的客户都有自己的分群。同一分群中的消费者可有多种理由而被称为相似,他们可能在居住地域上相似,在收入上相似,或者是他们的思考、行为方式相似。理解不同消费者群体的偏好、购物态度、价格观念是市场营销成功的关键,明智的商家和营销人员会根据不同城市的不同消费群体;以及不同的产品生命周期的阶段,有效地规划市场策略。

利用数据挖掘中的分类和聚类方法对客户通话行为进行分析,从而得出客户在消费习惯、生活方式、社会联系等方面的特征。按不同特征划分客户群,针对不同客户群的特征,运营商可以进行不同的市场营销活动和客户服务。在客户群划分中典型的应用就是针对某一客户群的消费特征进行某种移动业务的营销。

客户分群的方式有多种,不同的产品、不同的地区以及不同的时间段都应有不同的细分市场的方法,常见的方法如下。

地理细分:地理细分是把市场细分成不同的地理单位,例如国家、地区、州、县、城市和地段。

人口细分:人口细分是指根据各种变量,例如年龄、性别、家庭人口、家庭生命周期、收入、职业、教育、宗教、种族、国籍等,把客户分割成不同的群体。

心理细分:心理细分是指按社会阶层、生活方式和个性特征等把消费者分成不同的群体。

行为细分:行为细分是指按照购买者对产品的了解程度、态度、使用以及反应,把购买者分成不同的群体。

根据顾客从产品中追求不同利益分类,是一种有效的客户细分方法,即利益分群。利益分群需要寻找人们在产品中寻找的主要利益,寻找每种利益的人的类型,以及提供各种利益的主要品牌。

用户状况分群将客户分成产品的非用户、以前的用户、潜在的用户、初次用户和经常用户。对潜在用户和经常用户应采用不同的营销手段。

使用率分群将客户分成偶尔、一般和经常使用者。经常使用者只是市场中的一小部分,但在购买量中却占了很大的百分比。

3.3 客户流失分析

3.3.1 客户流失种类及控制方法

自然流失:这种类型的用户流失不是人为因素造成的,比如用户工作地点发生变化。自然流失所占的比例很小。企业可以通过广泛建立实体营业厅,或者提供网上服务等电子渠道的方式,让用户在任何地方、任何时候都能方便快捷地使用企业的产品和服务,减少自然流失的发生。

恶意流失:恶意流失是指一些用户为了逃避某些费用而产生的流失,比如用户在拖欠了大额通信费用后而离开这家电信运营商,选择其他电信运营商提供的服务,从而达到不交费用的目的。企业可以通过用户信誉管理制度和欺诈监测来防止用户的恶意流失行为。

竞争流失:由于企业竟争对手的影响而造成的流失称为竞争流失。市场上的竟争突出表现在价格战和服务战上。在当前日益激烈的市场竞争中,企业首先要考虑的是保留住自己现有的用户,在此基础上再去吸引和争取新的用户。通过市场竞争分析,包括市场占有率分析、竞争对手发展情况分析、供应商行为分析、合作商行为分析等,可以防止部分流失的发生。市场占有率分析使市场人员能够了解不同时间段内、不同业务品牌的产品或服务的市场占有率情况,了解市场中最有价值产品或服务,了解不同产品的主要竞争对手是谁,从而为市场经营提供指导。从竞争对手用户发展情况、竞争对手用户话费收入情况、竞争对手用户呼叫行为、竟争对手营销策略、竟争对手服务质量五个方面,对竞争对手发展情况进行分析预测。

过失流失:上述3种情况之外的用户流失称为过失流失。这些流失都是由于企业自身工作中的过失引起用户的不满意而造成的,防止过失流失主要通过加强企业管理、加强员工素质以及增加对员工的业务培训等方法解决。

3.3.2 建立客户流失模型

客户描述的确立:一般客户描述分为客户的基本数据、行为数据和客户价值,他们提供了客户的基本特征,并为客户流失模型的分析和建立提供数据源。数据仓库中客户数据的属性种类繁多,很多可能与我们要进行的分类或预测任务相关性不大,因此使用相关分析删除学习过程中不相关或冗余的属性非常必要。若不删除这些不相关或冗余属性将可能减慢和误导学习步骤。正常情况下,用在相关分析上和从“压缩的”特性子集学习的时间,应小于在原来的数据集合上学习所花的时间。因此,这种分析可以帮助提高决策树的有效性和可伸缩性。

建立模型:假设客户的行为在年度上不存在强的季节性,即客户的行为特征和流失影响变量不会因为处于一年中的不同月份(季度)而发生较大变化根据对业务的理解,因此选择客户描述中的客户资料、客户账单、网内和网间通话情况、短信网内和网间使用情况等变量。通过以上分析处理过程,我们可以看到客户流失预测使用的变量众多,数据复杂。根据各种算法的特点,选择算法结构和推理过程都比较好的决策树进行建模。

模型评估:客户流失模型要从两方面来评估。一是预测命中率:用来描述模型的精确度,是预测流失中实际流失的比例。二是预测覆盖率:预测覆盖率用来描述模型普遍实适用性,是实际流失中预测正确的比例。在实际应用中,这两项指标实际上决定了决策者应该对哪些特定客户采取措施来降低流失率。

结果分析:模型的类别分为两大类。一是流失;二是不流失。其中流失根据情况不同又分为主动流失和被动流失。而不流失的客户特征不需分析。只分析主动流失和被动流失客户的特征即可。另外预测的模型是有时效性的。根据移动通信业的经验,三个月内用户一般不会改变消费习惯。所以每个月都应使用新数据进行建模,并与原模型进行比较。在适当的时候(例如三个月)用新模型替换旧模型。

客户流失预测:客户流失预测主要解决两个主要任务。一是发现客户中流失可能性大、价值高的群体,作为目标客户群体进行预防和控制。二是跟踪和发现客户流失趋势,及早采取预防和控制措施。

4 结束语

客户资源是移动通信企业的生命,在激烈的竞争中,运营商要争取新客户越来越困难,而且其成本非常高。所以保持自己的客户不流失是企业制胜的关键因素。但是对于运营商而言,客户流失的情况几乎每天都会发生。运用数据挖掘技术能综合分析影响客户流失的各种因素,建立客户流失的预测模型,用该模型去衡量每一个客户,找出其中最有可能流失的群体,然后采取有针对性的措施避免他们的流失。本文基于数据挖掘的移动通讯业客户的综述,充分地发挥了数据挖掘技术面对海量数据的强大优势。能够帮助移动通信企业深入理解客户,得到更加准确的客户模型,从而改进营销决策和客户服务,具有十分重要的应用价值。

参考文献:

[1] 王姝华,钟云飞.数据挖掘在移动通信业大客户离网预测中的应用[J].江苏通信技术,2004,20(3):1-4.

[2] 石杰楠.数据挖掘研究综述[J]. 航天制造技术,2005(4):27-31.

[3] 刘蓉,陈晓红.基于数据挖掘的移动通信客户消费行为分析[J].计算机应用与软件,2006,23(2):60-62.

[4] 顾桂芳,李文元.数据挖掘在移动通信业客户关系管理中的应用研究[J].科技管理研究,2007,27(2):38-40.