基于决策树C5.0的商业银行客户细分研究(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇基于决策树C5.0的商业银行客户细分研究范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

[摘要] 客户细分是商业银行客户关系管理的核心技术之一。本文首先对国内某商业银行客户的性别、年龄、学历、职业、年薪、婚姻状况、健康状况和居住年限8类重要属性进行标准化处理，利用聚类分析方法将客户粗分为4类，进而采用决策树C5.0算法对该银行客户进行细分，得出更为细致的分类规则。最后针对4类客户的特征和属性，设计出差异化的银行客户服务体系方案。

[关键词] 客户细分；决策树；差异化营销

doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 05. 019

[中图分类号] F830.33；F830.49 [文献标识码] A [文章编号] 1673 - 0194（2014）05- 0026- 04

0 引言

在现代的商业银行客户关系管理（Customer Relationship Management， CRM）中，面对海量的客户信息，银行需要对数据库中的原始客户数据进行深层次挖掘、合理分类，才有可能实现高效的管理。据美国META集团的调查发现，数据挖掘技术已经在美国金融业、商贸业等行业得到了广泛的应用。采用数据仓库和数据挖掘技术的企业大幅度提高了投资回报率，部分优秀企业的投资回报率甚至达到每年600%。毋庸置疑，数据挖掘技术优化了CRM系统的服务功能，可以为客户服务提供准确的参考信息，提高客户事务的处理能力。因此，在银行客户管理中，数据挖掘技术得到高度重视。

利用数据挖掘技术对客户进行细分是客户关系管理的重要一环。学者们致力于开发不同的数据挖掘技术进行客户细分研究，如基于KSP混合聚类算法的移动商务中的客户细分、基于模糊聚类集成算法的客户细分等。对商业银行而言，客户的细分可以帮助银行识别优质客户，并针对不同客户执行个性化的营销策略，以实现合理分配资源，更好地进行经营决策。其中，决策树分类技术就是一种有效的对银行客户进行分类的数据挖掘技术。最早，Quinlan等人（1986）提出决策树ID3方法，该算法采用信息增益选择策略的方式进行分类，具有使用简单、样本识别率高等优点，被广泛应用于客户价值分析、反洗钱、客户贷款预测等方面。ID3方法在银行客户分类中的应用在很大程度上提高了客户分类的准确度。此后，一些学者开始尝试对ID3算法进行改进。康健和梁允荣（2003）改进了决策树的ID3算法，提出了数据挖掘结果可视化展现的两层软件结构，并以内蒙某银行为例验证了算法的可行性。邹鹏等（2011）针对客户错误分类不平衡的问题，对经典的ID3信息增益决策树算法进行改进，把对客户误判的代价纳入考量范围，构建了一个代价敏感的决策树对客户价值进行细分，验证了这个方法在挖掘优质客户时更有效。

综上所述，客户关系管理要求银行与客户之间建立有效的沟通渠道，而决策树分类技术进一步优化沟通的有效性，提高客户关系管理效果，优化管理决策。尽管如此，目前决策树分类技术在银行客户分类应用中仍然存在一些不足之处：一是决策树算法的精度和效率有待于进一步提高；二是在对银行客户细分之后，缺乏针对不同客户营销方案的设计。针对以上不足，本文将继续探索基于决策树的银行客户分类研究，利用精度更高的c5.0决策树分类算法，以银行的真实数据样本为例，对银行客户进行细分，进而针对不同类型的客户提供具体的营销方案。

1 决策树C5.0算法

在经历决策树ID3、C4.5算法之后，C5.0算法采用决策树剪枝技术和Boosting技术，减少了过度拟合问题，有效地提高了算法的效率和精度，并提升了处理大型数据的能力。

C5.0 算法采用最大属性信息增益率来选择属性，下面简要介绍 C5.0 决策树的产生及计算过程。假设集合数据S按属性C划分为m类不同的类数据子集Ci（i=1，2，…，m），每个类数据子集Ci（i=1，2，…，m）的样本数为ni（i=1，2，…，m），pi为类别Ci（i=1，2，…，m）样本数ni（i=1，2，…，m）占总样本数n的比例，即pi=ni /n。S是n个样本数据的集合，样本数据集合的信息熵用下式表示：

E（S）=-■pi log2（pi）（1）

假设属性A将样本数据集合S划分成v个子集Sv，每个子集Sv的取值均为av，nij是子集Sj中属于Ci（i=1，2，…，m）类的样本数，p′j是属于属性A的属性值为aj的样本数占总样本数的比例，即p′j=■nij/n，pij是属性A属性值为aj时，类别为Ci（i=1，2，…，m）的概率，即pij=nij/■nij。属性A的条件熵可以用下式表示：

E（S|A）=-■p′j■pij log2（pij）（2）

进而可以得到属性A的信息增益Gain（A），信息熵SplitI（A）和信息增益率GainRatio（A），三者的表达式分别为：

Gain（A）=E（S）-E（S|A）（3）

SplitI（A）=-■p′j log2（p′j）（4）

GainRatio（A）=Gain（A）/SplitI（A）（5）

然后通过比较各个属性的信息增益率即可确定决策树的节点，重复以上过程，最终能够得出属性分类的决策树。

2 商业银行客户分类

2.1 银行客户样本及细分变量的选取

客户样本是从北京市某商业银行客户数据库中随机抽选得到，样本数量为500个。每个银行客户样本涵盖其基本的个人信息、收入状况和信用状况等。

细分变量的选择是客户细分的基础，在进行银行客户细分变量的选取时，重点考虑变量的代表指标的可获得性、变量之间的差异性和变量的时效性。通常情况下，细分变量主要分为行为变量和描述型变量两类。行为变量是指涉及客户消费行为和其与银行相互关系的一系列变量指标，它可以帮助银行的营销人员和客户服务人员掌握和理解客户的交易行为。描述型变量主要是描述客户基本属性信息的静态数据，如客户的性别、年龄、年薪、房屋住所等变量。

综合考量银行客户细分变量的注意事项，本文采取描述型变量细分法，选取性别、年龄、学历、职业、年薪、婚姻状况、健康状况和居住年限8个变量作为银行客户细分的指标。

2.2 基于聚类分析的银行客户初分

为了对银行客户特征进行初步的判断，采用聚类分析的方法对500个客户样本进行初分。在聚类分析之前，首先将银行客户的各类特征属性进行标准化处理，处理的方法是将各指标按照属性的特征分为2～4类，具体规则见表1。

以上指标经过量化处理后，利用SPSS软件中的系统聚类方法对原始数据进行聚类分析，其中距离分析采用欧氏距离和类平均法。选取阈值16，将500名银行客户分为4类：低档客户、关注客户、普通客户以及重要客户。分类结果描述如下。

（1）低档客户：类别1为低档客户，共有51位，年龄大部分在40～50岁之间，年薪整体水平相对较低，不正常。

（2）重要客户：类别2为重要客户，共有264位，年龄大部分在40～50岁之间，年薪整体水平相对较高，正常。

（3）关注客户：类别3为关注客户，共有37位，年龄大部分在35～45岁之间，年薪整体水平相对较低，不正常。

（4）普通客户：类别4为普通客户，共有148位，年龄大部分在20～30岁之间，未婚者多，年薪整体水平相对不高，正常。

2.3 基于决策树的银行客户细分

在对银行客户的进行决策树细分之前，仍然需要对其8类特征属性进行标准化处理，然后按照聚类分析的4类客户结果进行匹配，挖掘客户分类更为细致的规则。利用决策树C5.0 方法对商业银行客户进行分类，主要通过第二部分介绍的计算节点特征属性信息增益率的方法对各类属性进行划分。具体的过程利用SPSS Clementime软件来实现，并采用决策树剪枝技术和Boosting技术提高分类的精确性。最终，在调节CF值为0.25，Boosting技术迭代5次的情况下，SPSS Clementime软件进行决策树分类达到最优的效果。最优决策树共含有10个叶节点，如图1所示。

总结银行客户决策树分类结果，得出10个叶节点的决策规则，具体内容如下：

（1）年薪30万元以上（第三、四类），则认定该客户为重要客户。

（2）年薪30万元以下（第一、二类），年龄36岁以上（第三、四类），且学历为高中、中专（第二类），则认定该客户为低档客户。

（3）年薪30万元以下（第一、二类），年龄36岁以上（第三、四类），且学历为初中以下或本科以上（第一、三、四类），健康状况良（第二类），则认定该客户为重要客户。

（4）年薪30万元以下（第一、二类），年龄46岁以上（第四类），且学历为初中以下或本科以上（第一、三、四类），健康状况优（第一类），则认定该客户为重要客户。

（5）年薪30万元以下（第一、二类），年龄36～45岁之间（第三类），且学历为初中以下或本科、大专（第一、三类），健康状况为优（第一类），则认定该客户为关注客户。

（6）年薪30万元以下（第一、二类），年龄在36～45岁之间（第三类），且学历为硕士或博士（第四类），健康状况为优（第一类），则认定该客户为普通客户。

（7）年薪30万元以下（第一、二类），年龄20～35岁之间（第一、二类），性别男（第一类），则认定该客户为普通客户。

（8）年薪30万元以下（第一、二类），年龄20～35之间（第一、二类），性别女（第二类），职业为教师、勘探设计、建筑设计、医务服务类（第一、三类），学历为本科、大专（第三类），则认定该客户为重要客户。

（9）年薪30万元以下（第一、二类），年龄20～35之间（第一、二类），性别女（第二类），职业为教师、勘探设计、建筑设计、医务服务类（第三类），学历为硕士、博士（第四类），则认定该客户为普通客户。

（10）年薪30万元以下（第一、二类），年龄20～35之间（第一、二类），性别女（第二类），职业为农民、工人、学生、服务员、广播电视台、石化公司、网通保险、银行职员、军人、烟草、公务员、房地产、进出口贸易类（第一、二类），则为普通客户。

3 商业银行客户分类营销方案设计

在对客户细分之后，商业银行可以针对不同的客户采取差异化的营销方式。这样不仅能够有效地降低银行运营成本，同时还可以为目标客户提供满意的产品和服务，以扩大市场占有率。为此，本部分针对聚类分析得到的4类商业银行客户群，结合决策树细分所得出的分类规则，为其设计差异化的营销方案。

3.1 重要客户

重要客户对银行的综合贡献最大，是银行主要的收入来源。因此，针对此类客户银行应当采取的策略有：建立客户经理“一对一”的服务制度，为其提供“一对一”的人性化、优质化服务，对此类客户的服务最终应发展成为西方银行所流行的私人银行业务。提供个人高端理财业务、离岸业务、境外结算、实时汇兑、衍生交易、受托金融资产管理、代客投资理财等服务，同时还可以提供各种优惠，包括减免借记卡和信用卡的年费、透支使用的利息、代收付业务的费用；优惠贷款利率、外汇买卖汇率、证券交易佣金等。通过上述方式为此类最有价值的客户群体提供量身定制的个性化产品，提高客户的满意度与忠诚度。

3.2 普通客户

从聚类分析的结果来看，本文所划分的普通客户的平均年薪整体水平不高，同时居住年限也多为10年以下甚至有1/3以上的居住年限为5年以下，但是平均学历却比较高，大多数为本科以上学历，所以这类客户基本处于事业发展的初期阶段，大多数应为年轻客户，同时，升为重要客户的可能性比较大，因此可以针对其特点实行特别的营销策略。

首先，要定期对客户的成长潜力进行有效评估，比如可以观察其年薪增长率和储蓄基金等账户金额变动，对一些有较大可能发展为重要客户的客户，可以开展持卡消费积分或者抽奖以及持卡缴费减免手续费等优惠活动。其次，对于这类客户中年薪增长缓慢但是也能给银行带来稳定收入的客户，银行可以尽可能多地进行客户问卷调查或回访，了解其需求，通过提供更优质的、个性化的服务来吸引这些客户，比如银行可以针对性地为客户提供一些理财产品或者基金产品；针对客户的消费行为，提供POS消费免手续费；完善银行的网上付款系统，降低客户消费成本，使他们更忠诚于本银行，从而持久性地为银行创造价值。

3.3 低档客户

本文所划分的低档客户存在的特点是居住年限长达18.6年，平均年薪虽然远远低于重点客户，但是却高于普通客户和关注客户，说明这组客户群应该是中年稳定客户，他们的账户总额应该不会有太大变动，收入也不是特别高，因此对于这类客户主要任务是采取相应的营销策略防止其流失。

因为该类客户给银行带来稳定的收益，且中年客户不像年轻客户没有很多的消费金额，因此可以针对这类客户的刷卡消费进行消费积分，一方面是鼓励消费，增加银行的业务收入，另一方面对客户的消费积分进行累计换购或者积分换礼等活动，提升这类客户的忠诚度，保证银行的这类客户的利润来源。同时这类客户可能对银行的中间代收业务使用频繁，可以为他们提供便捷的自助式缴费方式，如存折、银行卡缴费服务等，以防止这类客户流失。

3.4 关注客户

关注类客户群的年龄范围在35～45岁之间，年薪在4类客户群体中是最低的。此类客户贷款违约的可能性较大，是对商业银行的收入贡献最低的，也是对于银行来说价值最低的。因此，此类客户对银行的吸引力较小，银行将投入较少的资源甚至采取一些营销策略试图解除与该类客户的关系。

尽管如此，银行也不能以任何理由将此类客户拒之门外，而向其收取额外的服务费用也是有限制的。因此，银行只好被动地为其提供存款类业务和一些中间服务，包括定期存款、活期存折、存单质押、转账汇款、自助银行、网上银行、电话银行和代收代付中间业务等。而对于此类客户的贷款业务，应当着重预防违约风险的发生。此外，银行还可以通过缩减为此类客户办理业务的柜台数量，鼓励其使用自助柜员终端，而达到合理配置银行有限资源的目的，同时，可以鼓励或强制要求此类低效客户归并小额活期存款户头，并在政策的指导下收取小额账户管理费，以达到逐步清扫低价值客户的目的，从而缩减银行运营成本，增加收益。

4 结论

商业银行客户细分，对银行了解客户特征和需求，实施差异化的服务体系，保持并扩大客户资源具有重要意义。本文主要采用决策树C5.0算法对商业银行客户进行了细分。首先梳理决策树算法的发展概况，选用精度较高，使用范围较广的C5.0算法作为核心分类工具。通过遴选出商业银行客户的性别、年龄、学历、职业、年薪、婚姻状况、健康状况和居住年限8类重要属性，利用聚类分析方法将客户粗分为重要客户、普通客户、低档客户与关注客户4类，进而采用C5.0的决策树算法对客户进行细分，得出更为细致的分类规则。最后针对4类客户的特征和属性，设计了差异化的银行客户服务体系方案，以期为银行与客户之间建立长期而稳定的合作关系，完善客户关系管理，实现银行收益的持续增加提供有价值的参考。

主要参考文献

[1]Kim T S， Kim H K， Song H S， et al. Detecting the Change of Customer Behavior Based on Decision Tree Analysis [J]. Expert Systems， 2005， 22（4）：193-205.

[2]Koh H C， Chan K L G. Data Mining and Customer Relationship Marketing in the Banking Industry[J]. Singapore Management Review， 2002， 24（2）： 1-27.

[3]Quinlan J R. Bagging，Boosting， and C4.5[C]. Procceding of 14th National Conference on Artificial Intelligence.Portland， Oregon， 1996： 725-730.

[4]Quinlan J R. Boosting First-order Learning[C].Proceedings of 7th Internationol Work Shop of Algorithmic Learning Theory. Sydney，Australia， 1996： 143-155.

[5]Quinlan J R. Induction of Decision Trees[J]. Machine Learning，1986， 1（1）：81-106.

[6]Tillett L S. Banks Mine Customer Data[J]. Internet Week， 2000（831）：45-46.

[7]邓晓懿，金淳，口良之，等.移动商务中面向客户细分的KSP混合聚类算法[J].管理科学，2011（4）：54-61.

[8]高伟，贺昌政，蒋晓毅.基于模糊聚类集成算法的客户细分研究[J].情报杂志，2011（4）：125-128.

[9]康健，梁允荣.分类挖掘技术在金融客户关系管理中的应用[J].北京理工大学学报，2003，23（2）：207-211.

[10]邹鹏，莫佳卉，江亦华，等.基于代价敏感决策树的客户价值细分[J].管理科学，2011，24（2）：20-29.

基于决策树C5.0的商业银行客户细分研究

优秀范文

精选范文