首页 > 范文大全 > 正文

基于决策树和支持向量机在公司财务风险评估中的应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于决策树和支持向量机在公司财务风险评估中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:本文选取被ST的股票,通过分析其包括盈利能力、资产管理能力、偿债能力、发展潜力四大类的21个财务指标,对公司是否被ST进行分类预测。本文在对数据进行极差规格化处理后,借助 R中Rattle软件包的随机森林(Random Forests),选取了重要性高的前8个指标,再分别用决策树和支持向量机的方法进行对比研究。得出支持向量机建立的风险评估模型相较于决策树有更好的分类预测功能。

关键词:决策树;支持向量机;财务风险;ST;分类

0 引言

沪深证券交易所在1998年4月22日宣布,将对财务状况或其它状况出现异常的上市公司的股票交易进行特别处理。本文的研究建立在上市公司财务状况异常的基础之上。ST是Special treatment的缩写,ST股是指境内上市公司连续二年亏损,从而被进行特别处理的股票。实行ST制度是为了保护投资者利益,建立投资者信心,以维护整个证券市场的秩序。

1 决策树和支持向量机的相关理论

1.1 决策树

决策树是一个类似于流程图的树结构,通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类,树上每个节点说明了对实例的某个属性的测试,节点的每个后继分支对应于该属性的一个可能值。

决策树无需假设先验概率分布,具有很好的灵活性和鲁棒性;不仅可以利用离散和连续的数值样本,还可以利用“语义数据”;产生的规则集结构简单,有较强的解释性,计算效率高;能有效抑制样本噪音和属性缺失问题。不足之处:分类规则复杂;具有过度拟合现象。

1.2 支持向量机

支持向量机(简称SVM)的核心思想可以概括为:寻找一个最优分类超平面,使得训练样本中的两类样本点尽量被无错误地分开,并且要使两类的分类间隔最大。

SVM方法的优点在于:适合有限样本或小样本的问题;能克服决策树过度拟合的问题;需要设定的参数较少(2、3个),具有很强的灵活性和可拓展性;具有分类面简单、泛化能力强、拟合精度高等特点。不足之处:计算复杂度是(m^3),难以解决大数据问题;缺乏可解释性,难以依据信息选择核函数。

2 财务风险评价指标及样本选取

2.1 财务风险评价指标体系的构建

一般而言,财务风险评价指标应包括盈利能力、资产管理能力、偿债能力、发展潜力。本文在考虑可操作性、全面性、动态性、可比性原则和前人研究成果的基础上初步选取了以下四大类共21个财务指标,见下表。

表1 各财务比率的定义、分类及计算

2.2 样本选取

考虑到ST公司是连续两年亏损后予以ST处理的,当上市公司被特别处理时(这一年记为第T年),其在第T-1及T-2年已经发生亏损,所以选取公司被特别处理前两年的财务指标来构造预测模型,会高估模型的预测能力。尽早的预测企业财务危机可以及时采取有效的措施预防经济损失,而一旦公司财务报表已经开始出现问题才做出预测,则显然有些为时已晚。因此,我们采用第T-3年的数据来预测企业第T年的情况,这样将更好地判定模型的预测能力和实用价值。

ST公司样本选取标准是2007至2009年被ST(剔除金融行业以及由于其他异常状况被ST的)且具有T-3年的完整财务数据的沪深两市部分上市公司。根据这一标准,选取了74家ST公司。这些样本覆盖了包括机械设备仪表、电子、纺织服装等行业。

非 ST 样本公司选取标准是与这些 ST 公司来自相同的行业、资产规模相当且具有 T-3 年的完整财务数据的沪深两市上市公司74家。样本数量如下表所示:

表2 ST与非ST公司样本选取数量表

3 基于决策树支持向量机的应用比较

3.1 数据预处理

3.1.1 数据变换

由于数据取值差距较大,在带入决策树和支持向量机模型之前,先对21个指标数据进行极差规格化处理,即

因此, [0,1]消除了数据之间的量纲,便于不同变量之间的比较。

3.1.2 指标筛选

变量的好坏会直接影响分类效果,但是我们事先并不知道哪些是主要的指标。于是,利用随机森林可以在决定类别时,评估变量的重要性这一特性,选取具有较高重要性的变量,结果如下图;综合平均准确性下降和平均基尼指数减少量的情况,选取重要性相对较高的八个指标(见下表),剔除其余变量。由于ST股是指上市公司连续二年亏损后被特别处理,所以公司的财务风险与利润情况息息相关,选取的这八个指标能够反映出企业的获利情况,符合我们研究的要求,于是利用这八个变量的信息进行下面决策树和支持向量机方法对ST与非ST公司的分类预测比较。

图3 随机森林变量重要性测度结果

表3 指标集

3.1.3 样本划分

按照软件中默认的比例,将原148个样本随机分成三部分:training dataset、validation dataset和test dataset,占比分别为:70:15:15。Training dataset是用来训练模型或确定模型参数的数据集;validation dataset是用来做模型选择,即做模型的最终优化及确定的;test set则是为了测试已经训练好的模型的准确性。

3.2 决策树分类应用

3.2.1 参数设置

在用决策树方法时,需要设置一些参数。CP(complexity parameter)即复杂参数,用来控制决策树的大小和选择最佳决策树的大小,如果在现有节点的基础上再加入一个新变量的损失高于cp的值,则停止建树。对于cp的取值,我们关注Xerror—交叉验证误差,从下表输出结果的数据可以看出,随着cp的减小,xerror先减小后又增大了,于是可以找到一个cp值使xerror到达最小,此时cp值大概在0.058左右,于是经过反复测试,最后决定取cp=0.058。同时,为了产生更多的规则,将以下两个参数适当调小,每个节点上的最小样本数Min Split=15,每个叶子上的最小样本数Min Bucket=5。

表4 不同复杂参数cp取值的评价

结合经济背景,考虑到实际是ST公司却被判成非ST公司,相较于实际是非ST的被判成ST公司而言,其不仅对人们投资造成的损失更大,对公司自身运营管理也有很大影响,于是对预测不正确的、风险更重要的这一类定义较大的损失。损失矩阵(Loss- Matrix)定义为(0,FN,FP,0)=(0,5,2,0)。

3.2.2 结果分析

从结果中可以看出,决策树中实际用到的属性有PE(市盈率)、Growth rate of operation profit(营业利润增长率)、Cash ratio(现金负债率)、Growth rate of operation profit(营业利润增长率)。属性“PE”的信息增益率最大,因此将此作为决策树的根节点,对于每个分支根据信息增益率由大到小,建立从根节点到叶节点的决策树(如下图)。

图4 训练样本决策树图

3.2.3 测试检验

利用前文建立模型,用剩余15%的测试数据集进行检验,得到结果整理如下表,错判率为=0.3478。

表5 决策树分类测试结果

3.3 支持向量机分类应用

3.3.1 核函数及参数设置

SVM中不同的内积核函数将形成不同的算法,主要的核函数有三类:多项式核函数,径向基核函数,S形核函数。本文选择默认的径向基核函数。

对于惩罚参数C的设置,其值越大,在分类面附近的样本点会越被看重。调试不同的C,用validation dataset进行检验,得出相应的错判率(见下表),于是选定C=10。

表6 不同惩罚参数C对应的错判率

3.3.2 测试检验

利用建立的SVM模型,用剩余15%的测试数据集进行检验,得到结果整理如下表,错判率为=0.2105。

3.4 决策树和支持向量机测试结果对比

直观地,从两种方法测试的结果看出,支持向量机的错判率比决策树的错判率低,分类效果较好。进一步地,通过做出测试样本的ROC图比较。ROC,即receiver operating characteristic—接收者操作特征,通过描述真阳性率(TPR)—y轴和假阳性率(FPR)—x轴来实现。其应用规则是曲线下的面积越大,则精确度越高。从下图5中可以看出,决策树和支持向量机的ROC曲线下的面积大体相同,而支持向量机的要稍大些,所以从这种方法看,支持向量机分类的准确度也要比决策树高些。

表7 支持向量机分类测试结果

图5 决策树和支持向量机的ROC图

4 结论

本文的财务风险评估模型构造是分别基于数据挖掘中的决策树和支持向量机技术。两种方法都各有优缺点,且有的优缺点可以相互补充,但在本文的研究应用中支持向量机建立的风险评估模型相较于决策树有更好的分类预测功能。今后可以将两种方法结合使用,或者与其他方法结合使用,以此进一步优化模型,提高其对公司财务风险评估的预测能力,使其更具有实际应用价值。

参考文献:

[1] 杨毓,蒙肖莲.用支持向量机(SVM)构建企业破产预测模型[J].金融研究, 2006 (10):65-75

[2] 邱玉莲,朱琴.基于支持向量机的财务预警方法[J].统计与决策, 2006(8):153-155

[3] 蒋艳霞,徐程兴.基于集成支持向量机的企业财务业绩分类模型研究[J].中国管理科学,2009.

[4] 李玉霜,张维.分类树应用于商业银行贷款 5 分类的探讨[J].系统工程学报,2001,16(4):282-288.

[5] 姜明辉,王欢,王雅林.分类树在个人信用评估中的应用[J].商业研究,2003(21):86-88.

[6] 陈瑜.对我国证券市场 ST 公司预测的实证研究[J].经济科学,2000 (6).

[7] 赵静娴.基于决策树的信用风险评估方法研究.[博士学位论文],天津大学管理学院,2009.

[8] Graham Williams. Data Mining with Rattle and R,2011.