首页 > 范文大全 > 正文

探索性数据分析与R软件的结合应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇探索性数据分析与R软件的结合应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘要】探索性数据分析在统计分析中有不可磨灭的作用,提供丰富的详细考究数据的方法,侧重于灵活研究数据。本文拟针对各大城市降雨量相关数据,将R软件应用于其中,进行相关分析,得出结论。

【关键词】箱线图;幂变换;展布水平图;降水量

一、研究背景及发展

数据分析分为两大阶段,探索阶段和实证阶段。探索性数据分析可以分离出数据的模式和特点,把它们有力地给分析者。探索性数据分析(exploratory data analysis,简称EDA)于上世纪六十年代被提出,并逐步发展,现今已经应用非常广泛。具体来说,是对调查者观察得到的原始数据直接进行预处理净化,做出箱线图、茎叶图等等,直观展现出数据的结构等。并没有先做出相关的假定或者在部分假定条件下进行分析。即在对数据的基本特点还没有认识的情况下,无法选取相应的统计方法进行相关分析,此时可以应用探索性数据分析,挖掘数据之间的相关特征,给出之后实证分析的大致方向,此时再运用统计方法则会显得更加合理,更科学有效。为后来的数据实证分析做铺垫。

二、实例研究

如下,选取数据为中国16个大城市三月到10月的降水量,数据显示如下,可知,若直接运用统计方法,如大海捞针,不知何种假定下,选取何种统计方法较为合理。则先运用探索性数据分析中的相关方法。为使结果直观显示,运用箱线图作图,结合R软件编写代码。

(一)未作幂变换前的箱线图

箱线图是一批数据的五数总括的图示,展现了这个批的数据结构要点。从箱线图我们可以发掘出一个批的某些特性:位置、展布、偏度、尾长、边远数据点(离群点)。

但是初始箱线图也有缺点,如远离原点的批可能比靠近原点的批,有更大的展布,体现在图形上则会出现有些箱线图挤在一起,较为扁平,不利于数据分析。因此,若用同一尺度来绘图,将难以看出靠近远点的批的细节。

为了改善箱线图的这个缺点,我们可以做一些适当的变换,使得这些批的变异性更加一致。我们要从数据本身得到关于数据变换的一些指导,一个比较适合的标准就是“展布对水平图”,它能够建议一个幂变换,有助于把跨越这些批的不同水平的展布变成相等。

用箱线图比较几个批的数据,三搜集中国16大城市3月到10月的降水量数据,单位为毫米,由于数据庞大,不在此列出。数据来源于2012年统计年鉴。

构造出的箱线图可以看出位置,展布,尾长和离群值截断点。图中四分数相对于中位数的位置,可以看出偏度,若中位数离下四分数,比离上四分数近得多,则表明这个批是正偏的,反之则为负偏。由以上箱线图可知,效果不是很好,有较多的离群值截断点,不便于我们对数据的分析。

由上图可知,第13个箱线图(广州),距离远点较远,其降水量不仅有较大的展布,且分布较均匀。第16个箱线图(乌鲁木齐),其降水量展布较小,距离远点较近。由此可见,箱线图的局限性,为了解决展布对水平的依赖,以及离群值对数据分析的干扰,下面将对其进行改进。做相应的幂变换。

(二)幂变换(改善箱线图)

用R对所有数据进行平方根变换,得到新的展布对水平图。

则与前一个展布对水平图比较得知,此图没有明显的趋势,展布对水平不再有依赖性,则说明变换有效,达到了目的。

改善之后的展布水平图与箱线图如下。

可知,这个变换确实在几个重要方面改善了数据。我们可以知道,第13个箱线图(广州)的降水量普遍较高,其最小值都高于第2个箱线图(天津),我们得出,即使是在雨季,天津降水量都比广州要小,地域差异使得降水量有如此大的差异。第11个箱线图(武汉)的降水量有一个离群点,是在7月,降水量为389.7,可见武汉的雨水集中在7月,在夏天是一个降水量较大的城市。

三、结论分析

通过运用探索性数据分析和R软件结合的方法,数据被有效地处理与改善了。可见,探索性数据分析技术能帮助我们正确的处理数据,与R软件结合以后,拥有更加强大的功能,通过幂变换,箱线图得到了明显的改善,减少了离群值,展布也不再依赖于水平。总之,探索性数据分析在当今软件计算机如此发达的时代,其作用得到了越来越充分的体现,没有探索性分析,证实性分析往往是盲目的, 缺乏根据的; 没有证实性分析, 探索性分析则永远是一次不完整的的统计分析。正确运用探索性数据分析与R软件结合的方法,对数据进行处理与分析,可以带来很大的便利。

参考文献:

[1] David C Hoaglin Frederick Monsteller.John W.Tukey著,链、郭德媛、杨振海翻译校订.探索性数据分析[M].中国统计出版社,1983.

[2]李世勇,胡建军,熊 燕,欧阳虹.2004年我国卷烟焦油量的探索性数据分析[J].2005年第7期.

[3]乔云霞.国际竞争力要素贡献度的实证研究———基于面板数据的探索性分析[J].Number3 (General Serial No145) May, 2006.

[4]杨军,刘俊卿,强德厚.探索性数据分析在气候变化趋势研究中的应用[J]. 2007年7月第16卷第4期.