开篇:润墨网以专业的文秘视角,为您筛选了一篇失业率预测研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘要:无论是从社会管理还是从经济发展的角度来考虑,失业均已成为目前各国十分关注的重点问题之一,学者们也一直在通过各种方法来预测失业率。近年来,随着网络的发展和搜索引擎的普及应用,学者们发展出一种利用网络搜索数据来观察和研究经济及社会问题的方法。随着这一方法的有效性被证明之后,它也被引入到失业率预测的研究领域中。文章利用Google推荐的关键词搜索数据,采用改进的逐步回归方法分层建立了三个模型预测失业率,并进行因果关系检验及有效性检验。实验结果表明,三个模型的拟合优度分别达到0.930、0.935、0.936,三期预测值的MAPE分别为1.20%、0.89%、0.57%。文章认为,这种方法能有效的处理网络搜索数据并进行相关的社会问题研究和经济问题的预测。
关键词:逐步回归;失业率;失业初请人数;网络搜索数据;协整分析;预测
一、 引言
本文以经济复苏时期美国失业率预测为例,从关键词库的构建、利用改进的逐步回归的方法对关键词进行筛选、合成综合搜索指数、构建模型进行预测等方面进行系统介绍,并对该方法的有效性及预测效果加以验证。
二、 文献综述
1. 利用搜索数据进行失业率预测的相关研究。作为反映经济表现的指标之一,失业率一直受到非常广泛的关注。在失业率的预测方面,学者们采用各种方法用以提高预测的准确性。在Ginsberg等人利用Google搜索数据成功的预测美国流感疾病趋势以后,这一预测方法被迅速的引入到失业率预测中来。Askitas和Zimmermann等(2009)建立了搜索数据与德国失业率之间的关联关系,并发现失业率发生变化时,网民对国家劳动局或失业保障机构、人事顾问、流行职位的搜索关注度会有所反应。D'Amuri和Marcucci等(2009)利用Google搜索数据建立了工作搜索指数来预测美国的失业率,并发现在加入了搜索指数修正之后的模型的预测效果显著高于传统模型。Suhoy(2009),Choi和Varian(2009)将网络搜索数据加入到长期和短期的失业初请人数预测模型,发现模型的拟合度有较大的提高,并且在长期预测模型和短期预测模型中,过去24周的滚动预测值平均绝对误差分别降低15.74%和12.90%。Wei Xu和Ziang Li等(2012)利用网络搜索数据和神经网络方法构建美国失业率预测模型,发现这种模型比其他的预测模型的效果要更好。
2. 搜索数据关键词的选取。在利用网络搜索数据进行社会和经济研究方面,面对的都是海量的搜索数据和关键词,如何从中筛选出有预测价值的关键词是一个核心问题。对于这一问题,学者们处理方法各不相同。
第一种是采取技术取词法,即利用高性能、大规模的计算设备将一切可能的关键词都纳入到研究范围内,然后将相关统计模型编成程序运算选出核心关键词。例如Ginsberg等人利用800余台高速计算机在2003年~2008年间5 000万个最为常用的搜索词中选择出45个与CDC 的流感病人就诊量数据相关性最高的关键词,作为预测关键词的来源。
第二种是经验取词法,即由作者运用主观经验确定关键词。例如Askitas在网络搜索与失业率相关性时,认为与劳动局或失业机关机构、失业率、人事顾问和德国比较流行的几个职业搜索引擎四类关键词的搜索量将出现变化,因而以这四类关键词为核心合成搜索指标。
第三种是范围取词法,即先确定一个选词的范围,然后在范围内进行精选。例如Konstantin在研究网络搜索与美国个人消费增长率的相关性时,首先收集了Google提供的27个分类中的前十大搜索词,然后分别做出相关性分析后剔除与个人消费不相关的词,利用剩下220个与消费相关的词合成一个指标(Konstantin,2009)。Wei Xu和Tingting Zheng等从Google Trends中与失业相关的分类中“Local/Jobs”和“Society/Social Services/Welfare & Une-mployment”类目中收集了500个左右的关键词作为原始关键词,从这500个关键词中找出相关系数大于0.65的108个关键词。然后利用神经网络方法,从这108个关键词中又筛选出少数几个关键词进行拟合
在现有取词方法中,技术选词法虽然精度较高,但是容易受到资源的限制而难以复制应用。而直接取词法与范围取词法虽然降低了工作量但是主观性较强,降低了学术研究的科学性(Ying Liu,Benfu Lv,2012)。
三、 理论分析与预处理方法
随着网络的兴起与发展,人们越来越多的依靠网络来寻找所需要的各种信息。对于面临失业或是处于找工作的人而言,通过网络搜寻相关的工作信息无疑是一种非常便捷的渠道。当经济不景气,在岗的人出于对未来失业的担忧,会通过网络了解失业保障政策以及寻找工作机会。未在岗的人也会通过网络来了解经济形势及寻找工作机会,Google把这些与失业相关的搜索关键词分成两类,分别是“工作”及“福利/失业”。虽然这些关键词的搜索数据量并不一定全是失业者或即将面临失业者的搜索产生的,但从统计上来说,这类关键词的搜索量与失业数据(这里的失业数据指的是初请失业人数数据,因为初请失业人数是美国失业率的非常好的先行指标-Choi and Varian(2009)),这两者之间存在很强的相关性。以“un-employment compensation”或“unemployment insuran-ce”为例,其变化趋势和失业人数变化趋势存在很强的一致性。
1. 关键词选取方法。本文的关键词来源于Google Tr-ends(http:///trends/),Google Trends记录了从2004年以来某个关键词每一周被搜索的次数,并按照一定的算法将其标准化,并且,Google Trends还根据搜索的关键词推荐与该关键词热门相关的一些关键词。本文采取的关键词选词方法是先选一个和失业相关的关键词作为初始关键词,由该关键词出发,Google Trends会推荐出与其热门相关10个关键词,我们进一步搜索这10个关键词,Google Trends又从这10个关键词出发又会推荐出其热门相关的大约100个关键词。如此往复,剔除重复的关键词后,这些关键词构成本文的基础关键词库。
本文将“unemployment”作为初始关键词,并且构成第一层的关键词库。第二层关键词库由第一层关键词库中的关键词及与这些关键词热门相关的10个关键词组成,去重后共11个,第三层关键词库由第二层关键词库的关键词及与这些关键词热门相关的关键词组成,去重后共90个,按照此方法,第四层关键词库共403个关键词。
2. 数据来源。本文采用的失业数据来源于美国劳工部网站(http://www.ows.doleta.gov/unemploy/claims.asp)的经过季节调整后的每周初请失业人数,美国国家经济研究局(NBER)报告称从2007年12月份美国开始进入衰退期,2009年6月份衰退结束,进入恢复期。本文重点研究经济恢复时期的美国失业率。所以,本文采用的数据跨度为2009年6月至2012年10月期间的175周,将前172周的数据作为训练集进入模型用于参数估计,后3周的数据作为测试集用于评估预测效果。
3. 搜索指数合成的方法。
(1)逐步回归法。在线性回归模型中,通常会碰到两个问题:一是如何从众多的自变量中挑选出对因变量有显著影响的解释变量。二是如何消除自变量之间存在的多重共线性对回归方程的影响。逐步回归分析方法被认为是解决这两个问题的有效方法之一。它的核心思想是在考虑的全部自变量中按其对因变量的贡献程度大小,由大到小地逐个引入回归方程中,如果发现先前被引入的自变量在其后由于某些自变量的引入而失去其重要性,可以从回归方程中随时予以剔除。直到既无不显著变量从方程中剔除,又无显著变量需要引入回归方程为止。其主要步骤如下:
Step1:对所有的自变量和应变量进行标准化处理;
Step2:计算自变量和因变量之间的皮尔逊相关系数,并找出相关系数最大的因变量,并根据偏F检验来判断该因变量是否应该被引入模型中;
Step3:在逐步引入新的因变量的同时,利用偏F检验删除之前进入模型但其对因变量的贡献降低的自变量;
Step4:重复Step2和Step3的过程,直到无显著变量需要引入回归方程为止。
(2)改进的逐步回归法。在利用网络搜索数据进行多元回归分析中,也需要从大量的关键词中筛选出对因变量有显著影响的自变量。不同的是,网络搜索的关键词和真实经济量变化之间存在先行或滞后的关系。由于要利用网络搜索数据进行预测,而因此必须找到那些搜索趋势变化领先于因变量变化的关键词(刘颖等,2011)。本文将这类关键词称为先行关键词。在运用逐步回归法筛选自变量之前,需要先利用时差相关分析法确定关键词的领先阶数,然后再利用逐步回归的思想合成综合搜索指数,本文将这一系列的处理过程称为改进的逐步回归分析法,其主要步骤如下:
Step1:利用时差相关分析法分析关键词的领先阶数。时差相关分析法是利用时差相关系数来验证经济时间序列先行或滞后关系的一种方法,其公式如下:
rl=,(l=0,±1,±2…)
上式中,rl:时差为l的相关系数,y:因变量,y:因变量均值,x:自变量,x:自变量均值。l为x的领先阶数。相关系数最大的时差阶数为领先阶数。此时的时差相关系数即为两者之间的相关系数;
Step2:确定了领先阶数后,将关键词按照领先阶数进行时差调整后与基准指标进行回归。将拟合度最大的关键词进入综合搜索指数。并对该综合搜索指数进行显著性检验;
Step3:对其他的关键词加入综合搜索指数之后,与基准指标进行再次回归,将对拟合度提升最大的关键词加入合成指数,形成新的综合搜索指数,并进行显著性检验;
Step4:对进入综合搜索指数的其他关键词再次进行显著性检验,如果不通过,则删除该关键词数据;
Step5:重复Step3和Step4,直至拟合度不再提高时停止,我们将此时的综合搜索指数记为Qit(i=1,2,3,4分别代表第一、二、三、四层关键词经过上述操作步骤后最后合成的综合指数)。这样就能持续地将能够显著提高搜索综合指数拟合度的关键词选取出来。
四、 实证分析
1. 模型建立。本文将失业初请人数Yt作为被解释变量,以提前一期的失业初请人数Yt-1作为解释变量一,以搜索数据综合指数Qit(i=2,3,4)作为解释变量二分别建立三个模型来验证本文提出的关键词选取方法及搜索数据预处理方法的有效性(由于单个关键词的选取带有很大的随机性,所以不建立i=1时的模型)。为增进平稳性,降低异常数据的影响,本文分别对以上变量取对数,分别表示为LogYt,LogYt-1,LogQit。
在建立模型之前,需要对各变量进行平稳性检验,本文采用ADF检验法对以上变量进行平稳性检验,检验结果如下:
从ADF检验结果来看,原变量序列均为非平稳序列。而一阶差分后的变量序列均为平稳序列。所以,以上变量均为一阶单整序列。
根据前面建立的理论框架,按照第二、三、四层的关键词综合指数,我们建立了如下模型。
LogYt=?茁0+?茁1LogYt-1+?茁2LogQ2t+ut(1)
LogYt=?茁0+?茁1LogYt-1+?茁2LogQ3t+ut(2)
LogYt=?茁0+?茁1LogYt-1+?茁2LogQ4t+ut(3)
模型回归结果及检验如表2所示。
在上述的三个模型中,各解释变量前的系数在1%的水平上均显著不为零,说明本文建立的模型是合理的。搜索数据综合指数LogQit的系数?茁2显著为正,说明失业初请人数和失业相关的搜索关键词指数之间有显著的正相关关系。
进一步的,本文对构建的三个模型的残差进行平稳性检验,发现残差序列在1%的水平上均具有平稳性。因此,解释变量和被解释变量之间存在一阶协整关系。
2. 因果关系检验。Granger因果关系检验能检验解释变量的前期变化是否能有效的解释被解释变量的变化。因此,Granger检验可以作为考察模型的预测能力的一个指标。本文对变量LogYt和LogQit进行了一阶Granger因果关系检验。检验结果如表3。
由表3可知,在三个模型中,解释变量 均可以显著地Granger引起被解释变量LogQit,表明搜索综合指数确实能够对失业初请人数具有良好的预测效果。
3. 模型预测效果比较。为进一步考察模型的预测能力,本文运用以上3个模型,分别预测了2012年10月份后3周的失业初请人数,并以平均绝对百分误差MAPE和均方根误差RMSE作为衡量预测能力的指标。设n为预测值的个数,实际值为yi,预测值为yi,则MAPE=/nRMSE=预测结果如表4所示。
从表4可知,三个模型均取得很好的预测结果。这说明,本文采取的基于Google推荐的热门相关关键词并利用改进的逐步回归法合成综合搜索指数的方法进行建模和预测是非常有效的,并且随着关键词层级的增加(即关键词库中关键词数的增加),模型的预测效果越好。
五、 结论及展望
本文采用了一种新的网络搜索数据的处理方法进行美国失业率预测。在这种处理方法中,本文根据Google推荐的热门相关关键词构成关键词库,进而利用改进的逐步回归的方法合成搜索综合指数。从关键词的选择上来看,相较于技术选词法、经验选词法及范围选词法,本文中的选词方法更为简单和客观。从合成搜索综合指数的方法上来看,这种合成方法使得解释变量和被解释变量之间的皮尔逊相关系数非常高,平稳性也高。从实验结果来看,根据这种处理方法建立的模型和预测的效果都非常好,三个模型的预测平均绝对百分误差MAPE分别为1.20%、0.89%和0.57%,均方根误差RMSE分别为4.82、4.73和2.69。综上,这种对网络搜索数据进行处理和预测研究的方法能够显著有效地提高失业率预测的准确性。
目前,基于网络搜索数据进行经济和社会行为预测的研究都是关于应用方面的研究。对于网络搜索数据和经济与社会行为方面的内在机理进行探讨的文章不多,尚未形成系统的理论框架。在利用网络搜索数据进行失业率预测方面,处于经济的不同时期,人们进行搜索的行为模式是否会发生变化?网络搜索数据与传统的市场数据结合进行预测是否能取得更好的预测效果?此外,在所有采用搜索数据进行研究的相关文章中,搜索数据大部分都来源于Google,而在一些发展中国家,Google搜索引擎的市场份额较小,如何利用当地主流搜索引擎如百度的搜索数据进行经济和社会问题研究?以及基于这些数据进行的研究是否可以和基于Google的搜索数据进行的研究一样有效?这些问题,都是我们下一步的研究的内容与重点。
参考文献:
1. Ginsberg, Mohebbi, Patel, Brammer, Smolinski and Brilliant, Detecting influenza epidemics using search engine query data, Nature,2009,(457):1012-1014.
2.N Askitas, and KF Zimmermann, Google Econometrics and Unemployment Forecasting.Applied Economics Quarterly,2009,55(2):107-120.
3. H Choi, H Varian, Predicting the Present with Google Trends, Technical Report, Google Inc,2009.
4. 刘颖,吕本富,彭赓.互联网搜索数据预处理方法及其在股市分析中的应用.情报学报,2011,10(10):1028-1036.
作者简介:彭赓,中国科学院大学管理学博士,中国科学院大学管理学院副教授;苏亚军,中国科学院大学管理学院硕士生;李娜,中国科学院大学管理学院硕士生。