首页 > 范文大全 > 正文

混合状态与时间序列数据的相关性问题

开篇:润墨网以专业的文秘视角,为您筛选了一篇混合状态与时间序列数据的相关性问题范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:针对时间序列的特殊性,文章介绍了一种专用的表示时间序列弱相关性的状态――混合状态。所有基于独立样本的统计技术可以推广到混合状态下的序列,具有很好的统计特性。文章的创新之处就在于提供了一种检验大样本数据是否混合的方法。

关键词:非参数方法;时间序列;相关性;混合状态

中图分类号:TP311文献标识码:A

文章编号:1009-2374 (2010)22-0044-03

1非参数方法的应用误区

非参数方法与参数方法最大的不同就在于不事先假定总体的分布,因此也被称为“无分布的”方法。采用这种方法时,人们尽量从数据(或样本)本身获得所需要的信息,通过推断方法而获得结构关系,并逐步建立对事物的数学描述和统计模型。

总的来说,非参数方法具有广泛的适用性、较好的稳定性、支持数据类型的多样性、容易计算等优点,使得众多的专业和非专业统计人员对它趋之若鹜。

许多统计工作人员在学习理论的时候或许会注意到,但实际分析时往往会忽略的一点是:采用非参数方法的前提是数据必须来自简单随机样本,即独立同分布。这是因为,虽然非参数方法不要求总体本身的分布形式,但是其检验统计量通常是服从某一特定的分布的,这些统计量的分布对统计量的独立性要求较高。比如,常见的符号检验的统计量被认为服从二项分布――众所周知地,二项分布是n次独立进行的伯努利试验的结果所呈现出来的一种分布形式。如果数据不独立,那么统计量的分布不成立,再进行任何的假设检验都只是无用功。

然而这一严格的前提在实际研究中却往往形同虚设,任何独立的不独立的样本都直接被用做非参数检验包括经济领域中的时间序列数据,从而导致许多不被发现的错误结论。

2时间序列数据的特点

时间序列数据通常呈现出趋势性、周期性和序列相关性的特点,正是因为这些特性,才使得人们可以研究相应的模型以拟合现实数据,分析研究对象,甚至根据已有的数据预测未来的经济走势。但是这也同时反映出时间序列数据很少是彼此独立的,而且不像趋势性和周期性,这种相关性难以消除。因此若冒然应用非参数方法于时间序列,将可能导致错误的结论。

3一种弱相关性条件――混合状态

3.1历史沿革

既然现实的时间序列数据都是不独立的,那么难道就无法对它们采用简便易行的非参数方法了吗?情况并没有那么糟糕。Rosenblatt(1956)提出了一种序列相关性较弱的状态――α型混合状态(α-mixing condition),并在其著作中介绍了混合状态下的中心极限定理。该文提出,在混合状态下,中心极限定理在混合性状态下都是成立的。

在Rosenblatt成果的基础上,Volkonskii与Rozanov

(1959)将α型混合性状态的定义规范化,提出了一直沿用至今的定义。逐渐地,人们认识到,不独立的时间序列数据如果是混合状态的,那么也可以被当作相互独立的随机变量来使用。具体而言,就是大数准则和中心极限定义都在特定的形式下成立,而且一切应用于独立样本的方法都可以扩展到混合性过程中。Chanda(1974)研究了线性随机过程的强混合性的特征,Gorodeskii(1977)对Chanda 的结论进行了修正。马尔可夫状态下的混合性更是具有许多特殊的性质,Bradley(1986)、Stroock(1992)、Lovasz(1997)等人都在这方面做出过卓越的贡献。Doukhan(1994)在其专著中列示了五种不同强度的混合性状态(α型混合、β型混合、ρ型混合、φ型混合以及ψ型混合),Beare(2007)在前人努力的基础上又引入了一种新的混合性状态(γ型混合)。这些研究成果都为时间序列的深入探索打开了方便之门。

近50年来,混合性状态的一些优良特征渐渐被挖掘出来,并以这一理论为基础,使线性和非线性时间序列得到了新的发展。但遗憾的是,国内很少有学者对这方面做深入的研究,做实际工作的统计人员能注意到这方面的就更少了。

3.2混合性的定义

要定义混合性首先要引入一种指标,称为混合系数,每一种类型的混合都有其对应的混合系数。α型混合系数表示为α(n),β型混合系数表示为β(n)……以此类推。只要平稳序列满足以上五种定义中的任意一种,就可以认为它是混合性状态。α型混合是其中最弱的类型,一般而言,满足其他四种类型混合性状态的随机变量一定都是满足α型混合状态的。因此一般称α型混合状态为强混合状态(strong mixing condition),同时也会将以上五中状态统称为强混合环境(strong mixing conditions),在表述上应将两者分开。

本文主要介绍α型混合,简述其性质和表现,并提供一种用于检验的方法。

令{Xt,t=0,±1,±2}为一段严平稳的时间序列,对于n=1,2,…,定义:

(1)

其中Fij表示由{Xt,i≤t≤j}产生的σ代数,包含了从时间i到时间j内的全部信息。由于对任意的n≥1均有,因此上述定义的α型混合系数是单调不增的。

我们称{Xt}是α型混合,如果α(n)0。(2)

3.3α型混合初步理解

对α型混合状态的初步理解,首先需要注意以下两点:

(1)α型混合状态讨论的对象必须是严平稳的,因此要检验某一时间序列变量是否混合的,首先要将非平稳的过程经过处理变换为平稳的。

(2)讨论的对象要求是大样本,因为以上定义方法是取时间轴的前一部分时间段与相距较远的后一部分时间段,将两部分包含的数据信息做比较,如果样本量不够的话就难以体现出时间的影响。

简单的说,α型混合就是借助时间序列的“过去”和“未来”来体现该序列的相关程度的。可以理解为,如果时间序列的遥远的“过去”和遥远的“未来”两部分中包含的信息大体是相互独立的。以A表示过去某一时段的信息,B表示与A所在时段相距较远的某一时段的信息,P(A)和P(B)分别是整个时间段中落在A和B中数值的个数与总样本量的比值,如果随着它们相隔的距离拉大,P(A) P(B)P(A∩B),就说明A与B可被近似认为是独立的。

4混合性状态的检验

4.1检验步骤

我们根据以上的某些特性,可以初步筛选出哪些过程是不满足混合性状态的。经过筛选之后再进行更全面的检验,从混合性的定义出发,本文提出一种实用的检验方法。

(1)读入数据{Xt,t=1,…n},保证其为大样本。笔者认为,为使检验结果可靠,样本量n至少应为200。然后检验其平稳性,若样本非平稳,则采用适当的数据变换法将其变换为平稳的。常用的方法有滑动平均法、差分法、Cox-Box变换等。

(2)确定α混合系数(α-mixing coefficient)列个数r的取值。r应足够大以便于得到α混合系数列{α(i),i=1,…r}后能据以分析是否递减为0。一般认为r不小于30。

令整个时间段中“过去”部分生成的σ域为A,“未来”部分生成的σ域为B,从而每个α(i)由Ai和Bi确定。因此在确定了r的大小后可进而人为地确定生成r个σ域的变量范围。如:对于一个大小为n=1000的样本,要使r=50,可定A1为{Xt,1≤t≤100}产生的σ域,记为F1100,B1为{Xt,900≤t≤1000}产生的σ域;A2=F199,B2=……A50=F151,B50=。或者有间隔的,定A2=F198,B2=……一般来说只要保证产生两个σ域的变量值个数足够多,且它们相隔的距离足够远即可。

(3)确定产生每个σ混合系数的子集数s。每个α(i)由j个子集确定。对每个i而言,Ai与Bi中分别包含子集{Aij,i=1,…r,j=1,…s}和子集{Bij,i=1,…r,j=1,…s}。在实际操作中,上述子集可借助计算机软件随机生成。一般认为s不小于30。

(4)具体计算过程。概率P的定义为:

(3)

其中:

(4)

令k=P(A),l=P(B),m=P(A∩B),定义:

bij=|kij・lij-mij| (5)

根据α型混合的定义(式1),可计算出每个α混合系数:

(6)

(5)判断数列{α(i),i=1,…r}是否收敛于0。

先做α(i)关于i的散点图,如果表现出较明显的递减趋势或明显的非减趋势,则可由散点图做判定。

如果散点图表现得不明显,可对数列{α(i),i=1,…r}进行模型拟合,以进一步观察其趋势。

4.2举例说明

本文利用计算机模拟两个例子来说明混合性的检验。模拟一个独立同分布的随机变量{Xt,t=1,2,…,1000}的序列,,模拟一个完全自相关的随机变量{Yt,t=1,2,…,1000}的序列图,其自相关形式为:。

分别对两者的滞后一期序列做相关性散点图,可以发现它们有显著的区别(见图1a和图1b)。{Xt}与{Xt-1}没有相关关系,它们是相互独立的,而{Yt}与{Yt-1}却呈现出线性相关性。

图表说明:x1表示滞后一期的X;y1表示滞后一期的Y。

分别对两段序列用本文提出的方法做检验。两例均有n=1000,选定α混合系数列个数r=100,并令A1=F1150,A2=F1149,…,A100=F151;B1=,B2=,…,B100=,每一σ域中随机产生j=50个子集。

利用计算机软件R进行编程,便可分别得到序列{Xt}与序列{Yt}产生的α混合系数列(见图2a和图2b)。

从图2a和图2b中看出,{Xt}的α系数呈现出递减的趋势,如果样本量足够大,有理由相信α系数将收敛于0。而{Yt}的α系数序列围绕均值0.19上下波动,几乎看不出递减至0的趋势。因此这也就验证了{Xt}序列独立而{Yt}序列相关的前提。

5结语

从混合状态的定义出发,本文提供了一种用于检验实际数据是否满足混合状态的方法,需要利用计算机软件进行大量抽样模拟,以得出一串α系数序列。如果随着取样的“过去”部分和“未来”部分相隔越来越远,α系数序列递减至0,那么就可以认为所检验的数据是满足混合状态的。

参考文献

[1] Volkonskii.V.A,Rozanov.Y.A.Some limit theorems for random functions[J].Theory Probab.1959,(4).

[2] Rosenblatt.M.A central limit theorem and a strong mixing condition[J].Proc.Natl.Acad.Sci.1956(42).

[3] F.Jianqing,Y.Qiwei.Nonlinear time series: nonparametric and parametric methods.Springer series in statistics.New York:SpringerCVerlag,2003.

[4] Doukhan.P.Mixing:Properties and Examples.Lecture Notes in Statistics.New York:Springer,1994.

[5] 王星.非参数统计[M].北京:中国人民大学出版社,2005.

[6] W.J.Conover著,崔恒建译.实用非参数统计[M].北京:人民邮电出版社,2006.

作者简介:谭侃(1988-),女,江西吉安人,上海财经大学硕士研究生。