复杂样本的方差估计(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇复杂样本的方差估计范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

一、引言

对复杂样本按照理论直接推导出方差估计一则十分困难,二则从节约费用和时间的角度考虑代价也很大。通常采用的替代方法主要有随机组法、平衡半样本方法、刀切法和自助法等。本文研究采用基于逆抽样设计的方法对复杂样本进行方差估计,并将该方法与传统方法进行比较,探讨其适用条件。

二、逆抽样设计方法简介

逆抽样设计(Inverse Sampling Design,简称ISD方法)的思想由Hinkins等提出,Rao等研究了该方法的一些理论性质。该方法的基本思想是,通过选择一个抽样机制,对调查得到的复杂样本进行二次抽样。二次抽样机制的设计抵消了初始复杂样本中的分层、整群抽样等效应,使得按照该抽样机制抽选出来的子样本具有简单随机样本结构,后续分析基于这些具有简单随机样本结构的子样本进行。下图为该方法的流程示意图:

用数学符号来表示,假设进行某项调查,按照某种复杂抽样设计从一有限总体中抽出了一个大小为n的初始样本Sp,其中下标p(primary)表示初始样本。现希望从Sp中抽出一个大小为n'的子样本s',使得s'被抽中的无条件概率p(s')和简单随机抽样匹配,也即

由于抽取子样本s'是一个两步的过程,由全概率公式,有

其中,p(sp)为初始样本sp被抽中的概率,为sp已被抽选出来的前提下,s'被抽中的条件概率。

如果不依赖于sp,则由(1)式,有

(2)式即为从初始样本sp中选择s'的抽样机制。

逆抽样设计方法包括了如下基本的三个步骤:

(1)逆掉初始样本的复杂抽样设计,使得能够产生具有简单随机样本结构的子样本;

(2)重复执行逆抽样设计,以产生多个这样的子样本;

(3)基于每一个子样本数据进行分析,最后再以适当的方式进行合并。

三、逆抽样设计方法下的估计量构造

假设总体目标参数为θ,基于某复杂抽样设计p(sp),调查得到一个复杂样本sp。若存在对应于该复杂抽样设计p(sp) 的逆抽样设计,并将该逆抽样设计独立地重复执行B次,得到了B个具有简单随机样本结构的子样本(=1,2,⋯,B)。令和表示由第个子样本得到的总体参数估计和该估计量的方差估计,则θ的估计可构造为

如果是θ的无偏估计,那么也同样会是θ的无偏估计。

将基于初始复杂样本Sp的总体参数θ的估计记为,则的方差估计可构造为:

由(4)式,如果无偏,则也是无偏的。

四、与传统方法的比较研究

作为一种新的复杂样本方差估计方法,与现有方法相比较有哪些特征?本文用一个基于实际调查数据的模拟,对这些问题进行分析。

(一)数据说明

模拟分析的数据取自2007中国公民科学素质调查,为全国数据。中国公民科学素质调查是通过全国性的抽样调查,来了解分析我国18―69周岁的公民对科学的理解和对科学技术的态度等与公民科学素质相关问题的状况。调查的核心指标是中国公民在科学术语、科学观点、科学方法和科学与社会关系四个方面的具备比例和对应的得分。在对这四个方面的具备比例和对应的得分进行适当加权之后,得到一个总的科学素质具备比例和得分。调查的总样本量是10080,通过对出现单元无回答的问卷进行删除处理,最终得到的有效问卷共10059份。

以该数据集作为模拟总体,将各省份数据按照东、中、西部地区划分成三层,东、中、西部的划分情况如下:东部地区包括北京、天津、河北、辽宁、上海、江苏、浙江、福建、山东、广东、广西、海南12个省、自治区、直辖市;中部地区包括山西、内蒙古、吉林、黑龙江、安徽、江西、河南、湖北、湖南9个省、自治区;西部地区包括重庆、四川、贵州、云南、、陕西、甘肃、宁夏、青海、新疆10个省、自治区。将这三层以按比例分配的方式从这个模拟总体中抽出5%的样本。关注的指标有两个,一个是总体均值,为科学素质指数的总平均得分,用来表示;另一个是总体比率,为科学方法项平均得分与总平均得分之比,用来表示,其中为科学素质指数科学方法项的平均得分。模拟总体的层结构及各层抽取的样本量等信息如表1所示:

(二)抽样方法的逆设计

由于采用分层抽样从模拟总体中抽取了一个初始样本,由逆抽样设计方法的三个步骤,首先需要逆掉产生初始样本的分层抽样设计。

对于本例,

Nh和nh分别表示第h层中的总体和样本单元数,h=1,2,3。我们的目的是要从sp中抽取一个大小为n'的子样本s',使得,其中。显然,n'不能大于min(nh),因为子样本s'可能会全部来自于h层中的某一层。令n=(,,)T表示子样本s'中各层的样本单元数,其中0≤≤n',,则由(2)式,有:观察(5)式背后的概率机制,得出所采用的分层抽样方法的逆设计步骤如下:

(1)决定所要抽取的子样本大小n',n'最大不能超过min(nh);

(2)从超几何分布中产生3个随机数{,,},其中++=n',且,,≥0;

(3)在第h层内,从nh个初始样本中以不放回简单随机抽样的方式抽出一个大小为的子样本,各层之间的抽取相互独立;

(4)合并从各层中抽得的子样本。如此便从初始样本sp中抽得了一个大小为n'、完全意义上的简单随机样本,从而实现了初始抽样的逆设计。

(三)对应的ISD估计量

设将上述分层抽样的逆设计独立地重复执行了B次,得到了B个大小为n'的子样本(=1,2,⋯,B)。则总体均值的ISD估计为

的方差估计为

其中,和分别表示抽出的第个子样本中X的均值和方差。

总体比率R的ISD估计为

的方差估计为

其中,和的定义如前所述,和分别表示第个子样本中Y的均值和方差,则表示第个子样本中X和Y的协方差。

(四)模拟比较

从四个方面将逆抽样设计方法与传统复杂样本的方差估计方法进行对比:精度、灵活性、管理因素和泄密控制。对比的方法有:随机组法(Random Group)、刀切法(Jackkinfe)和自助法(Bootstrap)。实际中泰勒级数法和平衡半样本方法也有广泛的应用,但泰勒级数法本身并不能单独使用,需要结合其它方法;而平衡半样本方法则最常用于分层的、每层抽两个单元的设计,这与本文模拟分析所采用的抽样设计并不一致,因而这里没有将泰勒级数和平衡半样本方法纳入比较范围。

1.精度

从模拟总体中抽出大小为503的样本,基于此样本,用不同方法对研究变量进行方差估计。为了更好地对不同方法的效果进行对比,尽量避免由于抽样的随机性造成的影响,进行100次独立重复抽取,最后将结果进行平均。

对于逆抽样设计方法,抽取的子样本大小n'定为min(nh)=133,子样本的抽取个数B定为1000;对于随机组法和刀切法,需要进行随机组的划分,随机组的个数定为20,每层中随机组的大小分别为11、7和6;对于自助法,采用Rao和Wu给出的方法,从每层中有放回地抽取容量为nh-1的简单随机样本,抽取次数和逆抽样设计方法一样,定为1000次。主要以偏倚作为精度的度量标准,表2列出了模拟分析的结果:

由表2中的结果,对于均值、比率的估计以及均值估计的方差估计,逆抽样设计方法都取得了比较好的效果。对于比率估计的方差估计,四种方法中逆抽样设计方法的偏倚最大。原因可能在于,消除比率估计的偏倚通常需要较大的样本量,而采用逆抽样设计方法,通常只能抽取相比初始样本小得多的子样本。

2.灵活性

灵活性可以从两个方面来考察。从适用的估计量来看,逆抽样设计方法和随机组、自助法一样,几乎适用于任何估计量。刀切法则不适用于如分位数等的一些统计量。从适用的抽样设计来看,逆抽样设计方法有其局限性。原因在于,一方面,对于部分抽样设计,精确的逆抽样设计不存在,而只能采用近似的方法;另一方面,逆抽样设计方法目前尚不适用于对数据进行了加权调整的情形。而其它三种方法则适用于几乎任何抽样设计,同时也适用于加权调整后的情形。

3.管理因素

管理因素主要体现在费用、时间和操作的简便性等方面。随机组和自助法的处理费用都相对较低,因为对这两种方法都有现成的软件可用,而刀切法和逆抽样设计方法则需要编制相应的软件程序。逆抽样设计方法和自助法由于需要重复抽取子样本,计算量较大,耗费的时间也比较长。以本次模拟分析为例,执行随机组法和刀切法所对应的计算机程序,所耗费的CPU时间不相上下,而逆抽样设计方法和自助法所耗费的CPU时间则分别是随机组法的11倍和32倍。从操作的简便性来看,逆抽样设计方法则优于随机组、刀切法和自助法。

4.泄密控制

采用逆抽样设计方法则能有效地控制数据的归属泄密的问题。由(4)式,用逆抽样设计的方法估计方差,不需要利用抽样权重、层、群标识等信息,因而在一些涉及受访者隐私数据的调查中,逆抽样设计方法可能是一种行之有效的方差估计方法。

五、总结

对复杂样本进行方差估计,通常采用的是随机组、刀切法等方法,本文提出将逆抽样设计方法应用于复杂样本的方差估计。模拟分析的结果表明,ISD估计具有较好的收敛性,且对于线性总体参数的估计和方差估计,逆抽样设计方法的效果都较为理想。

通过将逆抽样设计方法与传统方差估计方法进行多角度比较,本文也探讨了该方法的适用条件。对比分析的结果表明,逆抽样设计方法在灵活性、操作的简便性和数据的泄密控制等方面特点突出,有其可取之处。实际中,可权衡精度、费用、灵活性等诸多因素,有针对性地设计抽样调查方案,以便采用逆抽样设计方法进行方差估计。

■ 参考文献

1.Susan Hinkins, H. Lock Oh and Fritz Scheuren. Inverse Sampling Design Algorithms[J]. Survey Methodology, 1997, 23(1): 11-21.

2.J.N.K. Rao, A.J. Scott and E. Benhin. Undoing Complex Survey Data Structures: Some Theory and Applications of Inverse Sampling[J]. Survey Methodology, 2003, 29(2): 107-128.

3.J.N.K. Rao, C.F.J. Wu. Resampling Inference With Complex Survey Data[J]. Journal of the American Statistical Association, 1988, 83(401): 231-241.

4.倪加勋。调查概论[M]。北京:中国财政经济出版社。2004:253-258。

5.Kirk M. Wolter著,王吉利、李毅译。方差估计引论[M]。北京:中国统计出版社。1998:367-381。

复杂样本的方差估计

优秀范文

精选范文