开篇:润墨网以专业的文秘视角,为您筛选了一篇无响应误差统计学论文范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
一、关于可接受的回答率问题
如上所述,较低的回答率将会破坏样本的代表性,从而产生较大的无回答偏差。那么,什么样的回答率是可以接受的呢?这一问题目前尚没有一个明确的、公认的结论。科克伦和伯恩鲍姆(A.Birnbaum)等人认为对一般调查而言,回答率应在90%甚至95%以上。美国广告研究基金会则建议邮寄调查的回答率应80%以上。我国学者卢淑华也持这种看法。爱尔达斯(Erdos)则认为一个可靠的邮寄调查应有50%以上的回答率,或能用某种方法证实不回答者与回答者是相似的。莱斯勒(J.T.Lessler)认为对这一问题的回答不应是绝对的,而应考虑多方面因素。她指出应结合如下因素来讨论:(1)调查前对回答率的期望值,它取决于调查的内容、总体与数据收集方式;(2)提高回答率的成本;(3)是否对无回答采用补救方法以及采用何种方法。(4)调查内容及其结论的重要性。应该指出的是,在调查报告或研究结果中说明回答率是一项良好的调查研究应有的内容。
三、无响应问题的处理方法
为了尽量减少无响应误差的影响,统计学家们提出了许多的处理方法。这些处理方法可以归纳成两类,一类是在进行统计分析之前的处理,即在调查阶段的处理,一类是在统计分析中进行的处理,即调查完成之后的处理。
1.分析前的处理。分析前的处理方法的主要目标是提高回答率。主要方法包括:(1)认真选聘、培训、督导调查员。(2)对被调查者进行适当激励。(3)由有名望的机构出面组织调查。(4)多次访问。(5)改进调查方法。如,科学地设计调查项目与问卷外观,以使被调查者能较轻松地回答问题;调查前先与被调查者联系;仔细分析不同受访者最可能在家的时间;等等。(6)在无响应的样本单位中再次抽样。(7)使用随机化回答技术。如果引起无响应的主要原因是问卷或某些项目为敏感性问题(如隐性收入、偷税漏税、吸毒等),则可用使用随机化回答技术来进行调查。这种调查技术通过设置巧妙的“随机化装置”,使得被调查者可以说出实情而调查者并不会知道他的回答的真正含义。但调查者可以由整个样本的回答获得某类人数所占比重或某敏感性指标的均值等的估计值。
2.分析中的处理。如果由于某些原因未能采用上文所述的分析前的处理方法,或者虽已采用但仍未能达至足够高的回答率,我们就需要采取事后的补救措施。各国统计学家已为此而提出了许多方法。(1)波利兹-西蒙斯(Politz-Simmons)方法。这种方法是预先在调查时询问回答者在K个类似的期间里他有多少期间可以被找到,然后在分析时用他可被找到的期间数对其Y变量值(Y为所研究的指标的测度)作“倒数加权”。例如,对于在调查的前5天中在相同时间内呆在家里并可以接受调查的天数分别为0、1、2、3、4和5的回答者,分别用6/1、6/2、6/3、6/4、6/5、6/6作为其Y变量值的权数(分母是前5天可接受调查的天数加1,即加上调查的当天)。这种方法的隐含假设是在家天数越少者,其Y变量值越接近不在家者。(2)时间趋势法。这种方法通过考察连续各批回答者(如邮寄调查中按时间先后对回件分批)的答案,分析其中的趋势,然后将此趋势延伸,以此推测出无响应者的答案。比如,如果各批回答者的收入呈上升趋势,则推测无响应者的收入是最高的。(3)分组加权估计。这种方法要求按某些辅助信息将总体单位分成若干组,使组内各单位的Y变量值尽可能相近。在抽样调查之后,若出现无响应问题,则按各组的单位数占总体单位数的比例进行加权调整。我们用一个简化的例子来说明,设总体分成两组,第一、二组单位数分别占总体单位数的30%与70%。假设抽样调查的结果如下表。
如果不作加权调整,则对总体的Y变量均值的估计为:(3230×300+2110×500)/800=2530但考虑到第2组的不回答率远高于第一组,为减少无响应偏差,使用分组加权估计,则总体的Y变量均值的估计调整为:3230×30%+2110×70%=2446。(4)替代方法。概括地说,替代方法是用“精心选择”的回答单位的数据或者用按辅助信息推测的数据来“替代”无响应单位数据的方式来处理无响应问题。而具体的替代方法则多种多样。———均值替代法。指将总体分组,用组内回答单位的样本均值替代无响应单位的值。这种方式实质上与“分组加权估计”方法非常类似。———完全匹配替代法。使用某些外部来源的记录来替代无响应单位或无响应项目的数据。如从工商、税务、海关等管理部门取得无响应的被调查企业的注册资本、所得税、出口货物情况等来作替代值。———最后回答者替代法。以最后一批回答者的答案替代无响应者的答案。比如,在邮寄调查中,以几次追踪后最后寄回问卷者来代表未回件者。———演绎估计法。如果所研究的Y变量与另一变量X存在已知的函数关系,即Y=F(X),且可了解到X的值,则可用此方法得出Y的缺失值。———回归替代法。如果所研究的Y变量与另外一些变量存在高度的相关关系,则可建立一个回归模型,并利用回答数据对模型参数进行估计。然后利用估计的回归方程预测Y的缺失值。———“热层”(Hot-deck)方法。通常用于项目无响应。一般做法是对调查中的项目缺失值用同一调查中具有类似背景的回答者的数值来替代。———最近距离替代法。通常用于项目无响应。这种方法要选择一些辅助变量及一种距离测度。它按照辅助变量距离最近的原则选择替代者。有人认为“热层”方法采用的是非数值分类的方式,而最近距离替代法采用的是数值分类方式,因而后者是前者的修正。几十年来,统计学家们针对无响应问题提出了许多的处理方法,本文难以一一介绍。统计学教材应按照所针对的学生层次、教学时间等来选择介绍适当的方法。
作者:岑成德单位:中山大学管理学院