首页 > 范文大全 > 正文

数量特征敏感性问题调查模型的改进

开篇:润墨网以专业的文秘视角,为您筛选了一篇数量特征敏感性问题调查模型的改进范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:以Greenberg模型与随机变量和模型为基础,提出一种提高估计精度的思路,即:以递减的概率引入随机数与敏感性问题数值进行运算,依次提出各种改进模型,在一定条件下,可以缩小估计量的方差,提高精度.

关键词:数量特征敏感性问题调查;Greenberg模型;随机变量和模型;估计精度

中图分类号:C811

文献标识码:A文章编号:1672-8513(2010)01-0028-05

An Improvement on the Investigation Model for Sensitive Problems

with Quantitative Character

――Series Improved Models Based on Greenberg Model and Random Variables Model

LIU Hui,ZHOU Hong

(School of Information, Zhongnan University of Economics and Law, Wuhan 430060, China)

Abstract:

The Greenberg model and Random variables model are adopted for improving the evaluation accuracy, namely, Random numbers introduced to the model by decreased probability are used to compute the numbers of sensitive problems with quantitative character, which makes the evaluation of average value more accurate.

Key words:

quantitative feature; investigation of sensitive problem; Greenberg model; random variables model; evaluation accuracy

0 引言

在社会经济调查中,有些调查项目具有很强的敏感性,被调查者往往不会如实提供资料甚至拒绝调查.这些敏感性问题从性质上讲可以分成2类.一类是涉及个人隐私的问题,例如工资收入及非工资收入、银行存款等.被调查者出于“对外保密”、“不便外露”等考虑会拒绝回答,即使勉强接受调查也常常是提供打了折扣的数据.另一类是有悖于道德规范甚至违规犯法的问题,例如偷税漏税、吸毒、赌博、公款吃喝等.被调查者出于“自我保护”的意识更是拒绝调查,即使不得不接受调查也是全盘否认自己曾有不正当行为.对这些敏感性问题采用直接调查的方法显然不可能获得真实的数据或资料,根本不能保证调查结论的准确性、可靠性,而且所得结论与事实的出入大小也无法度量,因此必须采取特殊的调查方法[1].

1965年沃纳提出了随机化回答模型[2],开创了敏感性问题调查之先河.这种调查方法的基本特征是在调查中引入随机化装置,使被调查者在保证真实的前提下采取随机化回答的方式,因而既能为被调查者保守个人机密,同时也能使调查者获得所需的真实资料.敏感性问题调查从统计上看可以分成2类.一类是属性特征敏感性问题调查,它要解决的是估计总体的各种比例,例如青少年中有赌博经历的人所占比例.另一类是数量特征敏感性问题调查,它要解决的是估计总体某项指标的均值或总值,例如个体户偷漏税款总额及按户平均的偷漏税款额.对这2种类型的敏感性问题[3]调查,从沃纳起已经有许多随机化回答模型[4]问世.本文基于数量特征敏感性问题调查的最基础模型――Greenberg模型[5]与随机变量和(乘)模型[6],提出一种改进模型的设计思路与方法.

1 Greenberg模型与随机变量和模型方法

假设我们需要调查一个定量的敏感性问题,其真实答案为X.为保护被调查者,并得到尽可能真实的回答,产生随机数Y.为达到较高精度,一般要求Y的分布尽可能类似于X的分布.所以我们可根据以往调查的结果或凭经验估计Y的分布.假定Y的分布密度为f(y).假设已从总体中按简单随机抽样抽得n个被调查者,被调查者的回答为Z. X、Y、Z的均值为X、Y、Z,方差为S2x、S2y、S2z,Z的样本均值为z,样本方差为s2z.设z1,z2,…,zn为简单随机样本,因此可取估计量:Z^=z,S^2z=s2z,Z^与S^2z分别是Z与S2z的无偏估计.在简单随机抽样中,var(Z)=1-fnS2z,其无偏估计量为var^(Z)=1-fn

S^2z=1-fns2z.下面给出Greenberg模型、随机变量和模型以及改进模型的调查方法及其估计,估计量及其方差的下标0至6分别表示直接调查法、Greenberg模型、随机变量和模型以及系列改进模型的估计量及其方差.

1.1 Greenberg模型

Greenberg模型的调查方法[7]是:第1步,产生一概率密度为f(y)的随机数Y,该过程可由计算机实现 .第2步,产生0-1分布的随机数ε,p(ε=1)=p,p(ε=0)=1~p.此过程也可以这样来实现:在一个箱子中装有红球和黄球,其比例分别为p和1-p.第3步,如果ε=1,则要求被调查者回答敏感性问题X,否则回答被调查者看到的随机数Y. X、Y与ε相互独立.即若被调查者摸到红球,则回答X的值,否则回答Y的值.研究者只能看到被调查者给出的最终回答Z,即:Z=εX+(1-ε)Y.

两边取期望,得到:Z=pX+(1-p)Y.

两边求方差,得到:S2z=EZ2-(EZ)2=S2x+(1-p)(S2y-S2x)+p(1-p)(Y-X)2.

由于X=Z-(1-p)Yp,如果用z代替Z,由简单随机样本的性质,得到:

刘 辉,周 虹:数量特征敏感性问题调查模型的改进

(1)简单估计量:X^1=z-(1-p)Yp;

(2)估计量的性质

:①E(X^1)=X;

②var(X^1)=var(Zp)=1-fnp2S2z=1-fnp2[S2x+(1-p)(S2y-S2x)+p(1-p)(Y-X)2];

③var^(X^1)=var^(Zp)=1-fnp2s2z是var(X^1)的无偏估计.

注:由于各方法均采用简单随机样本,因此估计量、估计量方差的估计均是无偏的.在估计量的性质中,表现为性质①、③相似,以后不再重复描述.

当p=1时,该模型为一般的直接调查法,直接调查的均值估计量的方差var(X^0)=1-fnS2x.因此,var(X^1)-var(X^0)=1-fn[p(1-p)S2x+(1-p)S2y+p(1-p)(Y-X)2] ≥0(因为此式每项均大于0).这表明,Greenberg模型因为引入随机化装置,使之与直接回答相比,保密度要高,但精度要差.为了提高精度,可以让p接近1,但增大p值,保密性降低.在p适当时,可以使Y的分布和X的分布尽可能相似来提高精度.

因为Greenberg模型以1-p的概率回答与敏感性问题无关的随机数,最终的n个回答中只有p的概率与所研究的问题有关,大量信息被浪费,估计精度不高.所以提高估计精度的途径是,使每位被调查者的回答结果中都含有所研究问题的信息,同时又具有高保密性,Padmawar等提出用无关数据与敏感性数据进行运算以此来掩饰真实数据的模型,如随机变量加法模型和随机变量乘法模型.下面以加法模型即随机变量和模型为例进行说明.

1.2 随机变量和模型

随机变量和模型的调查方法是:第1步,产生一概率密度为f(y)的随机数Y,该过程可由计算机实现.第2步,被调查者回答X+Y的和,其中X与Y相互独立.研究者只能看到被调查者给出的最终回答Z,即:Z=X+Y.

两边取期望,得到:Z=X+Y.

两边求方差,得到:S2z=S2x+S2y.

由于X=Z-Y,如果用z代替Z,由简单随机样本的性质,得到:

(1)简单估计量:X^2=z-Y;

(2)估计量的性质:var(X^2)=var(Z)=1-fnS2z=1-fn(S2x+S2y).

该加法模型的最大特点是估计量的计算简单.当Y0时,该模型成为一般的直接调查法.因为var(X^2)-var(X^0)=1-fn(S2x+S2y-S2x)=1-fnS2y≥0,所以要使精度提高,尽可能减少Y的方差,尽量少地引入无关信息(Y).又因为var(X^1)-var(X^2)=1-fnp2[p(1-p)S2x+(1-p-p2)S2y+ p(1-p)( Y-X)2].当0

综合上面的比较,为了提高估计精度,提出的改进方法是,不仅使每个被调查者的回答都含有敏感性问题的信息,同时又使随机数仅以一定的概率影响被调查者的最终回答.按照这一思路,提出下面的改进模型.

2 基于Greenberg模型与随机变量和模型的系列改进模型

2.1 改进模型1

此模型的调查方法是:第1步,产生一概率密度为f(y)的随机数Y,该过程可由计算机实现.第2步,产生0~1分布的随机数ε,p(ε=1)=p,p(ε=0)=1~p.此过程也可以这样来实现:在一个箱子中装有红球和黄球,其比例分别为p和1-p.第3步,如果ε=1,则要求被调查者回答敏感性问题X,否则回答X+Y的值.X、Y与ε相互独立.即若被调查者摸到红球,则回答X的值,否则回答X+Y的值.研究者只能看到被调查者给出的最终回答Z,即:Z=εX+(1-ε)(X+Y).

两边取期望,得到:Z=X+(1-p)Y.

两边求方差,得到:S2z=EZ2-(EZ)2=S2x+(1-p)S2y+p(1-p)Y2.

由于X=Z-(1-p)Y,如果用z代替Z,由简单随机样本的性质,得到:

(1)简单估计量:X^3=z-(1-p)Y;

(2)估计量的性质:var(X^3)=var(Z)=1-fnS2z=1-fn[S2x+(1-p)S2y+p(1-p)Y].

当p=1时,该模型相当于直接调查法.当p=0时,该模型就是随机变量和模型.改进模型1使得每个被调查者的回答中都含有敏感性问题,以概率p直接回答敏感性问题,同时以1-p的概率引入随机数和敏感性数据进行加法运算.因为var(X^2)-var(X^3)

=1-fn[pS2y-p(1-p)Y2],当p≥1-S2yY2时,改进模型1比随机变量和模型有更高的精度.

2.2 改进模型2

此模型的调查方法是:第1步,产生一概率密度为f(y)的随机数Y.第2步,产生0~1分布的随机数ε,p(ε=1)=p,p(ε=0)=1-p.此过程也可以这样来实现:在一个箱子中装有红球和黄球,其比例分别为p和1-p.第3步,如果ε=1,则要求被调查者回答X+Y;否则回答X+Y.X、Y与ε相互独立.即被调查者摸到红球,则回答X+Y的值,否则回答X+Y的值.研究者只能看到被调查者给出的最终回答Z,即:Z=ε(X+Y)+(1-ε)(X+Y).

两边取期望,得到:Z=X+Y.

两边求方差,得到:S2z=EZ2-(EZ)2=S2x+(1-p)S2y.

由于X=Z-Y,如果用z代替Z,由简单随机样本的性质,得到:

(1)简单估计量:X^4=z-Y;

(2)估计量的性质:var(X^4)=var(Z)=1-fnS2z=1-fn[S2x+(1-p)S2y].

当p=1时,该模型相当于直接调查法.当p=0时,该模型就是随机变量和模型.改进模型2以1-p的概率引入随机数、以概率p引入确定数和敏感性数据进行加法运算.因为var(X^2)-var(X^4)=1-fnpS2y≥0,对于随机变量和模型,改进模型2提高了精度,其估计量的方差缩小了1-fnpS2y.在改进模型1中,令Y=0,就得到了改进模型2,因为var(X^3)-var(X^4)=1-fnp(1-p)Y2≥0,显然改进模型2比改进模型1有更高的精度.

为了进一步提高估计精度,我们可以以更小的概率(小于1-p)引入随机数,在改进模型2的基础上,提出以下改进模型3和改进模型4.

2.3 改进模型3

此模型的调查方法是:第1步,产生一概率密度为f(y)的随机数Y.第2步,产生三维单位行向量ε,p[ε=ε1=(1,0,0)]=p,p[ε=ε2=(0,1,0)]=(1-p)p1,p[ε=ε3=(0,0,1)]=(1-p) (1-p1).此过程也可以这样来实现:有2个箱子,在一个箱子中,装有红、黄2种颜色的小球,其比例分别为p和1-p.在另一个箱子中,装有黑、白两种颜色的小球,其比例分别为p1和1-p1.第3步,如果ε=ε1,则要求被调查者回答X+Y的值;如果ε=ε2,则要求被调查者回答X+a(其中a为给定的一正常数)的值;如果ε=ε3,则要求被调查者回答X+Y的值.X、Y与ε相互独立.即如果被调查者摸到红球,则回答X+Y的值;摸到黄球,则在第2个箱子中继续摸球.若在第2个箱子中摸到黑球,则回答X+a,否则回答X+Y的值.研究者只能看到被调查者给出的最终回答Z,即Z=ε(X+Y,X+a,X+Y)T.

两边取期望,得到:Z=X+[(1-p)p1]Y+a(1-p)p1.

两边求方差,得到:S2z=EZ2-(EZ)2=S2x+[1-p-(1-p)p1]S2y+ (1-p)p1[1-(1-p)p1](Y-a)2.

由于X=Z-[(1-p)p1] Y-a(1-p)p1,如果用z代替Z,由简单随机样本的性质,得到:

(1)简单估计量:X^5=z-[(1-p)p1]Y-a(1-p)p1;

(2)估计量的性质:var(X^5)=var(Z)=1-fnS2z=1-fn{S2x+[1-p-(1-p)p1]S2y+(1-p)p1[1-(1-p)p1](Y-a)2}.

当p1=0时,此模型就是改进模型2.当Y=a时,实际上是增大了引入确定数概率的改进模型2.因为var(X^4)-var(X^5)={(1-p)p1S2y-(1-p)p1[1-(1-p) p1]( Y--a)2},当Y--Sy1-p1(1-p)≤a≤Y-+Sy1-p1(1-p)时,改进模型3比改进模型2有更小的方差.

2.4 改进模型4

此模型的调查方法是:第1步,产生一概率密度为f(y)的随机数Y.第2步,产生三维单位行向量ε,p[ε=ε1=(1,0,0)]=p,p[ε=ε2=(0,1,0)]=p1,p[ε=ε3=(0,0,1)]=(1-p-p1).此过程也可以这样来实现:在一个箱子中,装有红、黄、蓝3种颜色的小球,其比例分别为p、p1和1-p-p1.第3步,如果ε=ε1,则要求被调查者回答X+Y的值;如果ε=ε2,则要求被调查者回答X+a (其中a为给定的一正常数)的值;如果ε=ε3,则要求被调查者回答X+Y的值.X、Y与ε相互独立.即若被调查者摸到红球,则回答X+Y,摸到黄球,则回答X+a的值,否则回答X+Y的值.研究者只能看到被调查者给出的最终回答Z,即Z=ε(X+Y,X+a,X+Y)T.

两边取期望,得到:Z=X+(1-p1) Y+ap1.

两边求方差,得到:S2z=EZ2-(EZ)2=S2x+(1-p-p1)S2y+p1(1-p1) (Y-a)2.

由于X=Z-[(1-p)p1]Y+ a(1-p)p1,如果用z代替Z,由简单随机样本的性质,得到:

(1)简单估计量:X^6=z-(1-p1)Y-ap1;

(2)估计量的性质:var(X^6)=var(Z)=1-fnS2z=1-fn[S2x+(1-p-p1)S2y+p1 (1-p1) (Y-a)2].

当p1=0时,此模型就是改进模型2.当Y=a时,实际上是增大了引入确定数概率的改进模型2.令p1为改进模型3的(1-p)p1时,此模型就为改进模型3.因为var(X^4)-var(X^6)=1-fn[p1S2y-p1(1-p1) (Y--a)2],当Y-Sy1-p1≤a≤Y+Sy1-p1时,改进模型4比改进模型2有更高的精度.又因为var(X^5)-var(X^6)=1-fn[pp1S2y-p21(1-)(Y-a)2],当Y-pSyp1(1-p2)≤a≤Y+pSyp1(1-p2)时,改进模型4比改进模型3有更高的精度.

3 结语

在数量特征敏感性问题调查中,Greenberg模型引进了无关问题,取得了被调查者的信任,但仅以概率1-p取得敏感性问题的信息,造成信息的大量浪费.在随机变量和模型中,每个被调查者的回答都含有敏感性问题,但同时又以概率1含有无关问题的信息,随机变量和回答方法与Greenberg模型相比方差更小,但与直接回答调查方法相比精度要差.为了提高精度,在每个回答都含有敏感问题信息的同时,仅以一定概率1-p引入随机数与敏感性问题数值进行运算,即为改进模型1.在改进模型1的基础上,还可以以小于1-p的概率引入随机数,得到改进模型2、改进模型3和改进模型4.证明表明,上述模型估计量的方差在一定设计条件下依次降低.

本文以Greenberg模型和随机变量和模型为基础,探讨分析了提高估计精度的一种思路,即:若以递减的概率引入随机数与敏感性问题数值进行运算,依次提出各种改进模型,控制参数(a、p或p1)在一定范围内,可以缩小估计量的方差,提高精度.但随着递减次数和参数的增多,敏感性问题的均值和方差的估计变得复杂,同时也会增加调查实施过程的难度和被调查者的配合程度.上述改进模型操作步骤均小于3步,因此在实际中有一定的可行性.本文以Greenberg模型和随机变量和模型为出发点,依次说明了在此基础上提出的4种改进模型.实际上,对于乘法模型,按照改进思路,同样可以有提高精度的各种改进,其操作步骤和估计量的估计与加法模型完全相似,限于篇幅,这里不再赘述.

参考文献:

[1]赵俊康.统计调查中的抽样设计理论与方法[M].北京:中国统计出版社,2002:256-291.

[2]WARNER S.Randomized Respond:A survery technique for eliminating evasive answers bias[J].Joural of American Statistieal,1965,60:63-69.

[3]孙山泽.抽样调查[M].北京:北京大学出版社,2004.171-189.

[4]孔圣元,孟生旺.敏感性问题随机化回答模型的改进[J].统计研究,1997(1):59-62.

[5]GREENBERG B G,ABULELA A L A.The unrelated question randomized response model:theoretical framework[J].Joural of American Statistical Association,1969,64:520-539.

[6]孔圣元,孟生旺.敏感性问题“随机变量和”回答模型[J].数理统计与管理,1998(2):35-39.

[7]金莹,梁小筠.对定量的敏感性问题的一种改进调查法及其估计量[J].统计研究,2000(1):59-60.