首页 > 文章中心 > 统计学变量类型

统计学变量类型

开篇:润墨网以专业的文秘视角,为您筛选了八篇统计学变量类型范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

统计学变量类型范文第1篇

现在国家硕士研究生培养门类中列于数学大类之下属于概率论与数理统计大方向的有概率论与数理统计学术型硕士,应用统计专业学位硕士两类。两类硕士生的来源均是四年制本科生,学术性硕士生源的一般要求是数学或统计学专业毕业,应用统计专业学位硕士则只要求是理工科及相关专业即可,二者差别较大,专业知识的起点高度有差距。

在培养目标上,两类硕士差距就更加明显了。学术型硕士要求可以进行基本的专业理论研究,有继续进行高等理论研究的素质和潜力,其中的一部分人可以继续攻读本专业及相关金融、管理、经济等相关专业的博士学位,学术性的硕士生更强调理论学习和理论基础的训练。专业学位硕士则要求较好的专业知识实用能力,了解掌握常用统计方法的思想和软件应用,实践能力强,具有分析解决带复杂数据分析背景的实际问题的潜力,强调的是学生对实际问题的处理能力,各种统计方法的综合运用及实战能力。在国外发达国家,目前均有应用统计专业学位博士,就是说将来在我们国家,优秀的应用统计专业学位硕士可以进一步攻读专业学位博士,这类博士应该对实际问题有敏锐的眼光,对各种实用的统计方法有全面的了解,知晓其长处与不足,可以解决复杂的实际数据分析问题,因此应用统计专业学位硕士的概率理论基础训练应更加倾向于实际,倾向于在统计学中大量用到的概率论知识。这就决定了对两类硕士在概率论基础知识要求方面有很大不同。在概率论基础方面,由于两类生源的本科知识体系中都是以《概率论与数理统计》课程为起点,概率论部分基本相同,内容是:概率基础及公式,随机变量及分布,随机向量及分布,数字特征及计算。在硕士生阶段应在此基础上考虑两类硕士的培养目标的差异,分别在概率基础课程中安排不一样的教学内容和重点。

对学术型硕士生,通常开设《高等概率论》课程,以测度论为起点,具有一定的抽象度和深刻性,讲授一般观点下的积分、可测变换,随机变量及向量,概率理论、基本公式独立性,不等式和极限定理,数字特征与相依关系,讲述高度抽象的测度控制理论、拉冬一尼古丁定理、抽象的条件期望理论,训练学生的思考能力和论证基本功。对应用统计专业学位硕士,开设《概率论基础课程》,不涉及测度论等抽象内容,但是要把在实际应用中所有数据类型所对应的概率密度形式及演算作为重点加以训练,内容应该集中在常见随机变量的回顾,特殊类型的随机变量(既不是离散的也不是连续的)的引入和背景,条件概率演算一特别是连续变量对离散变量、离散变量对连续变量的条件概率计算,复杂情况下随机变量数字特征的计算等等,强调学生的动手推演能力和问题归类能力,例如要求学生会计算贝叶斯理论中常用的二项变量与贝塔变量的联合分布,通过这个联合分布来来计算相应的广义条件概率密度及条件数学期望。另一个例子就是给学生们详细介绍对连续型随机变量进行截断以后得到的截断随机变量的分布推演过程,讲述清楚该类型随机变量所对应的广义密度函数与原来的连续型随机变量的密度函数之间的关系,这类随机变量既不是连续性的也不是离散型的,使二者的结合体,在生物统计、工程试验的数据集合中经常会出现。

统计学变量类型范文第2篇

统计学在非统计学的各专业应用非常广泛。它不仅是数学工作者研究现实世界复杂问题的基本科研手段,也是其他各行各业工作者们研究各自领域工作的重要方法。要保证学生们通过对概率统计课程的专业学习后,能够对各类问题正确地选择并使用统计方法。实际上在很多时候同学们通过学习或借鉴文献中的做法都可以正确地选择统计方法,但是在接下来的具体处理过程中就会犯下错误,即没能正确理解并使用该统计方法。而犯上述错误的真正根源在于学生没用熟练掌握概率的相关基本知识点。

实际上,统计方法在应用于具体问题的时候,需要许多环节,其中最重要的是需要学生动手来推算该具体问题中涉及到的分布密度――特别是联合密度、边际密度与条件密度,演算方法应用中的变量变换及相应的分布密度,计算变量的数字特征,这些都是统计方法应用的基本环节,如果计算推演这一环节没有经过扎实地训练,那么在这一环节上经常会出错,统计结论就可能是错的。

上面的错误归结起来并不是同学的统计学没有学好,而是他(她)的概率论基本训练没有到位,因此有必要突出强调应用统计类课程所需要的重要知识点,在讲授概率基础课程时候加以特别强化训练。最重要的知识点主要有:

1.列出基于已知分布密度推导各种特殊数据类型的广义概率密度的相应方法。在实践中最常用的数据类型主要有:一元连续型、多元连续型(常见且基本),一元离散型、多元离散型(常见且基本),同时具有离散型与连续型分量的多元数据(常见但不基本),右删失数据(工程与生物领域常见但不基本)、左截断数据(不常用又不基本),具有缺失分量的多元数据(常见但不基本),都可以给出相应的方法求广义概率密度。

2.概率基本公式应用与条件分布的演算。教会学生正确地写出三大概率基本公式所需的各个要素,特别是关于条件概率及其密度的演算。重中之重有两处:一是会求离散变量关于连续变量的广义条件密度(十分常用),二是会利用广义条件密度及广义边际密度求离散变量与连续变量的广义联合密度(十分常用)。

3.计算条件期望、条件方差等条件化的数字特征(包括期望、方差、协方差、矩母函数、特征函数、概率母函数等),以及数值特征之间的相互关系。这些计算都是以计算条件分布为基础的,要让学生知道条件分布密度也可以对应到类似于数学期望等数字特征,在该场合下即被叫做条件数字特征;要让同学们知道这些数学期望、方差等与绝对数字特征的区别,不要在计算时混淆。

统计学变量类型范文第3篇

地质统计学是1962年,法国著名统计学家G.Matheron在Traitédegéostatistiqueappliquée一文最早提出的,之后其他科学家大量理论研究的基础上逐渐形成的一门新的统计学与地质学的交叉学科。地质统计学所利用的是应用统计学。地质统计学因为具有空间的分布特点,而且是利用区域变量理论作为理论基础,因此地质统计学在矿产开发、资源开发、动植物研究、地质地貌方面都有着很突出的作用。之所以将它称作地质统计学是因为,它最早只是应用在地理科学当中。地质统计学的创立最初是由G.Matheron创造的,经过长时间的改造与发展,现在的地质统计学已经成为一门非常完善的数学工具了,而且它的应用也变得越来越广泛,由最初单纯的地理研究,发展到今天在地球物理、地质、生态、土壤等领域的广泛应用。

二、地质统计学在矿山储量分析当中的应用

地质统计学是以研究区域化变量为基础的,以变异函数为研究工具,研究在空间上具有随机性和结构性的自然现象的科学。地质统计学在矿山储量分析当中的应用中的原理大致分为以下几种:1.区域化变量区域化变量是地质统计学理论体系的核心基础,在实践中,钻孔的位置。在绝大多数情况下是不随机的。当两个样品在空间的距离很小时,样品间会存在较强的相似性,而当距离很大时,相似性就会减弱或不存在。也就是说,样品之间存在着某种联系,这种联系的强弱是与样品的相对位置有关的,样品之间的联系在空间上既具有随机性又具有位置之间的联系。2.半变异函数的数学模型通常情况下样品由于取样、化验误差和矿化作用在短距离内的变化,在绝大多数情况下半变异函数在原点不等于零。也就是会存在块金效应。但是地质统计学在矿山储量分析当中的应用在实际工作中区域化变量的变化性很复杂,通常要计算几个具有代表性的方向,然后通过结构分析,得到一个能代表其空间变异性的模型函数,由于区域化变量往往存在各向异性,不同方向上的半变异函数具有不同的变程,影响范围是一椭球体,即各向异性椭球体。在确定空间搜索椭球体时,不仅需要指出块金常数、基台、变程,还需要指定一些参数:圆锥体的容差角、容差限、滞后距等,各个参数的意义用几何图形表示。当然应用地质统计学法对矿山储量分析,被大部分人认为是一种较好的品位估值方法,尤其适用于品位变化大,矿岩界线由品位控制的矿床。在估值计算过程中,当有了足够的地质钻孔数据时,对矿床进行正式可行性评价时,选用地质统计学法是一种较好的方法,而在对矿床进行初步评价或是数据量不足时,就要首选较简单的方法。基于地质统计学原理和矿体三维可视化建模技术的DIMINE矿业软件,实现了按照不同的边界品位动态圈定矿体,能够以市场经济为向导,快速计算出矿体范围内的矿石量,并进行储量分级,在此过程中所得到的各中间参数,可以为投资决策和日常管理提供必要的参考依据。

三、地质统计学在勘探网度优化方面的应用

地质统计学在勘探网度优化中的应用主要要注意以下的两个个因素,其一是:构造复杂程度;二是煤层的稳定性。当勘探区的构造已经经过,详细的勘探,构造问题基本解决之后,勘探网度优化主要的问题就是煤层的稳定性。当一个煤田有两种或者是两种以上的煤层稳定结构时、应该按照储量和厚度占有优势的那一个煤层类型选择勘探网度的优化。应用地质统计学的方法对露天的在勘探网度进行优化,主要要分为两个步骤:其一是建立地质变量的最佳理论变差函数;其二是应用地质变量的估计方差评价勘探过程对矿床的控制程度。

四、结语

统计学变量类型范文第4篇

HuCY,HuLP.JChinIntegrMed.2009;7(1):7478.

ReceivedOctober9,2008;accptedDecember1,2008;publishedonlineJanuary15,2009.

Indexed/abstractedinandfulltextlinkoutatPubMed.JournaltitleinPubMed:ZhongXiYiJieHeXueBao.

Freefulltext(HTMLandPDF).

ForwardlinkingandreferencelinkingviaCrossRef.

DOI:10.3736/jcim20090112OpenAccess

Howtoidentifystatisticaldata

ChunyanHU,LiangpingHU

ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China

Keywords:statistics;medicine;dataanalysis,statistical

统计资料是统计分析的对象,正确识别统计资料是合理运用统计分析方法处理统计资料的首要前提;而科学完善的实验设计又是获得准确而又可靠统计资料的基本保证。

1何为统计资料

1.1数据不等于统计资料某研究者提交了如下内容。请问:它们是否叫统计资料?

6.55.16.13.93.57.72.11.99.67.97.67.84.66.16.42.87.62.54.68.14.86.95.12.06.46.04.58.08.08.66.44.96.46.84.73.47.71.22.80.52.63.26.57.63.55.75.42.37.42.74.26.46.97.26.76.54.07.31.14.92.52.91.93.61.42.54.42.5

它们不叫统计资料,因为这些数据代表什么含义并不清楚,数据的单位是什么不清楚,能派什么用场也不清楚,它们只能叫68个数据而已。

1.2仅有度量衡单位的数据仍不能称为统计资料假定前面给出的68个数据的单位是ng/ml,是否可称其为统计资料呢?仍然不可以!因为还缺少数据的名称,即数据的专业含义是什么,必须交代清楚,对其进行分析和讨论才能有的放矢,否则,只能是玩弄数字游戏。

1.3仅有变量名及其取值的数据仍不能称为统计资料表1中有很多数据,其中的每一列都能被称为统计资料吗?

有些似乎可以,有些则不可以。因为有些列仅有变量名,其专业含义并不清楚,如“G”代表什么,其下方的“1”与“2”又分别代表什么,“X1”的含义可通过其下方的“男”、“女”得知其代表“性别”,但“X3~X13”的含义都不清楚,“X14”代表联合用药情况。

1.4有指标名称又有度量衡单位的数据是否一定就可称为统计资料假定前面给出的68个数据所代表的指标为神经元特异性烯醇化酶(neuronspecificenolase,NSE)的含量,其单位是ng/ml,此时,它们是否就能叫统计资料?若要求不高,基本上可以称其为统计资料;若要求严格,还不能这样称呼。因为它们测自什么样的受试者并不清楚!比如有的测自正常人,有的测自不同疾病患者,甚至有的测自动物。表1冠心病人与正常人多项指标的观测结果

1.5统计资料应具备4个基本要素应当说,指标(或变量)名称、度量衡单位和具体取值是统计资料的3个基本要素。仅有这些基本要素可能还达不到特定的研究目的,也就是说,统计资料还应包括实现特定研究目的所对应的特定条件。比如说,前面给出的68个数据是某年从某地区18~60岁全部正常成年人中随机抽取的68人血液NSE酶的具体数值,而且,在获得这些数据时,测定的时间、地点、方法、仪器设备和测定者等都相同。这样条件下测得的NSE酶含量(ng/ml)所得的统计资料,运用适当的统计分析方法,才可以推测该年该地区18~60岁全部正常成年人血中NSE酶含量的(1-α)100%容许区间(医学上习惯称为正常值范围)和NSE酶含量总体平均值的(1-α)100%置信区间(也有人称为可信区间)。概括起来说,统计资料应具备4个要素:影响因素(测定条件)、有明确专业含义的指标名称、度量衡单位和具体取值。由此可见,统计资料通常是复合型,一般至少含有2个变量,一个称为影响因素,另一个称为观测指标及其取值。前面举的例子中,影响因素是受试者类型,仅测定了正常人,隐含的另一个水平是除这里定义的正常人以外的其他人,要使两组人具有较好的可比性,与其可形成对照的是某年从某地区18~60岁全部非正常成年人中随机抽取的68人。下面的表2中,若给X5~X11加上相应的度量衡单位,就是一个比较正规且可达到一定研究目的的复合型统计资料。表2103例冠心病人与100例正常人多项指标的观测结果

2统计资料的分类

2.1定性与定量资料任何一个有一定实用价值的统计资料通常都是复合型统计资料,即至少有两类性质的资料,一类叫定性资料,另一类叫定量资料。通常影响因素是定性资料,而观测结果是定量资料,但有时影响因素和观测结果都可包含定性与定量两类资料。

2.2资料类型的两种划分方法资料类型的划分方法有传统与现代两种。现将这两种划分方法作一扼要介绍,并对其加以比较。

2.2.1资料类型的传统划分方法资料类型的传统划分方法是将资料分为计量资料、计数资料和等级资料3类。其定义如下。

计量资料:测定每个观察单位某项指标量的大小,所得的资料称为计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料。

计数资料:将观测单位按某种属性或类别分组计数,得到各组观察单位数称为计数资料。例如某单位全体员工按ABO血型系统划分所得A型、B型、AB型、O型血的人数分别为1598、2032、641、1823人;又例如某小学1年级至6年级的学生人数分别为90、100、86、95、112、96人。

等级资料:将观测单位按某种属性的不同程度分组计数,得到各组观察单位数称为等级资料或半定量资料或有序资料。例如用某种治疗方法医治100名某病患者,最后清点治愈、显效、好转、无效和死亡的人数分别为10、30、40、15和5人;又例如某医院检测1029例患者,其中眼晶状体混浊程度为+、++、+++的分别有494、296、239人。

2.2.2资料类型的现代划分方法资料类型的现代划分方法是将资料先粗分为定量资料和定性资料两大类,然后,再将定量资料划分为计量资料和计数资料两小类;将定性资料划分为名义资料和有序资料两小类。其定义如下。

定量资料:测定每个观察单位某项指标量的大小,所得的资料称为定量资料。

计量资料:指标的取值可以带度量衡单位,甚至可以带小数(标志测量的精度)的定量资料,就叫计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料,它们首先是定量资料,进一步细分,它们还是计量资料。

计数资料:在定量资料中,若指标的取值可以带度量衡单位,但不可以带小数(只能取整数,通常为正整数)的定量资料,就叫计数资料。例如测得正常成年男子脉搏数(次/min)和引体向上的次数(次/min)。

定性资料:观测每个观察单位某项指标质的状况,所得的资料称为定性资料。

名义资料:在定性资料中,若指标质的不同状况之间在本质上无数量大小或质量好坏之分或先后顺序之分的定性资料,就叫名义资料。例如某单位全体员工按ABO血型系统(A型、B型、AB型、O型)来记录每个人的情况所得的资料;又例如某市全体员工按职业(工人、农民、知识分子、军人……)来记录每个人的情况所得的资料。

有序资料:指标质的不同状况(状态个数≥3)之间在本质上有数量大小或质量好坏或有先后顺序之分的定性资料,就叫有序资料。例如某病患者按治疗后的疗效(治愈、显效、好转、无效、死亡)来划分所得的资料;又例如矽肺病患者按肺门密度级别(+、++、++

+)来划分所得的资料。

若用一张表将资料类型的现代划分方法表示出来,则一目了然。见表3。表3统计资料类型的现代划分方法

2.2.3资料类型两种划分方法的比较资料类型的传统划分方法是从资料的收集方式角度来定义,也可以说是就“形式”而言;而资料类型的现代划分方法是从资料的性质角度来定义,也可以说是就“本质”而言。

事实上,当人们看到一个记号“1”时,人们无法知道这个“1”究竟代表的是什么含义。因为它可以代表1个人的年龄为1天或1个月或1岁,可以代表某定量指标的一个具体取值,也可以代表某组个体中具有某种阳性反应的人数是1人(频数为1),还可以代表受试者的一个特定性别(如用“1”代表男性,用“0”代表女性)。这说明仅从事物的表面看问题,很难准确地获知事物的本质特征。要想准确地揭示统计资料的性质,只需给出资料所对应的指标名称(变量名,通常隐含专业意义,若含义不明,应明确给出)和具体取值,而不必将调查对象分组后数出各组的调查单位数。例如在表3的前4行中,任何一行的任何一个数据或符号都应叫做其表头上相应指标的具体取值,“25”是“年龄X1”的一个具体取值,“农民”是“职业X4”的一个具体取值,同理,“+”是“尿糖X7”的一个具体取值。对于资料类型的现代划分方法而言,可以说出表3中任何一列的资料类型;而对于资料类型的传统划分方法而言,就不便说出表3中后4列的资料类型,它需要先分组,然后,用每个指标的所有不同标志及其对应组内的个体数两部分结合在一起,才叫计数资料或等级资料。而在多变量回归分析中,需要直接利用后4列资料,此时,资料类型的传统划分方法就显得“心有余而力不足”了。

3误判资料类型的案例

例1原文题目:美泰宁对睡眠作用的影响。原作者研究美泰宁对戊巴比妥钠诱导的小鼠睡眠的影响,选用40只体质量相近的雄性小鼠,随机分为溶剂对照组和3个剂量组,根据0、12.5、25.0和75.0mg/kg体质量,用蒸馏水配成所需浓度,每天灌胃。第7天灌胃15min后,各组动物按28mg/kg体质量腹腔注射戊巴比妥钠,以小鼠翻正反射消失达1min以上作为入睡判断标准,观察腹腔注射戊巴比妥钠25min内各组动物发生睡眠的动物数。经统计学处理,中、高剂量组与溶剂对照组比较,差异有统计学意义(P<0.01)。见表4。表4美泰宁对阈下剂量戊巴比妥钠诱导雄性小鼠睡眠发生率的影响

对差错的辨析与释疑统计资料常常分为定量资料和定性资料两大类,所谓定量资料是指每个观察单位用计量方法测量某项指标数值大小;而定性资料是指记录每个观察单位的某一方面的特征和性质。本资料观察的是动物的入睡情况,原作者把每组入睡的每只动物记为1,不睡的动物记为0,这样第一组有2个1,8个0,第2组有5个1,5个0,第1组和第2组各10个数据进行t检验,得t=1.406,P<0.05(经验算,就计算本身而言,原作者的计算结果是正确的)。但实际上这里的1并不代表真正的数值,它只是代表一种状态,即入睡,而0则代表没有入睡,因而本资料从性质上说应属于定性资料。但原作者却错误地将其判断为定量资料,表的标题后括号内写了x±s的形式,但实际上表中并没有表示平均数和标准差的数据,反而误导读者该资料为定量资料。一般来说,t检验仅适于分析定量资料,用分析定量资料的方法去分析定性资料显然是错误的。

正确判定统计资料属于定量资料还是定性资料是选用统计分析方法的首要前提。本资料属于定性资料,应根据分析目的,合理选用适合此类资料的分析方法如Fisher精确检验进行统计分析。

例2原文题目:小儿皮肤血管瘤雌、孕激素受体的研究。原作者意在探讨雌激素受体(estrogenreceptor,ER)和孕激素受体(progesteronereceptor,PR)在血管瘤发生、发展中的意义。采用免疫组化方法对毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤及正常皮肤组织的ER和PR进行检测。全部标本经10%福尔马林固定,常规石蜡包埋。每例选一典型蜡块,4~6μm切片,进行免疫组化染色,高倍镜下每例肿瘤区内计数500个细胞,计数ER和PR阳性细胞百分率,统计方法用χ2检验。结果见表5。表5血管瘤和淋巴管瘤中ER和PR检测结果

对差错的辨析与释疑正确判别统计资料的设计类型是合理选择统计分析方法的重要前提。根据统计指标的性质,统计资料一般分为定量资料和定性资料两大类。所谓定量资料,是指每个观察单位(针对此资料,其观察单位是病例标本)测得的指标是用具体的数值表示,其又细分为计量资料和计数资料;所谓定性资料,是指每个观察单位测得的指标仅反映某一方面的性质,并不能用具体的数值表示,其又细分为名义资料和有序资料。对于本资料来说,测量细胞的结果是“阳性”或“阴性”,且一般认为带有“率”的资料就是定性资料,似应判为定性资料。然而问题的关键在于,原作者的观察单位并不是细胞本身,而是每一个病例标本。原作者关心的是4种疾病病例标本和一组正常人标本的ER和PR阳性细胞率之均值是否相同,从每一个病例标本中得到的是ER和PR阳性细胞率,是一具体的数值,因而应属于定量资料。如果仅从资料的表面现象(有“率”)进行判断,而不考虑每一个数值的实际含义,没有从资料的本质上进行判断,很容易判断错误。

本资料的受试对象为病例标本,测量指标为“阳性细胞百分率”,因而应为定量资料,其涉及一个实验因素,即样品类别,有5个水平,即毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤和正常皮肤。对于百分率的定量指标,一般根据经验,宜做平方根反正弦变换,使资料检验满足正态性和方差齐性的前提条件后,按单因素五水平设计资料进行方差分析,如变量变换后仍不满足前提条件,则用非参数检验。

例3有人对103例冠心病患者(G=1)和100例正常对照者(G=2)进行了多项指标的观测,资料见表2。若以X5~X11为定量的结果变量,分别以“组别、性别、年龄、高血压史、吸烟史、基因型”为影响因素,有人说此表中的资料类型为定性资料,也有人认为是定量资料。请问:此表中的统计资料究竟是什么资料[1]。

对差错的辨析与释疑将此表中的资料说成是定性资料或定量资料都不对,因为此表中有很多列,各列资料的性质不尽相同。若笼统地说,此表中的资料为混合型统计资料;具体地说,应根据各列变量、取值及其专业含义,区别对待。

第1列“编号”不属于统计资料,仅起一个标识作用,若一定要问该变量的性质是什么,可叫它为“多值有序变量”。

第2列“组别(区分正常人和冠心病病人)”、第3列“性别”、第5列“是否有高血压史”和第6列“是否抽烟”都是定性资料,其变量性质应叫做“二值名义变量”。

第7列~第13列都是“血脂指标”,它们都是定量资料,具体应叫做计量资料。

第14列和第15列分别是两种“基因型”(通常有3种表现:-/-、-/+、+/+),它们都是定性资料,其变量性质应叫做“三值名义变量”。

第16列是“服药情况”,其变量性质应叫做“多值名义变量”。

4小结

本文从正反两个方面介绍了什么是统计资料、统计资料的分类以及统计资料识别中常犯的错误。按现代划分方法来命名统计资料,有利于抓住问题的实质。科研设计的质量好坏和实施过程中的质量控制水平

的高低决定了所收集的统计资料是否准确、可靠;而正确识别各种研究问题中的统计资料类型,则是合理选用统计分析方法处理统计资料的关键环节。这是所有希望靠数据来说话的科研工作者不可小视的一个大问题!

统计学变量类型范文第5篇

1χ2检验的常见误用

1.1误用χ2检验替代秩和检验例1稿件题目《皖北矿区婴幼儿气质特点调查分析》,表1为作者调查不同性别婴幼儿气质类型分布比较的原表。

该例作者将不同性别的婴幼儿气质分为易养型、中间偏易养型、中间偏难养型、难养型、发动缓慢型,这5种类型实质上是一个等级分类,从易养型到难养型,再到发动缓慢型,是结果变量(气质类型)为有序变量的单向有序列联表资料。要观察此2组分布的差异,不能使用χ2检验,应使用成组设计两样本比较的秩和检验(Wilcoxon两样本比较法),得uc=1.05,P>0.05。但是,有学者会认为作者使用的方法虽然不恰当,但是结果都是一样的,不必小题大做。实际上2×C列联表的χ2检验,与结果变量的是否有序没有关系,用χ2检验分析得出的结果是男女不同气质类型的频数是否相同,而得不出男女不同气质类型的差异是否有统计学意义的结论。

例2稿件题目《无创机械通气联合硝普钠治疗急性心源性肺水肿》,作者分别采用无创机械通气联合硝普钠(A组)、单纯硝普钠治疗(B组)和常规治疗(C组)急性心源性肺水肿患者,并统计分析3组的治疗效果,见表2。由于例2是多组单向有序资料的分析,应采用成组设计多个样本比较的秩和检验(Kruskal-Wallis法),得Hc=6.50,P<0.05,3组疗效差异有统计学意义。

1.2误用χ2检验替代四格表确切概率法例3作者观察白细胞介素-6(IL-6)在正常卵巢组织和卵巢癌组织中的表达情况,见表3。当四格表最小理论频数<1或n<40,宜用四格表确切概率法分析;由于本例n=30,故不能采用一般四格表χ2检验,应使用四格表确切概率法分析,得P=0.000。

1.3误用χ2检验替代配对χ2检验例4稿件题目《超声弹性成像及阴道超声检查在子宫颈占位性病变诊断中的对比研究》,其中一项观察是作者应用阴道超声联合纵、横切面弹性成像诊断子宫颈占位性病变,并与病理学诊断比较得出表4结果。

作者在作统计学分析时采用一般四格表资料χ2检验进行分析,得出差异均有统计学意义,说明阴道超声联合弹性成像诊断的假阳性率高。正确统计学方法是采用配对四格表χ2检验分析,要注意是:当b+c<40时用校正配对χ2检验,正如表5,得出差异均无统计学意义,说明阴道超声联合弹性成像诊断与病理诊断一致。

1.4误用χ2检验处理相关性分析

例5作者为观察凋亡抑制基因Livin及PTEN在卵巢上皮性癌组织中表达的相关性,作了表6统计学分析,得出卵巢上皮性癌组织中Livin与PTEN表达无相关性。作者误用χ2检验分析双向有序且属性不同列联表资料;而作者的意图是分析2种基因的蛋白表达是否有相关关系,所以应用Spearman等级相关分析,得r''''s=-0.336,P<0.01,卵巢上皮性癌组织中Livin与PTEN的表达呈负相关关系的结论。

2t检验的常见误用

2.1误用两两t检验替代方差分析和q检验

例6《缺血性脑血管病患者同型半胱氨酸和基质金属蛋白酶-9与颈动脉粥样硬化的关系》一文,作者分别观察比较了正常对照组和缺血性脑血管病患者有斑块组及无斑块组的同型半胱氨酸(Hcy)和基质金属蛋白酶-9(MMP-9)水平,原稿统计学方法中采用两两t检验,见表7。

该例研究实际上是检验3个相互独立样本均数差异有无统计学意义,属于单因素方差分析;而t检验只能用于2个成组样本均数差异有无统计学意义的检验,故应采用单因素方差分析进行检验。若差异有统计学意义,则可进行多个样本的两两比较,如q检验等。本例若直接通过t检验作两两比较,会增加犯第一类错误的概率α,如本例犯第一类错误的概率α为0.1426,比0.05大多了,所以应在方差分析的基础上进行q检验,改正后见表8,还要有标记标注各组间差异有无统计学意义。

2.2误用t检验替代配对t检验例7稿件题目《单束重建联合胫骨嵌入重建后交叉韧带》,作者采用Lysholm膝关节功能评分评定手术前后的膝关节功能,见表9。

本例作者采用自身对照研究,比较治疗前后变化观察疗效,而错误地采用随机t检验进行统计学处理。随机t检验的应用是完全随机设计的计量资料,是研究者观察2样本x±s差异有无统计学意义。配对t检验是适用于配对设计的计量资料,包括自身对照和配对对照研究。由于配对t检验最大程度地减少了个体变异对处理间变异的可能影响,用较少样本可得较多的信息,提高了检验效能;但其数据处理主要是研究者对观察对象处理前后观察指标的差值平均数和差值标准差的处理。正确处理见表10。例8《醒脑静治疗急性脑出血的临床观察》一文,作者分对照组和治疗组分别采用常规治疗和常规治疗基础上加用醒脑静治疗,于治疗14天后评价2组的临床神经功能缺损程度评分。作者在同组和组间治疗前后比较中均采用了成组设计定量资料的t检验,见表11。

从临床应用角度来讲,该例中的对照组为临床常用的有效治疗方案,而作者研究的目的是观察2组治疗后的疗效谁更好。本例作者对组内治疗前后指标变化比较直接采用原始数据计算各自x±s,并作成组比较的t检验分析,此时扩大了样本例数,如治疗组由80例扩大到160例,易得出假阳性结果;另外,表11对2组治疗后x±s作成组t检验只能反映治疗组治疗后的水平较对照组治疗后低,并未能真实反映疗效,因为2组治疗前的基本数据不完全一样。欲真实反映疗效需作2步分析:第一,每组作治疗前后的自身对照分析,评价每组治疗是否有效,此时各组样本数仍各为80例;第二,在2组自身对照差异均有统计学意义的情况下,欲知道治疗组的效果是否真正优于对照组,需比较2组的d±sd差异是否有统计学意义。通过计算得出2组治疗均有效,但治疗组效果更好于对照组,见表12。

统计学变量类型范文第6篇

关键词:商品房销售单价增长率;单因素方差;显著差异性分析

中图分类号:F126 文献识别码:A 文章编号:1001-828X(2017)009-0-02

一、引言

伴随我国宏观经济的高速增长和持续发展,尤其是城乡一体化战略的推进,房地产业迎来了复苏和急剧发展的阶段。作为国民经济的重要组成部分,房地产市场的发展对国家整体和居民个体都有很大的影响。当前,全国房价呈现出普遍上涨的态势,各地调控政策的出台、房市相关动态时刻备受市民关注,住房市场的价格波动已经影响到居民的生活水平和民生问题,而房价的增长幅度成为市民最直接的关注点和落脚点。本文以广西各地区2005-2015年度的房价为研究对象,用单因素方差模型对14地市各年度间房价增长的差异进行了分析。

二、基本思想和原理

方差分析是通过检验各因子水平下总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。其中,检验的对象称为因子,为分类型自变量;每个因子的不同样本数据为观测值,为数值型因变量。

分析步骤:

假设有k个自变量值,第i个自变量值下的样本量为ni,第i个自变量值下的第j个样本观测值为xij;其中i=1,2,3,…,k,j=1,2,…,ni。

a.提出假设。假设各自变量值下的样本均值相等:

不全相等

b.计算统计量。

每个自变量值下的样本误差平方和为只含随机误差误差平方和,用SSE表示:

,其中为i组样本均值 (1)

不同自变量值之间的样本误差平方和为组间误差,既有随机误差又有系统误差,用SSA表示:

,其中为所有样本均值 (2)

所有样本误差为总体间误差平方和为总平方和,用SST表示:

(3)

检验统计量F:

(4)

c.统计决策。当,拒绝原假设H0,各自变量值下的样本均值之间差异是显著的,自变量对因变量有显著影响。当,不能说明各自变量值下的样本均值之间差异是显著的。

d.多重比^使用S-N-K比较法,将均值无差异的自变量值下的样本归于同一子集。

三、数据设计

本文数据来源于2004-2015年统计年鉴,选用广西14个市的商品房数据,包括商品房销售额和商品房销售面积。其中,销售单价=商品房销售额/商品房销售面积,某年的销售单价增长率=该年销售单价/上年销售单价-1。当中,贺州市和崇左市2004年的商品房信息缺失,河池市2015年的商品房销售数据有误,整理后的2005-2015年广西各市商品房房价增长率数据如下表1所示。

以2005―2015年11个年度为分类型自变量值,以14地市的商品房销售单价增长率为数值型因变量。利用单因素方差分析商品房销售单价年度增长率总体均值的差异,用S-N-K多重比较法对比每两个年度的均值差异。

四、结果分析

利用上述建立的单因素方差分析模型,利用SPSS22.0,导入数据,设置显著性水平为0.05。

首先,整体数据作Leven’s方差齐性检验,其结果如下表2。

表2中的检验,认为各年度增长率方差是相等的,满足了进行方差分析的条件。

接着,2005-2015年11个年度的商品房销售单价增长率方差分析表如下表3。

显著性水平

表3中,商品房销售单价增长率统计量,且显著P值明显低于显著性水平,说明11年间广西商品房销售单价增长率存在着显著性差异。因此,需要进行多重比较,将差异不显著的几年归于一个集合。

2005-2015年11个年度的商品房销售单价增长率经过S-N-K多重比较分析结果如下表4。

会显示同质子集中群组的平均值。

a.使用调和平均值样本大小=13.697

b.群组大小不相等。将使用群组大小的调和平均值。不保证类型|错误层级。

表4中,先根据年度商品房销售单价增长率的均值排序,根据两两间的均值差异性,分为两大子集,即属同一子集的年度间的商品房销售单价增长率均值无显著差异,所属不同子集的年度间的商品房销售单价增长率均值皆存在一定程度以上的差异。根据分析结果得出,2005年、2011年、2013年、2014年和2015年属于集合1,这5个年度的广西整体商品房销售单价增长率偏低;2006―2010年和2012年都属于广西整体商品房销售单价增长率偏高的年度。

从整体时间推进上来看,从2006年开始,广西的商品房价格突然出现迅猛增长,主要因为经济的快速发展刺激了住房消费,推动了房价的快速上涨;2007至2010这四年间一直保持居高不下的增长势头,这期间房地产投资持续加大,国家出台支持改善性住房消费的相关政策,推动房地产经济迅速发展;在2011―2014年增长逐缓,甚至到2015年出现了负增长,由于国家针对房地产市场投资过热陆续房地产调控限购、土地监管、金融房贷等政策,抑制投机投资性购房,从而使得商品房价格的增幅缩小。从整体发展趋势来看,在未来两年广西的商品房价格仍将保持增长的势头,但增速相对平缓,不会出现太大的波动。

五、结语

总而言之,本文选用商品房销售单价增长率为变量,利用方差分析的方法和模型进行分析和对比,说明了广西各地市在2005―2015年这11年间各年度商品房销售单价增长率均值存在显著差异。针对其差异,具体说明了广西商品房销售单价在时间轴上的变化趋势,并根据其趋势,对未来广西的商品房价格走向情况作出判断。若要对广西房价未来的增长趋势作更准确的预测,可以结合各种具体影响因素如国家的宏观调控政策等进行具体分析。

参考文献:

[1]广西壮族自治区统计局.广西统计年鉴[M].北京:中国统计出版社,2016.

[2]贾俊平,何晓群,金勇进.统计学(第六版)[M].北京:中国人民大学出版社,2015.

[3]陈晓婷.宏观因素对我国房价波动的影响―基于VAR模型的实证研究[D].东北财经大学,2011.

[4]邓维斌,唐兴艳,胡大权,周玉敏.统计分析实用教程SPSS(中文版)[M].北京:电子工业出版社,2012.

作者简介:高淑兰(1988-),女,百色学院数学与统计学院,主要从事应用数学研究。

统计学变量类型范文第7篇

统计学处理

使用SPSS13.0完成统计分析,以家庭养育环境因素为自变量,气质维度为因变量进行多因素线性回归分析(后退法),P<0.05为差异有统计学意义。结果1.婴幼儿基本状况本次调查以中国疾病预防控制中心妇幼保健中心课题为样本,共207例产妇及其婴幼儿纳入,剔除调查资料不全者,共收回气质问卷112份(有效应答率为54.11%)。

婴幼儿气质类型分析

112例母乳喂养儿童中平易型68例(60.7%),中间偏易型32例(28.6%),中间偏烦型2例(1.8%),麻烦型3例(2.7%),发动缓慢型7例(6.3%)。其中男童中平易型46例(40.1%),中间偏易型11例(9.8%),中间偏烦型2例(1.8%),麻烦型2例(1.8%),发动缓慢型3例(2.7%)。女童中平易型22例(19.6%),中间偏易型21例(11.8%),中间偏烦型0例(0%),麻烦型1例(0.9%),发动缓慢型4例(3.6%)。男女各气质类型的分布差异无统计学意义(χ2=2.255,P=0.324)。

母乳喂养婴幼儿气质维度的多元线性回归

多元线性回归结果显示,母亲文化、家庭结构、家庭月收入与气质中4个因子(活动水平、趋避性、注意分散、反应阈)有关。性别与气质中4个因子(节律性、趋避性、心境、持久性)有关(表1)。

婴幼儿气质类型的分布情况

本研究显示,母乳喂养的婴幼儿中平易型68例(60.7%),中间偏易型32例(28.6%),中间偏烦型2例(1.8%),麻烦型3例(2.7%),发动缓慢型7例(6.3%)。母乳喂养婴幼儿气质类型分布以平易型为主,其次为中间偏易型、中间偏烦型、麻烦型,发动缓慢型最少。与朱雪娜等[2]的报道相比,母乳喂养婴幼儿中平易型和中间偏易型比例较大。王卫芳[3]研究中,平易型占39.94%,母乳喂养婴幼儿中平易型比例较大。

男女气质类型分布无统计学差异,与以往的研究一致。平易型和中间偏易型占大多数,与国内资料报道的4-8个月、3-7岁儿童气质分布的报道一致。说明气质是先天性较为稳定的心理特征,不同年龄段,气质类型分布基本一致。

母乳喂养婴幼儿气质维度的特点

在本研究中,母乳喂养婴幼儿平易型68例(60.7%),中间偏易型32例(28.6%)。Thomas和Chess最早提出儿童气质对儿童心理行为发展可能紧密相关。他们在很多的研究中发现易养型或中间偏易型:以生物功能节律性强,容易接受新事物,情绪多为积极,反应强度中等或较低,适应快为特点。有研究发现母乳喂养对儿童气质发育有积极的影响,如母乳喂养儿比人工喂养儿情绪更稳定,社交更敏感,焦虑、烦躁、睡眠障碍等问题的发生率明显降低。母乳喂养中母婴之间关系更融洽,母亲关注婴儿更多,因此适时作出调整以适应婴儿规律,婴儿在这种愉快的环境中成长,表现为交往积极、情绪稳定。

Quinonez等[4]对56例18个月的儿童进行EAS气质测定和ECC(EarlyChildCare)评定,经多因素回归分析显示气质中4个因子(情绪状态、生物活动节律、社交反应性、内向性)与喂养方式无关。研究结论如此迥异,可能与研究样本量的大小、方法不一和各种混杂因素的影响有关。

母乳喂养婴幼儿气质的多元线性回归结果

统计学变量类型范文第8篇

1对象与方法

1.1临床资料

选择2008年1月至2013年12月河南省肿瘤医院收治的、行全子宫/广泛子宫切除+双附件切除+盆腔淋巴结清扫术的子宫内膜癌患者共449例为研究对象。患者临床资料完整,排除因高血压、糖尿病、冠心病等严重合并症未能接受手术者。患者24~83岁,中位年龄55.98岁;根据2009年国际妇产科联盟(FIGO)手术病理分期标准,Ⅰ期394例,Ⅱ期19例,Ⅲ期33例,Ⅳ期3例;子宫内膜样癌420例,浆液性状癌8例,透明细胞癌2例,腺鳞癌16例,神经内分泌癌3例;组织学分级中高分化383例,低分化66例;浸润深度达深肌层99例,浅肌层350例;其中行腹主动脉旁淋巴结清扫术158例。

1.2随访

对所有患者进行电话或者门诊随访,以2014年6月为随访截止时间,共随访6~81个月,中位随访期38个月。死亡为终点事件,由于各种原因失访以及到观察期终止依然存活的病例为删失。

1.3统计学处理

采用SPSS17.0进行统计学分析,盆腔和腹主动脉旁淋巴结转移影响因素的单因素分析采用χ2检验或精确概率法,多因素分析采用logistic回归分析;预后影响因素筛选采用COX回归分析。检验水准α=0.05。

2结果

2.1子宫内膜癌盆腔淋巴结转移相关因素的分析

单因素分析见表1。以盆腔淋巴结转移为因变量(阴性=0,阳性=1),以组织学分级(中高分化=0,低分化=1)、病理学类型(子宫内膜样癌=0,非内膜样癌=1)、FIGO分期(Ⅰ、Ⅱ、Ⅲ、Ⅳ期分别赋值为0、1、2、3)和浸润深度(浅肌层=0,深肌层=1)为自变量,构建logistic回归模型,结果(表2)显示,FI-GO分期、浸润深度是子宫内膜癌盆腔淋巴结转移的独立危险因素。

2.2子宫内膜癌腹主动脉旁淋巴结转移相关因素的分析

单因素分析见表3。表3显示,深肌层浸润、盆腔淋巴结转移是腹主动脉旁淋巴结转移的影响因素。以腹主动脉旁淋巴结转移为因变量(阴性=0,阳性=1),以FIGO分期(赋值同2.1)、浸润深度(赋值同2.1)、盆腔淋巴结转移(阴性=0,阳性=1)为自变量,构建logistic回归模型,结果(表4)未筛出有统计学意义的变量(P均>0.05)。

2.3子宫内膜癌预后相关因素分析

137例失访(30.5%),以生存时间和结局为因变量,分别以年龄(“<55.95岁”=0,“>55.95岁”=1)、组织学分级、病理学类型、FIGO分期、浸润深度(同2.1)、盆腔淋巴结转移(赋值同2.2)、腹主动脉旁淋巴结转移(阴性=0,阳性=1)、腹主动脉旁淋巴结清扫(有=0,无=1)为自变量,构建COX风险比例模型,结果(表5)显示,病理学类型、FIGO分期、盆腔淋巴结转移、腹主动脉旁淋巴结转移为子宫内膜癌预后的独立影响因素。

3讨论