首页 > 范文大全 > 正文

论回归分析中的三个代表

开篇:润墨网以专业的文秘视角,为您筛选了一篇论回归分析中的三个代表范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:通过对回归分析进行严格的数学与哲学审视,论证回归分析中的三个代表重要思想,即用函数关系代表随机相依关系,用连续性代表离散性,用样本代表总体。

关键词:回归分析;三个代表;函数关系

中图分类号:F0 文献标志码:A 文章编号:1673-291X(2014)30-0272-03

众所周知,回归分析是现场统计分析和计量经济分析中的核心理论与技术,其重要性不言而喻。本文通过对回归分析进行数学与哲学的审视,我们发现,回归分析中体现了三个代表重要思想:一是用函数关系代表随机相依关系,二是用连续性代替离散性,三是样本代表总体。

一、回归分析是用函数关系代表随机相依关系

回归分析的本质是用函数关系代表随机相依关系,但是其更深层的本质却是用概率随机性代替函数精确性。这种相互代表,相互提升,只有在马克思主义唯物辩证法和三个代表重要思想的指导下才可能得到深刻理解。

1.用函数关系代表随机相依关系

在自然界与社会经济中的变量之间存在着两种典型的相依关系,一是函数相依关系,二是随机相依关系。

函数相依关系是一种确定性的相依关系,一个变量的取值确定之后,可以确定另一个变量的取值。比如在经典的牛顿力学中,宏观物体的位移是时间的函数,于是只要知道初始时刻的位移、速度以及物体的受力状况,就可以确切地推算出位移函数,从而任何一个时刻的位移和速度都能够计算出来。

在自然界与社会经济中,有些变量之间有一种相依关系,但是这种相依关系又不如函数相依关系那么准确。比如人类的身高和体重有某种正相关关系,即是说,一般情况下,身高越高,则体重也越重。但是这种关系并非精确的函数关系,即是说并非一个身高就精确地对应有一个体重。而是可能同一个身高对应于多个体重,或者多个身高对应于同一个体重。当然,可以把这种对应关系称之为多值函数或集值函数。但是这种多值函数或集值函数很难写出一个精确的解析表达式,本质上,难以通过身高(自变量)来精确预测体重(因变量)。这种关系在统计学上称为随机相依关系。

通常,人们总是有一种试图用简单代替或者代表复杂的倾向,用简单的模型来表达复杂的问题。回归分析,就是试图用一种函数关系来代表或代替随机相依关系,从而在总体上和概率统计上把握总体变量之间的随机相依关系,简化人们对于随机相依关系的认识。回归分析中,最简单的是线性回归,即用线性函数关系来代表线性的随机相依关系。

但是我们下面将会看到,回归分析是用函数关系代表随机相依关系只是表面现象,更深层的代表方向却相反,是用随机相依关系代表精确的函数关系。

2.测量的近似性使得变量间的函数关系不可能

我们知道,一切实际的测量都只能是近似的、不精确的。按照马克思主义哲学理论,世界上没有完全相同的两片树叶,任何事情都有自己的特殊性。以某一时刻地球上所有人的身高与体重为例,① 世界上没有两个人的身高绝对相同,也没有两个人的体重绝对相同。或者说,所谓两个人身高或体重相同,也只是从某一个测量精确度上来讲的相同,但这种测量精度上的相同,并不能作为两个人身高绝对相同的证明。

从上面的讨论可以知道,从严格的角度考虑,不存在两个人有相同的身高,也不存在两个人有相同的体重,因而每个身高精确地只对应于一个体重。因此,身高与体重之间并不存在所谓的随机关系,而是精确的函数关系。在以身高为自变量、体重为因变量的坐标系中,地球上每个人的身高与体重的数据都对应为一个点,而且这些点不会在同一条平行于坐标轴的直线上。即从身高集到体重集的映射中,同一个身高不可能对应于多个体重,因此这种实数子集之间的一对一映射,按照现代函数的定义,体重确实是身高的一个精确函数。

但由于在实践中对于身高和体重的测量不可能绝对精确,因而才不得不容忍相同身高对应于多个体重或者相同体重对应于多个身高的情况,并采用概率随机性的测度办法来研究微观上的测不准性。比如说,设现实中存在着某一个人的身高为米,但是人类测量身高或者说长度的仪器,不可能读出这样精确的数据,因此只能用比如说1.73202574369米来代替。假设还存在一个人的身高为+0.000000000000000000000032米,但是在测量仪器上,难以分辨这两个人的身高,因此可能把他们的身高都测定为1.732米。这样在身高与体重的坐标系上,就存在着同一自变量对应多个因变量,或者同一个因变量对应于多个自变量的情况。于是,在身高与体重的坐标系中,地球人所对应的身高与体重数据就成为通常教材上所描绘的随机散点图,人们用随机相依关系来代替对精确函数关系的研究。

3.函数关系与随机相依关系的相互转化替代

从上面分析可知,在对身高和体重的关系分析中,人们首先由于微观上的测不准性而用随机相依关系来近似描述精确的函数关系,然后人们又为了简化认识而用函数关系来近似描述随机相依关系。因此,在回归分析中,实际上存在着两层代表关系(如图1所示)。随机相依关系与函数关系相互转化的辩证法,与20世纪以来量子力学领域所揭示出的海森堡测不准原理非常类似。

二、回归分析是用连续性代表离散性

接着上面的分析,读者很容易发现,在回归分析中,地球人的体重与身高之间的离散的精确函数通过测不准转化为随机相依关系,再从随机相依关系转化为连续函数关系,其实质是用连续函数来直接代表随机相依关系,并进而间接代表离散函数关系。

在身高与体重坐标系里面,地球人全体的身高与体重之间构成离散的函数关系,其图形是一个精确的散点图,每个点与每个地球人相对应。自变量身高与因变量体重都是可数点集,其测度为零。随机散点图,也仍然是离散点,而不是连续统。从某种意义上可以说,从精确散点图到随机散点图的转化,是由于测不准而导致的集合不交分割,即把精确散点图中无法在测量上进行区分的多个散点作为随机散点图的一个散点,这实际上是定义了精确散点集中的一个等价关系,因此随机离散点集是精确离散点集的一个商集。因而如果取离散度量和离散拓扑,从精确散点图到随机散点图的映射就是一个典型的商映射,随机散点集上的拓扑是精确散点集拓扑的一个商拓扑。

在回归分析中,我们进一步用连续函数来代替这种随机离散点,以达到简化认识的目的。连续性之所以能够简化对众多离散关系的认识,是因为连续性中蕴含了邻近点之间的一种相依性,这种邻近点之间的相依性使得连续函数具有一种整体性。用这种整体性来处理众多的离散点,就使得描述和运用十分方便。我们不仅使用连续函数,而且更多地使用可导函数,从而能够使用微分工具来研究离散关系。

回归问题与插值问题是不同的。插值问题是把定义在离散点集上的函数扩张成为一个定义在连续统上的函数。从精确离散图到随机离散图再到连续函数,并不是把离散点集的函数扩张为一个连续统上的函数,因为回归方程或回归函数并不能满足每一个散点的坐标。通常情况下,我们可以用严格的数学证明,全体地球人身高与体重的精确离散点表示的离散函数难以扩张为实数正半轴上的连续函数。因此,回归分析中的连续函数代替离散点仍然带有近似的含义。

三、回归分析中通常用样本代表总体

我们前面的讨论都是基于总体的讨论,并不涉及到样本代表总体的问题。在统计实践中,由于存在着调查费用,通常总体难以全部调查。因此,通过抽取样本并用样本来代表整体就成为统计学家的选择。

在回归分析中,用样本代表总体有两个方面。一是用样本离散数据代表总体离散数据,二是用样本回归函数代表总体回归函数。其关系(如下图所示):

四、结论

把上述三个方面的讨论结合起来,我们就得到了回归分析的转换路径(见图3)。

把握回归分析中体现的三个代表重要思想,能够使我们更为深刻地理解回归分析的原理,并有助于运用。