首页 理论教育 多元统计分析简介-多元统计分析与SAS实现

多元统计分析简介-多元统计分析与SAS实现

时间:2023-10-30 理论教育 版权反馈
【摘要】:相应的,组成总体的每一个构成在统计学中被称为个体。例如统计一个地区的所有成年男性的体重,不可能把这一地区几百万的成年男性体重都进行测量,而是科学地从研究总体中抽取少量的且有代表性的个体进行研究。

多元统计分析简介-多元统计分析与SAS实现

学习统计学必须要对一些基础与关键的概念进行了解,本节将主要对本书中涉及的一些基础的且非常重要的统计学概念进行介绍,以便于各位读者在后面各个章节中学习。

1.总体、个体、抽样与推断

在统计学中用总体这个概念来表示研究对象的全体。例如一所学校的全体学生;某一地区的全部成年男子;某个家庭全部的未成年人。当我们试图就某一个总体下结论时,这一总体便称为目标总体(target population);如果我们研究的数据来源于目标总体的一部分,那么就将其称为研究总体(study population)。需要注意的是,针对研究总体所下的结论,并不一定适用于目标总体。

相应的,组成总体的每一个构成在统计学中被称为个体。事实上,组成总体的个体往往有很多,针对总体的研究中如果把所有的个体一个一个地都进行观察会费时费力,也毫无意义。例如统计一个地区的所有成年男性的体重,不可能把这一地区几百万的成年男性体重都进行测量,而是科学地从研究总体中抽取少量的且有代表性的个体进行研究。上述这个过程在统计学中被称为抽样(sampling),抽样的个体组成的部分被称为样本(sample)。如前所述,现代统计学是以统计推断(statistical inference)——随机样本数据来推断总体特征为主要方法的。总体、个体、抽样和推断的关系由图1-1展示。

图1-1 总体、个体与抽样示意图

2.同质性与异质性

在研究中,我们研究的对象往往是因为拥有一些共同的特征才聚集在一起形成了“总体”,这也就意味着,在总体中的这些个体之间是大同小异的,即具有同质性(homogeneity)。但是,如果总体中的这些个体都完全一样,那么也就失去了研究的意义。我们之所以研究,就是为了发现这些个体之间存在差异的地方,即变异(variation),或者说具有异质性(heterogeneity)。例如,在同一个学校相同性别的小学生具有同质性,属于同一个总体,但是我们要研究的是他们的学习成绩和身体发育情况,这两个方面确实在小学生中是随着个体的不同而在变化的。也就是说,没有同质性不能构成我们研究的总体,而没有异质性则无需我们运用统计学去进行研究。我们统计学的任务就是在变异的背景上描述同一总体的同质性,揭示不同总体的异质性。

3.变量的类型

总体中个体的特征总是通过一个或多个数量来描述,变异性的存在决定了我们要处理的是变量。变量有多种类型,识别变量的类型也非常重要,因为不同的变量需要用不同的统计学方法来解决。变量的分类方法有很多,可以分为定类变量(nominal variable)、定序变量(ordinal variable)、定距变量(interval variable)和定比变量(ratio variable),定类变量是指按照属性来划分的变量,比如性别、民族、省份等;定序变量不仅含有属性的不同,还隐含有顺序的不同,例如受教育程度等;而定距变量和定比变量不仅有顺序和大小,还可以测量距离,比如年龄、收入和身高等。但总的来说,上面的四种变量划分又可以统一归为分类变量(categorical variable)和数值变量(numerical variable)两大类,其中定类变量和定序变量都可归为分类变量,定距变量和定比变量都可归为数值变量。需要注意的是,数值变量有时候又可以被归为连续型变量。

另外一种普遍使用的划分法是将变量统一划分为定性变量(qualitative variable)和定量变量(quantitative variable)这两种类型。其中在定性变量中又划分为名义变量和有序变量;定量变量中又可分为离散型变量(discrete variable)和连续型变量(continuous variable)。离散型变量只能取整数值。

实际上这两种分法只是变量叫法的区别,意义都大致相同,读者在实际操作中可不必过于纠结变量分类的名称,而是应该主要侧重变量本身的特性。

4.描述统计

上面了解了统计学的一些基本概念之后,关于统计学本身的分类也需要有一定的了解。总的来说,我们运用统计学这一工具来分析研究问题,主要有两种途径,第一是运用统计学的一些指标来对我们研究的对象进行描述,即描述统计(descriptive statistics);第二,则是通过我们研究的样本来对研究的总体特征进行推断,即推断统计(inferential statistics)。

如前所述,在研究中,我们不会也不可能将研究总体的数据进行收集。因此在描述统计中,主要是运用一些统计指标和概率分布(probability distribution)来对我们研究对象(样本)的集中趋势和离散(变异)趋势进行描述。主要会用到:

(1)平均数(average)。平均数是目前应用最广、最重要的一个指标体系,常用来描述一组同质观察值的集中位置,反映一组观察值的平均水平。常用的平均数有3种。

①算数平均数(arithmetic mean),简称均数(mean)。主要是对服从对称分布的研究对象的平均水平进行描述。当研究对象服从正态分布时,均数能反映全部观察值的平均水平。

几何平均数(geometrical mean)。几何平均数适用于原始观察值分布不对称,但是经过转换后呈对称分布的变量,比如服从对数正态分布的变量。

③中位数(median)。中位数是将原始观察值按照大小排序后,位次居中的那个数值。在理论上,有一半的观察值低于中位数,一半的观察值高于中位数。中位数适用于各种分布的变量,因为中位数的计算不会受到两段特大或特小值的影响,因此当研究变量呈偏锋分布的时候,中位数更能反映研究对象的平均水平。

(2)极差(range)。极差是对研究对象的离散程度进行描述的指标之一。极差也称为全距,是研究变量(对象)的最大值和最小值之差。当离差越大的时候,说明研究对象数据之间的变异也就越大。值得注意的是,极差受到数据两段极大值或极小值的影响较大。

(3)四分位数间距(inter-quartile range)。四分位数间距又称为四分差,是指将n个观察值从小到大排列后,对应于75%位的数值(P75)和25%(P25)位的数值的差。四分位数间距是描述对象离散趋势的一个指标,当其越大时,就意味着数据间的离散趋势越大。相比较极差而言,四分位数间距较稳定,受两段极大或极小数据的影响小,但是无法考虑数据中每个观察值的离散程度。

(4)方差(variance)。方差又称为均方差(mean square deviation),其意义是总体内所有观察值与总体均数差值的平方之和,由于方差考虑了每个观察值与均数的离散程度,因此它在离散程度的描述上比极差和四分位数间距都要好。在分析中,方差越大意味着数据间的离散程度就越大,即被观察变量的变异程度就越大。

(5)标准差(standard deviation)。方差利用了所有观察值的信息描述变量的变异程度,但方差的量纲是原变量量纲的平方。因此,在统计应用中更常用的变异度指标是方差的算术平方根,称为标准差。和方差一样,标准差越大意味着观察值的离散程度越大,特别是对于服从对称分布的变量,常把均数和标准差结合起来,这样就能从平均水平和变异程度两个方面来描述变量的分布特征。(www.xing528.com)

(6)概率分布(probability distribution)。随机变量(random variable)总会遵循一定的概率出现,例如一个袋子里有若干个白色或黑色两种颜色的小球,那么每次从袋子里抽取一个小球,它的颜色只可能是白色或黑色,即取到白色球的概率就是1/2,则每次都有50%的概率抽到白色球就是一种特定的分布规律。也就是说,这种随机变量取值的概率规律就是概率分布。具体而言,概率分布也随着变量的类型而改变,比如离散型变量的概率分布为伯努利分布(Bernoulli distribution)、二项分布(binomial distribution)或泊松分布(Poisson distribution),而连续型变量则多会服从正态分布(normal distribution)。当然还存在其他的一些分布,由于本章仅是对基础性的概念进行介绍,细节的内容就不再一一赘述。值得注意的是,同上述的指标一样,概率分布也是对研究对象描述的一种重要的方式。

5.推断统计

上述,我们对在描述统计中如何对研究对象(变量)的集中趋势和离散趋势进行描述作了简要的介绍。但是,我们运用统计学对研究对象进行分析更关键的是如何通过样本数据的一些指标来描述总体的特征,下面我们将介绍推断统计的一些内容。

(1)估计(estimation)。由于总体的数据无法全部收集,因此在统计学中,我们寄希望于通过科学收集的样本数据来对总体的情况进行估计。估计分为点估计(point estimation)与区间估计(interval estimation)。以均值为例,点估计就是简单地将样本的均值作为总体的均值进行描述,因此会存在较大的误差。而区间估计,则是运用样本分布(sampling distribution)和中心极限定理(central limit theorem)计算出一个总体均值的取值区间,从而实现了对总体均值的估计。

(2)假设检验(hypothesis testing)。通过样本,对所估计的总体首先提出一个假设,然后通过样本数据去推断是否拒绝这一假设,这个过程被称为假设检验。综合而言,进行假设检验的过程通常分为三步:首先是建立检验假设,其中一个假设被称为零假设/原假设(null hypothesis),通常记为H0;另一个假设被称为对立假设/备择假设(alternative hypothesis),通常记为H1。接着,要计算相应的统计量。最后,要根据计算的统计量确定p值。p值的定义是在零假设成立的条件下,出现统计量目前值及更不利于零假设数值的概率。我们在数据分析中经常接触的t检验、卡方检验、方差分析都是属于假设检验的范畴

(3)回归分析(regression analysis)。回归分析这个概念最早是由英国生物学家Galton在研究儿子身高与父亲身高之间关系时提出的。他发现,对于高个子的父亲,其儿子的平均身高一定会低于父亲的平均身高。相反,对于矮个子的父亲,其儿子的平均身高则高于父亲的平均身高。于是Galton就把这种子代身高向父代平均身高回归的现象称为回归现象。虽然我们现在要学习的回归并非是这种含义,但是后来在研究中,学者们普遍都把研究X与Y两个变量之间关系的统计学方法称为回归分析。回归分析是研究一个变量如何随另外一个变量变化的方法,在回归中,我们常把被估计或被预测的变量称为因变量(dependent variable)或反应变量(response variable),常用Y来表示;Y所依存的变量称为自变量(independent variable)或解释变量(explanatory variable),或称为预测因子(predictor),常用X表示。回归分析是一类统计方法的总称,从简单线性回归、多元线性回归再到Logistic回归、广义线性回归,乃至分层模型,其实都属于回归分析的范畴。其主要区别就是变量的数量和类型以及回归估计方法的区别(方积乾等,2013)。

6.多元统计分析的基础概念

前面我们初步了解了统计分析的基础概念、描述统计以及推断统计中假设检验、回归分析等内容。在我们的实际研究中,我们研究的对象往往都是一些复杂的涉及多个变量之间关系的问题,也就是我们即将介绍的多元统计分析。多元统计分析是与一元统计分析相对应的概念,是讨论多维随机向量的理论和统计方法的总称。在英国统计学家M.G.Kendall的著作中,多元统计分析研究的内容和方法被概括为以下几个方面:首先是多元统计分析理论基础,内容主要包括多维随机向量及多维正态随机向量,以及由此定义的多元统计量,推导它们的分布并研究其性质,研究其抽样分布的理论;其次是多元数据的统计推断,主要是多元正态分布的均值向量和协方差矩阵的估计与假设检验等问题;再次多元变量间的相互联系问题,主要是分析一个或几个变量的变化是否依赖于另一些变量的变化,并建立相应的回归分析模型;最后还包括多元数据简化结构(降维)以及分类与判别(归类)的问题,主要包括主成分分析、因子分析判别分析等。多元统计分析的各个具体内容会在本书中详细讲解。

如前所述,我们在进行描述性统计分析时常常需要对数据的集中趋势和离散趋势进行描述,主要是均值和方差。类似的,在多元统计分析中,我们常用的统计量也包括均值和方差,除此之外,我们还需要计算各个变量之间的协方差(covariance)。但是由于多变量比单变量数据具有一定的复杂性,所以我们常用矩阵的形式对变量之间的关系进行表达。构成矩阵的每一个数据被称为元素,而每个变量的均值与变量间的协方差也被称为均向量(means vector)和协方差矩阵(covariance matrix)。下面主要对均向量和协方差矩阵展开介绍。

(1)均向量。将各个变量的均数用矩阵的形式排列,称为均向量。一般的,对n个个体的M个变量进行观测,我们可以得到表1-1的数据。

表1-1 多元分析数据结构

则样本的均向量为:

总体均向量为:μ=(μ1 μ2…μn)′

(2)协方差矩阵。一般的,对n个个体的M个变量进行观测,还如表1-1所示,则样本的协方差矩阵为m×m维的对称阵,记为:

其中,对角线上为各变量的方差:

对角线两侧则为变量间的协方差:

由此可见,方差其实为协方差的特例,而协方差才是更为一般的形式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈