首页 理论教育 分类变量的处理方法及应用

分类变量的处理方法及应用

时间:2023-07-31 理论教育 版权反馈
【摘要】:当类别变量超过5个时采用极大似然估计也能得到精确的估计结果,所以也可方便地当作连续变量处理。分类变量按照各类别间是否存在顺序关系可分为顺序变量和名义变量。顺序变量是有大小、高低之差的类别变量。而名义变量则是没有顺序的类别变量,是用数字代表某类事物,数字之间并没有量的关系,只具有指代关系。如将性别分成男和女,分别用0或1表示。多项式分布二项式分布是一次实验只有2个可能结果的概率分布。

分类变量的处理方法及应用

分类变量(Categorical Variable)就是用少数几个数字代表不同类别对象的变量(Agresti,2007)。分类数据在社会科学领域非常普遍。在教育测量和市场调查领域经常遇到这种类型的数据。例如,将某地区不同的收入群体分为好、中、差。再如,将某项试题的答案分成对和错。心理学研究常用的量表/测验计分方式多为李克特式,如典型的李克特5级计分:非常同意=5,同意=4,不确定=3,不同意=2,非常不同意=1。这种形式的数据本质上还是类别数据(顺序型),用5到1代表从非常不同意到非常同意的顺序,因为从“非常同意”到“同意”之间的距离并不等于“不同意”到“非常不同意”之间的距离。当类别变量超过5个时采用极大似然估计也能得到精确的估计结果(Johnson&Creech,1983),所以也可方便地当作连续变量处理。

分类变量按照各类别间是否存在顺序关系可分为顺序变量(Ordinal Variable)和名义变量(Nominal Variable)。顺序变量是有大小、高低之差的类别变量。而名义变量则是没有顺序的类别变量,是用数字代表某类事物,数字之间并没有量的关系,只具有指代关系。如将性别分成男和女,分别用0或1表示。再如,把民族成分分成汉族=1、回族=2、壮族=3和其他民族=4。

分类变量呈二项式或多项式分布:

(1)二项式分布

二项式分布(Binomial Distribution)又称伯努利分布(Bernoulli Distribution),是最常见的离散型随机变量的概率分布:(www.xing528.com)

x表示成功的次数,n表示实验的次数,p表示成功的概率,q表示失败的概率,等于1-p,P(x,n,p)表示伯努利概率。例如,一项伯努利实验重复了5次,求2次成功的(如,硬币正面向上)的概率。此时,n=5,x=2,p=.5,代入公式:P(2,5,.5)=・.52(1-.5)3=.161。二项式分布的均值为np,方差为npq或np(1-p)。

(2)多项式分布

二项式分布是一次实验只有2个可能结果的概率分布。当一次实验出现2种以上等可能结果时的概率分布称为多项式分布(Multinomial Distribution)。例如,掷骰子可以产生6种可能的结果。因此二项式分布可视作多项式分布的特例,即只存在2种可能结果。

x1-xn为可能的结果,N为实验总次数,为各种可能结果的概率。Xi的均值和方差分别为Nθi和Nθi(1-θi)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈