首页 理论教育 多元统计分析中的Poisson回归模型

多元统计分析中的Poisson回归模型

时间:2023-10-30 理论教育 版权反馈
【摘要】:Poisson分布是概率论中常见的一种离散型概率分布。在Poisson分布中λ是唯一的参数,它表示在一定时间内事件的平均数。公式(5-1)是针对单变量Poisson分布的情况。在选择了Poisson回归模型后的一个重要任务就是估计回归系数βj。在Poisson回归模型中,这成为一个非常关键的假定条件,即等离散假定。Poisson回归模型的参数估计采用最大似然法或者迭代重复加权最小二乘法求解。现在,SAS和Stata等许多常见的统计分析软件也都可以对Poisson回归模型进行估计。

多元统计分析中的Poisson回归模型

为了对Poisson回归模型进行更好的理解,我们首先从Poisson分布进行介绍。Poisson分布是概率论中常见的一种离散型概率分布。以y表示某一事件发生数的观测,假定随机变量Y等于y的概率,并服从均值为λ的Poisson分布,则该Poisson分布的密度函数为:

其中e是自然对数的底数,其值为2.71828…,y!表示y的阶乘。y只能取非负数的整数值,也就是0、1、2、3…,因此Poisson分布是右偏的。在Poisson分布中λ是唯一的参数,它表示在一定时间内事件的平均数。Poisson分布的均值和方差均等于λ,如果λ越大,那么Poisson分布就会逐渐逼近正态分布

公式(5-1)是针对单变量Poisson分布的情况。当然也可以通过允许每一观测具有不同的λ值将Poisson分布扩展为Poisson回归模型(Long&Freese,2001)。在更一般的情况下,Poisson回归模型假定,表示对个体i某一事件发生数的观测yi遵循均值为λi的Poisson分布,该分布的密度函数为:

λi可以根据一些可观察的特征估计得到,于是便可以得到以下方程:

对X′iβ′取指数是为了保证参数λi为非负数。这时,均值λi也是一个条件均值,反映的是在一系列因素作用下事件的平均发生数,只不过作用被表达为乘法形式。将公式(5-3)两边取对数,就可以得到该条件均值的一种加法形式表达:

通过这种对数转换,我们最终得到了Poisson模型的一般形式。方程左侧的对数条件均值已经被表达为K个自变量线性函数。其中βj是解释变量Xji对应的回归系数。在选择了Poisson回归模型后的一个重要任务就是估计回归系数βj

Poisson分布最显著的一个特征是均值和方差相等,即E(Yi)=Var(Yi)=λi。在Poisson回归模型中,这成为一个非常关键的假定条件,即等离散假定。违背此假定的情况既可能是过大离散(over-dispersion),即方差大于均值,也可能是过小离散,即方差小于均值(under-dispersion)。(www.xing528.com)

在Poisson回归模型中,只有βj是未知参数,其参数估计不能用最小二乘法估计,可以采用最大似然法进行估计,或者采用迭代再加权最小二乘法求解(Cameron&Trivedi,1998;Powers&Xie,2003)。具体计算步骤从略。需要指出的是尽管这两种方法的估计结果虽不尽相同,但通常是相近似的。由于最大似然法具有许多优良的特性,因此它是使用最广泛的方法。

对Poisson回归估计系数进行假设检验有两种方法:(1)似然比检验:通过比较两个嵌套模型(如模型P嵌套于模型K内)的对数似然函数统计量G(又称Deviance)来进行,其统计量为:G=GP-GK=-2(LP-LK),其中LP是模型P的对数似然函数,LK是模型K的对数似然函数,模型P中的变量是模型K中变量的一部分,另一部分就是我们要检验的变量,这里G服从自由度为K-P的χ2分布。(2)回归系数的Ward检验:比较估计系数与0的差别是否有统计学意义,其检验统计量为:,这里Z为标准正态变量。参数的置信区间是基于Ward统计量导出的,的95%置信区间为

模型拟合的输出结果一般都会提供对数似然值,由于该值会受到样本量大小的影响,因此不能单独用作对模型拟合优度评价的指标。一般采用Deviance偏差统计量和广义χ2统计量进行评价。Deviance偏差统计量越小,模型的估计值与观测值的偏差越小,拟合效果越好;广义χ2统计量越大,模型估计值与观测值差别就越大,模型拟合效果就越差。对于正态分布来说,广义χ2统计量就是离差平方和;对于Poisson分布或者负二项分布来说,广义χ2统计量就是一般的Pearson χ2

对Poisson回归模型进行解释有许多不同的方式,这取决于研究者是对计数变量的期望值还是对计数的分布感兴趣(Long&Freese,2001)。如果对期望值感兴趣,那么有多种方法可以用于计算某一自变量一定程度的变化量所带来的计数变量期望值的变化量,既可以用期望值的倍数变化来表达,也可以用百分比变化来表达,甚至还可以用期望值的边际变化来表达。其中,最常用的解释方法是计算倍数变化,这一解释方法非常直观且易于理解。Poisson回归系数βj可以被解释为:在控制其他变量的条件下,xj每变化1个单位将带来对数均值上的变化量。然而通常情况下,研究者真正关心的并不是取对数的均值,而是期望计数本身。因此,可以用exp(βj)来反映xj每变化1个单位时期望计数的倍数变化。当自变量为分类变量时,exp(βj)表示在控制其他变量的条件下,某一类别的期望计数为参照类期望计数的相应倍数。这其实与Logistic回归系数的解释类似。

Poisson回归模型的参数估计采用最大似然法或者迭代重复加权最小二乘法求解。以前,这些计算一般是通过专门用于对广义线性模型进行统计分析的GLIM软件包来进行(Rodriguez&Cleland,1988)。现在,SAS和Stata等许多常见的统计分析软件也都可以对Poisson回归模型进行估计。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈