首页 理论教育 Stata中的具体步骤,时空社会科学的方法与实践

Stata中的具体步骤,时空社会科学的方法与实践

时间:2023-07-29 理论教育 版权反馈
【摘要】:在Stata软件中,要做空间滞后模型的回归,一般需要有如下五个步骤:第一步,就是把数据导入到Stata软件中,做出相关的Stata数据文件。在Stata中打开S2001.dta可以发现,这个数据文件中的_CX和_CY都是缺失值,因此,需要把各项的经纬度数据赋值给这两个变量。

Stata中的具体步骤,时空社会科学的方法与实践

在Stata软件中,要做空间滞后模型的回归,一般需要有如下五个步骤:

第一步,就是把数据导入到Stata软件中,做出相关的Stata数据文件。一般情况下,都是把Shapefile(shp)文件导入到Stata系统。在这个步骤中,采用的是“spshape2dta”,具体Stata的语句如下:

. spshape2dta name

运行之后,在Stata中就创建了两个数据文件,分别是name.dta和name shp.dta,这是Stata在进行空间分析时所使用的数据文件。其中name.dta文件的数据格式是:

表5-5:name.dta文件的数据结构

可见,从Shapefile文件导入到Stata系统中转化为name.dta文件过程中,多出来了三个变量,分别是_ID、_CX和_CY,这是Stata系统给定的,不可更改。其中_ID变量系统直接根据样本次序给定从1到N的数字,都是给个空间观测点的ID,是唯一且不重复的。但是,_CX和_CY一般情况下是缺失值,需要给予其赋值,才能进行计算和空间回归。

例如,在本研究案例中,Shapefile文件中数据共有六列,对应了六个变量,分别是ADCODE99、CX、CY、Y、X1和X2。ADCODE99是每个县的县编码,都是唯一不重复的。CX是每个县的经度数据,而CY是每个县的纬度数据。Y是每个县的第二产业增加值数据,X1是每个县的年末单位从业人员数,X2是每个县的城镇固定资产投资完成额数据。这个数据文件共有2048行,代表了2048个县的样本。这个数据文件导入到Stata之后,建立了一个名为S2001.dta的数据文件,这时,就变成了九列,对应了九个变量,分别是_ID、_CX、_CY、ADCODE99、CX、CY、Y、X1和X2。

第二步,给_CX和_CY赋值。

在Stata中打开S2001.dta可以发现,这个数据文件中的_CX和_CY都是缺失值,因此,需要把各项的经纬度数据赋值给这两个变量。具体Stata语句是:

. gen _CX = CX

. gen _CY = CY

这样,每个县的经纬度数据就赋值给了系统给定的_CX和_CY变量上。在进行空间回归之前,还需要注意每个县的经纬度数据不能有重复的。若出现有两个县之间的经纬度数据是相同的,在运行空间回归时,Stata就会提醒说经纬度数据有重复,无法继续进行回归。当出现两个县的经纬度数据是一样的情况,就意味着这两个县在地理空间上的经纬度是重合的,因此,Stata就无法区分这两个县,就无法做空间回归分析。对于这种情况,就需要使这两个的经纬度有所不同,才能继续进行空间回归分析。

第三步,创建一个公用的ID变量。_ID是 Stata系统给定的ID变量,但是,在运行空间回归分析的过程中,并不一定就会用这个ID变量。因此,需要创建和指定一个ID变量,供空间回归时使用。在本案例中,创建了一个名为fips的ID变量,而且,还要确保仅有一个观察值。所采用的Stata语句是:

. generate long fips = ADCODE99(www.xing528.com)

. bysort fips:assert _N==1

. assert fips != .

这里的bysort fips:assert _N==1就是按照fips的分组,检查_N==1的命题正确与否。对于每个fips,必须有一个、且只能有一个观察值,而且这些观察值之间不能有重复。

有了这样的ID之后,就可以在空间回归分析中统一使用这个ID变量,具体Stata语句就是:

. spset fips, modify replace

第四步,就是建立空间权重矩阵。空间权重矩阵的类型有多种,在本研究中,建立的是反距离空间权重矩阵。具体Stata语句是:

. spmatrix create idistance M

这个M的空间权重矩阵是一个2048 2048×的矩阵,代表了2048个县之间的空间关系。由于是反空间权重矩阵,因此,两个县之间的空间距离越大,那么,这两个县之间的关系就越不密切。这是反空间权重计算的基本原则,也是“地理学第一定理”的基本内容。

第五步,就是空间滞后回归。首先,采用广义空间二阶最小二乘法进行回归,相应的Stata语句是:

. spregress Y X1 X2, gs2sls dvarlag(M)force

接着,采用最大似然估计法进行回归,相应的Stata语句是:

. spregress Y X1 X2, ml dvarlag(M)force

根据这些语句,就可以得到对应的回归结果。

在开展时空社会科学研究中,若用Stata来进行模型估计和回归,都会用到上述五个步骤,其中前四个步骤是通用的,静态社会时空分析的相关模型都会用到这四个步骤,而第五个步骤是专用的,根据所采用的特定模型来调用对应的语句进行回归。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈