首页 理论教育 中国经济增长数据可信度与GDP的协整与因果关系的检验和分析

中国经济增长数据可信度与GDP的协整与因果关系的检验和分析

时间:2023-11-30 理论教育 版权反馈
【摘要】:第四章非GDP核算数据与GDP间协整与因果关系的检验与分析第一节向量自回归模型与协整检验由于本书中涉及多个变量,除两变量间协整关系外,我们还希望了解多变量间的协整关系。VAR滞后阶数q按两个准则指数对应的最小值来确定,即使AIC和SC达到最小的q。在所有变量协整的假设下,这一模型可以获得一致估计,因此BYt-1亦是平稳的。换言之,矩阵B的秩r确定了“协整向量”的个数。,ΔYt-k+1进行回归,并保存这些残差。

中国经济增长数据可信度与GDP的协整与因果关系的检验和分析

第四章 非GDP核算数据与GDP间协整与因果关系的检验与分析

第一节 向量自回归模型与协整检验

由于本书中涉及多个变量,除两变量间协整关系外,我们还希望了解多变量间的协整关系。虽然E-G两步法对于两变量模型而言是有效的,但涉及多个变量时,它存在一些问题。在多变量情形,一般采用Johansen(1988)、Stock和Watson(1998)提出的多变量协整方法。由于这一方法涉及向量自回归模型,因此,我们先简要地介绍一下向量自回归模型及Johansen(1988)提出的检验方法。

一、向量自回归(Vector Autoregression,VAR)模型与协整

一般地,一个具有m个变量的k阶向量自回归模型具有如下的形式

写成向量形式则为:

并且满足下述条件:

对于所有的t和i = 1,2,…,m,vit~N(0,ωii),其中ωii= var(vit

对于t≠s和i=1,2,…,m,E(vit,vis)= 0

对于所有的t和i,j = 1,2,…,m,其中ωij= cov(vit,vjt)或用矩阵形式

如满足下述条件:

对于所有的t,E(Yt)=μ

对于所有的t和j=1,2,…,m,VAR(yjt)<∞

对于所有的t,cov(Yt,Yt+k)= E[(Yt-μ)(Yt+k-μ)′]=Γk

则向量随机过程{Yt}被称为是平稳的。

此外,如果一个k阶向量自回归过程VAR(k)的均值和方差矩阵有界,而且多项式的所有根都在复单位圆之外,那么这个VAR(k)过程是平稳的(Judge等人,1988)。

在上述假设下,VAR(k)模型的参数可以用普通最小二乘法获得一致估计。因此,对于第i个方程,普通最小二乘估计量为:

ai=(X′X)-1X′Yi~N[αi,ωii(X′X)-1

参数ωij的一致估计wij由下式给出:

上述估计过程假设滞后阶数,即VAR的次数是已知的。当VAR的次数很大时,VAR分析面临过度参数化(over -parameterisation)的问题。不过,在大多数情形下,我们并不知道VAR的阶数,因此必须先选择阶数。确定VAR阶数的方法有很多,下面介绍的两种是最为普通和常用的方法。在下面的检验方法中,假设观测数据个数为n,所有变量的最初观测个数为k。

(1)似然比(LR)检验。似然比(LR)检验依赖于如下给出的通常的似然比统计量:

LR = 2[ln1u- ln1r]~χ2(v)

其中ln1u非限制性系数方程的完全似然的对数,ln1r限制性系数方程似然的对数,v为限制性方程的个数。

假设与滞后变量相对应的VAR(k)模型的系数由矩阵A= [A1 A2…Ak]给出,检验过程是从一个假设的较大滞后长度k开始,顺序地检验下述假设:

H0:Ak= 0 vs. Ha:Ak≠0

H0:Ak-1= 0 vs. Ha:Ak-1≠0给定Ak= 0

H0:Ak-2= 0 vs. Ha:Ak-2≠0给定Ak= Ak-1= 0

H0:A1= 0 vs. Ha:A1≠0给定Ak= Ak-1=…= A2= 0

(2)Akaike信息准则(AIC)与Schwartz准则(SC)。向量自回归情形下的Akaike信息准则(AIC)与Schwartz准则(SC)分别定义如下:

其中m为方程的个数,n为样本量数,q为滞后长度,W为VAR(q)的残差协方差矩阵Ω的估计。VAR滞后阶数q按两个准则指数对应的最小值来确定,即使AIC和SC达到最小的q。

二、向量自回归协整检验

假设具有m个变量的向量自回归模型具有如下形式:

为简明起见,上述模型中没有包括截距项。假设所有m个变量均为一阶或零阶协整,则上述模型可以改写为如下形式:

其中B =-(I - A1-A2-…- Ak),对于j = 1,2,…,k-1,有

Bj= -(Aj+1- Aj+2-…- Aj+k

上述模型看上去很像“误差修正模型”(error correction model),而且,如果所有m个变量都是一阶协整的,那么变量△Yt-j就是平稳的。在所有变量协整的假设下,这一模型可以获得一致估计,因此BYt-1亦是平稳的。

在所有变量均为协整的假设下,可以证明:

(1)如果矩阵B的秩是零,那么这一矩阵的所有元素都为零,这样,上述模型中的误差修正机制BYt-1就不存在,这意味着模型中的各变量不存在长期均衡关系,因此,这些变量就不是协整的,VAR模型可以用变量的差分形式表达。

(2)如果矩阵B的秩等于m,那么这一矩阵的行向量线性独立,则向量过程{Yt}是平稳的,这意味着模型中的各变量均为零阶协整,因此,VAR模型可以用变量的水平形式来表达。

(3)如果矩阵B的秩是r,并且r < m,那么这一矩阵的所有行向量不是线性独立的,即线性相关,那么矩阵B可以写成:B = D·C′。

其中矩阵D和C为m×r维矩阵,矩阵C被称为“协整矩阵”,矩阵D被称为“调整矩阵”。如果Yt~I(1),那么C′Yt~I(0),即Yt中的变量为协整的,而且协整向量为矩阵C中对应的列向量,如c1,c2,…,cr。换言之,矩阵B的秩r确定了“协整向量”的个数。在这种情况下,VAR模型可以表示为“向量误差修正”(vector error correction,VEC)模型(Engle和Granger,1987;Johansen,1989;Engers,1985;Charemza和Deadman,1997)。

上述三个方面构成了Granger表达定理的一个推广。Johansen (1988)以及Stock和Watson(1988)的工作,运用极大似然方法,提供了识别协整阶数r的方法,并提供了协整矩阵与调整矩阵的一个估计。Johansen(1988)的方法由下述步骤构成(Dickey等人,1994;Charemza和Deadman,1997):

步骤1:运用单位根检验方法,如ADF,确定所有m个变量的协整阶数。

步骤2:运用变量的水平形式构建VAR模型,并根据LR、AIC或SC或其他方法确定VAR的阶数k。

步骤3:将ΔYt对ΔYt-1,ΔYt-2,…,ΔYt-k+1进行回归,并保存这些残差。根据这些残差构建m×1向量R0t,从每个对m个变量的回归所得到的残差中取出第t个元素,组成R0t

步骤4:将ΔYt-k对ΔYt-1,ΔYt-2,…,ΔYt-k+1进行回归,并保存这些残差。根据这些残差构建m×1向量Rkt,从每个对m个变量的回归所得到的残差中取出第t个元素,组成Rkt

步骤5:如果样本量为n,则利用下述公式计算4个m×m矩阵S00、S0k、Sk0以及Skk

步骤6:计算与下述矩阵的顺序特征相对应均方关系:

或者计算下面关于μ的多项式方程的特征根或特征值:

该方程有m个变量,m也是可以计算出的特征根的最大个数。将m个特征根按由大到小的序列排列,

步骤7:如前所述,如果rank(B)= 0,那么这些变量不是协整的;如果rank(B)= m,那么这些变量就是平稳的;如果rank(B)= r,0 < r < m,那么这些变量是协整的。此外,我们知道,矩阵B的秩等于显著不为零的特征根的个数,因此,计算矩阵B的秩就相当于检验特征根显著性,或检验1-μj(j = 1,2,…,m)为1的不显著性。这种检验基于如下两个极大似然比统计量:

Johansen(1988)、Johansen和Juselius(1990)、Osterwald-Lenum(1992)以及Enders(1995)中都给出了这些统计量的阈值

步骤8:对于每一个特征根,都存在一个特征向量与之相对应,例如v1,v2,…,vm。这些特征向量构成一个特征矩阵V= [v1,v2,…,vm],并可以通过V′SkkV = I将这些特征向量规范化。如果在步骤7中发现r为矩阵B的秩,那么特征矩阵V中的前r个特征向量就是构成协整矩阵C =[v1,v2,…,vr]的r个协整向量,调整矩阵可以由D = S0kC计算。这些就是C和D的极大似然估计量。

第二节 变量界定与实证性检验结果

为了从非GDP核算数据探索典型省经济增长数据的可信度,本文选用的代表产出性的变量有典型省GDP、第一产业第二产业与第三产业以及工业增加值,代表非GDP核算数据的变量有旅客运输量、货物运输量、旅客周转量货物周转量、城乡拥有电话户数、电信业务总额、城乡居民储蓄存款余额、社会商品零售额、居民消费价格指数。这些变量可分为五大类:一是代表电信业务类的变量;二是交通运输类变量;三是储蓄存款类变量;四是社会商品零售额;五是居民消费价格指数。

本书中所有产出数据和非GDP核算数据均源自于典型省各年的统计年鉴。各种产出数据都以不变价格表示,因而具有可比性。为了消除异方差性和波动性,以及使模型更具有实际意义,本书中所有产出数据与大部分非GDP核算数据均进行了对数变换,因而系数均表示产出与非GDP核算数据之间的弹性关系或准弹性关系。本书中各变量定义如表4-1所示。

表4-1 变量名称、含义及度量单位

一、数据的平稳性或单位根检验

本书运用前面介绍的ADF(Augmented Dickey-Fuller)单位根法检验了序列的平稳性。本质上,对任意变量Zt,检验零假设Zt~I(1)相当于检验ΔZt是平稳的,即不存在单位根。本书ADF单位根检验过程基于如下两个一般形式的OLS回归方程

其中T表示线性趋势,k为被选做使εt成为白噪声残差的滞后阶数。ADF检验遵循前面提出的顺序。如果α1显著小于零,则可拒绝存在一个单位根的零假设,得出Zt~I(0)的结论;检验Zt中存在一个单位根(Zt~I(1))的零假设相当于检验上式中α1= 0。如果α1= 0并且γ1显著小于零,则可得出Zt~I(1)的结论。如果γ1= 0,则ΔZt中存在单位根,因此其可能是Zt~I(2)序列。

在利用AIC与SC准则确定变量的滞后阶数的基础上,对所有产出数据和非GDP核算数据进行了检验。检验结果表明,居民储蓄这一变量的水平数是平稳的,它是0阶单整的。旅客周转量这一变量是二阶单整的。其余变量的一阶差分都分别在1%和5%的显著性水平上拒绝了存在单位根的原假设(见表4-2)。这表明,本书中除旅客周转量、居民储蓄这两个变量外,其余变量的差分均为平稳的,即为一阶单整的。为了节省篇幅,表4-2只报告了一阶差分后序列的单位根检验结果。

二、变量间的协整关系检验

1.双变量协整关系检验

表4-2 变量的单位根的检验[1]

注:*(**,***)indicates a significance level of 10%(5%,1%).

本书运用前面介绍的E-G两步法对每一对变量进行了协整检验。检验结果表明(见表4-3),典型省GDP、第一产业增加值、第三产业增加值、工业增加值与非GDP核算数据的各平稳变量之间均是协整的,即与非GDP核算数据各平稳变量之间均存在长期稳定关系,而且均为同方向变化。表4-3中的协整方程表明,价格指数每变化1个百分点,将导致GDP同方向变化1.54个百分点;社会商品零售总额每变化1个百分点,将导致GDP同方向变化1.26个百分点;代表交通运输业的三个指标对GDP的弹性影响存在较大差别,旅客运输量和货物运输量各变化1个百分点将导致GDP分别同方向变化1.36个百分点和1.49个百分点,而货物周转量变化1个百分点只导致GDP同方向变化0.78个百分点;电信业务总量对GDP的影响较大,前者每变化1个百分点,将导致GDP同方向变化2.13个百分点。由此可知,交通运输业与电信业的发展,对于促进经济增长有着较大的影响。这证明了交通运输业与电信业在经济发展中的基础作用。

表4-3 变量的协整检验

注:括号中数字为相应变量的t统计量。
**与***分别表示在5%和1%显著性水平上显著。

表4-3中最后三行表明了构成GDP的第一产业、第二产业与第三产业之间的内部结构关系,即三个产业之间存在协整关系。方程(5)表明,第二产业增加值变化1个百分点,将导致第一产业增加值变化0.39个百分点;方程(6)表明,第三产业增加值变化1个百分点,将导致第一产业增加值同方向变化0.44个百分点;而方程(7)表明,第三产业增加值变化1个百分点,将导致第二产业增加值同方向变化1.10个变化点。三次产业间这种协整关系表明,经济发展是一个平衡推进的过程,各产业间存在彼此相互作用的关系,抑制某个产业的发展将严重影响其他产业的发展,进而会影响经济的整体发展。同时,第三产业对其他两个产业的产出弹性最大,这一事实表明,营造第三产业发展的良好环境,促进第三产业的发展,对于促进经济的整体发展具有事半功倍的效果。

2.多变量协整关系检验

前面只是利用E-G检验法检验了两两变量间的协整关系。为此,下面利用前面提到Johnsen多变量协整检验方法进行协整检验,以便了解存在的几种协整关系。

由于Johnsen协整检验结果依赖于对数据生成方式的不同假设,为了便于对比,我们分三种情况对数据进行了Johnsen检验。情形1是数据中没有确定性趋势,情形2是数据具有线性确定性趋势,情形3是数据具有时间趋势的线性确定性趋势。各种情形的检验结果如表4-4所示。根据似然比原则,在情形1和情形2下,在5%显著性水平下,最多存在4个协整方程,而在情形3下,在5%显著性水平下,最多存在5个协整方程。表4-4中同时给出了不同情形下的协整方程及其相关参数。表4-4中的协整方程表明,GDP与居民消费价格指数、电信业务总量、货物周转量、社会商品零售总额以及旅客运输量之间存在协整关系;居民消费价格指数与电信业务总量、货物周转量、社会商品零售总额以及旅客运输量之间存在协整关系;电信业务总量与货物周转量、社会商品零售总额以及旅客运输量之间存在协整关系;货物周转量与社会商品零售总额以及旅客运输量之间存在协整关系。三种情形下协整方程的系数虽然并不相同,但相应的t统计量均较为显著,大部分系数的符号正确,因此三种情形所反映的变量间关系,并没有太大冲突。

表4-4a 变量间协整的Johnsen检验(情形1:数据中不存在确定性趋势)

*(**)denotes rejection of the hypothesis at 5%(1%)significance level
L.R. test indicates 4 cointegrating equation(s)at 5% significance level

Normalized Cointegrating Coefficients:1 Cointegrating Equation(s)

Normalized Cointegrating Coefficients:2 Cointegrating Equation(s)

Normalized Cointegrating Coefficients:3 Cointegrating Equation(s)

Normalized Cointegrating Coefficients:4 Cointegrating Equation(s)

表4 - 4b 变量间协整的Johnsen检验(情形2:数据中存在线性确定性趋势)

*(**)denotes rejection of the hypothesis at 5%(1%)significance level
L.R. test indicates 4 cointegrating equation(s)at 5% significance level

Normalized Cointegrating Coefficients:1 Cointegrating Equation(s)

Normalized Cointegrating Coefficients:2 Cointegrating Equation(s)

Normalized Cointegrating Coefficients:3 Cointegrating Equation(s)

Normalized Cointegrating Coefficients:4 Cointegrating Equation(s)

表4 - 4c 变量间协整的Johnsen检验(情形3:数据中存在时间的线性确定性趋势)

*(**)denotes rejection of the hypothesis at 5%(1%)significance level
L. R. test indicates 5 cointegrating equation(s)at 5% significance level

Normalized Cointegrating Coefficients:1 Cointegrating Equation(s)

Normalized Cointegrating Coefficients:2 Cointegrating Equation(s)

Normalized Cointegrating Coefficients:3 Cointegrating Equation(s)

Normalized Cointegrating Coefficients:4 Cointegrating Equation(s)

Normalized Cointegrating Coefficients:5 Cointegrating Equation(s)

三、变量间的因果关系检验

各种非GDP核算变量与产出水平之间,以及各产出构成之间存在的协整关系,只是说明这些变量具有共同的变动趋势,并没有说明这些变量与产出变量之间的因果方向。为了理解非GDP核算变量与典型省GDP之间的因果方向,以及非GDP核算变量间、GDP各构成产业间的因果方向,我们对书中各种变量进行了因果关系检验。

在回归方程中,一个解释变量Xt影响因变量Yt,意味着解释变量Xt的变化引起因变量Yt的变化。这就是所谓的变量间因果关系。

根据变量间引致变化的方向不同,可分为两种情况:单向因果关系,即变量Xt的变化引致变量Yt的变化,但变量Yt的变化并不引致变量Xt的变化;双向因果关系,即变量Xt和变量Yt相互引致对方的变化。由于在大多数情况下,人们并不知道变量间的因果方向,因此,人们设计了各种各样的检验方法来识别变量间的因果方向(Sims,1972;Geweke等人,1983;Granger, 1969,1988)。其中最为著名的,也是目前应用最为广泛的检验方法是Granger(1969)提出的方法。Granger的因果检验基于这样的事实:即将来不可能引起现在或过去发生变化。从这一基本事实出发,Granger以类比的方式提出了一种因果关系,即如果一个变量的加入提高了对另外一个变量变化的预测能力,则前者为后者的原因。这一检验方法基于对下列两个方程的检验:

基于这两个方程,我们可区分出以下三种情况:

(1)如果{α11,α12,…,α1k}≠0,而且{β21,β22,…,β2k}=0,那么存在由Xt到Yt的单向因果关系,表示为Xt→Yt

(2)如果{α11,α12,…,α1k}=0,而且{β21,β22,…,β2k}≠0,那么存在由Yt到Xt的单向因果关系,表示为Yt→Xt

(3)如果{α11,α12,…,α1k}≠0,而且{β21,β22,…,β2k}≠0,那么存在Xt和Yt的双向因果关系,表示为Xt圮Yt

为了检验关于上述两个方程系数是否为显著,可以使用如下的Wald F统计量:

其中SSRu为非约束回归方程的残差平方和,SSRr为约束回归方程的残差平方和。

检验假设可以叙述如下:

H0:X不是Y的Granger原因,即{α11,α12,…,α1k}= 0,判断准则为Fc小于F的阈值。

Ha:X是Y的Granger原因,即{α11,α12,…,α1k}≠0,判断准则为Fc大于F的阈值。

H0:Y不是X的Granger原因,即{β21,β22,…,β2k}= 0,判断准则为Fc小于F的阈值。

表4-5 各变量间Granger因果关系与因果方向(www.xing528.com)

续表

续表

续表

Ha:Y是X的Granger原因,即{β21,β22,…,β2k}≠0,判断准则为Fc大于F的阈值。

本书运用上述方法对典型省经济产出数据与能源消费数据进行因果关系检验,结果如表4-5所示。表4-5表明,典型省大部分产出变量与大部分非GDP核算变量之间,以及大部分非GDP核算变量之间存在单向的因果关系,只有少数变量存在双向因果关系。表4-5反映了如下事实。

(1)GDP与非GDP核算变量的因果关系。表4-5表明,GDP与电信业务总量、长途电话次数、居民储蓄存款、居民消费价格指数之间存在单向因果关系;与社会商品零售总额、旅客周转量之间不存在因果关系;与货物周转量之间存在双向因果关系。

(2)社会商品零售总额与其他变量间因果关系。①社会商品零售总额与居民储蓄存款、旅客周转量存在顺序单向因果关系,而与电信业务总量之间存在逆向因果关系。②与货物周转量、居民消费价格指数之间存在双向因果关系。③与第一产业、第二产业和第三产业增加值不存在因果关系。前两种情况基本符合经济变量间的经验关系,反映了需求满足的顺序,最后一种情况虽然和前面的“GDP与社会商品零售总额之间不存在因果关系”相一致,但社会商品零售总额作为消费需求的重要构成部分,与各产业增加值之间不存在因果关系,却显得不那么自然,因而是比较难于理解的。显然,这一关系有待于进一步研究。

(3)电信业与其他变量间的因果关系。①电信业务与居民储蓄存款存在顺序单向因果关系。②与价格指数、第三产业增加值存在双向因果关系,这是符合经验关系的,因为电信业本身就属于第三产业的一部分,同时,第三产业的发展又会提高对电信业的需求。③与旅客周转量、货物周转量存在逆向因果关系。④长途电话与货物周转量存在顺向因果关系,而与价格指数、第二产业增加值存在逆向因果关系。⑤电话拥有量与第三产业增加值存在逆向因果关系,表明第三产业的发展导致对电话需求的增加。⑥长途电话次数与旅客周转量、电信业务总量与第一产业增加值之间不存在因果关系。

(4)交通运输业与其他变量间的因果关系。①旅客周转量与居民储蓄存款、第三产业增加值存在顺向因果关系;与居民消费价格指数存在逆向因果关系;与第一产业增加值存在双向因果关系,表明人口流动与第一产业的发展是相互促进的;与第二产业增加值不存在因果关系。②货物周转量与居民储蓄存款、第三产业增加值、第二产业增加值存在双向因果关系,与第一产业增加值存在单向因果关系。③货物运输量与第一产业增加值、第二产业增加值存在逆向因果关系。④旅客运输量与第一产业增加值、第三产业增加值存在逆向因果关系,表明第一产业、第三产业的发展有利于促进社会流动性的增强;与第二产业增加值不存在因果关系,表明现阶段第二产业的发展独立于劳动力的社会流动,这可能是中国目前经济发展阶段的一个特征。

(5)居民消费价格指数与居民储蓄存款、与第三产业增加值存在顺向因果关系,与第二产业增加值存在逆向因果关系,与第一产业增加值不存在因果关系。居民储蓄存款与第一产业增加值存在双向因果关系,而与第二产业增加值、第三产业增加值存在逆向因果关系,这表明,第二产业与第三产业的发展促进了人们收入水平的提高,反过来再补给第一产业进而促进第一产业的发展。

(6)三次产业内部的关系。第一产业增加值与第三产业增加值存在逆向因果关系,即第三产业的发展带动或促进了第一产业的发展;第二产业与第三产业之间不存在因果关系;第一产业与第二产业之间存在双向因果关系,即相互依赖、相互促进。三次产业内部的这种因果关系具有重要的政策含义,即制定相关政策,改善第三产业发展的环境,大力发展第三产业,能够有效促进第一产业的发展,而第一产业的发展又能够有效促进第二产业的发展,因而有利于促进社会经济的整体发展。同时,第二产业与第三产业之间不存在因果关系表明,第三产业的发展水平相对落后,还没有达到能够促进第二产业发展的程度,因而制定相关政策促进第三产业的发展,对于建立相对完备的分工体系,促进和带动第二产业的发展,进而形成相互促进的三次产业结构,是典型省乃至中国在公共政策方面面临的重大问题。

第三节 基于非GDP核算数据模拟的GDP可信性区间与增长率

前面通过E-G两步法和Johnsen方法检验了非GDP核算变量与GDP及其各构成部分之间的协整关系与因果关系。前面的讨论表明,典型省GDP及其各构成部分与大部分非GDP核算变量之间存在协整关系,即存在长期稳定关系,以及从GDP到非GDP核算变量间的单向Granger因果关系,即经济增长导致各种非GDP核算变量的增加。因此,从理论上说,依据这种经验关系应该能够比较准确地模拟典型省GDP及其增长率。本节将根据协整方程来模拟和预测GDP及其增长率。

一、模拟与预测模型优度的检验标准

为了便于对各种不同模拟和预测模型的模拟与预测优度进行判断,学者们开发了不同的评价指标。从理论上说,评价和显示模型模拟与预测能力的指标主要有以下几个指标:模拟误差的均方根,其定义为。rms error度量了变量的模拟值与实际值之间的距离,通过将其与变量的均值进行比较,能够显示出模拟误差的大小。另外一个能够用来评价拟合程度的统计量是模拟误差均方根比,它的定义是,它的大小反映了模型模拟数据结构的能力,从而反映了模型的预测能力。不过,模拟误差均方根比存在的一个严重问题是,它只反映了模拟优度,但并没有考虑到数据转折点问题。与模拟误差均方根比有关的、能够反映数据转折点的统计量是Theil不等系数(Theil’s Inequality coefficient),其定义如下:

上述各式中,为Yt的模拟值,为真实值或实际值,T为模拟的时期数。U的分子是模拟误差均方根,分母的比例换算因子是使U保持在0~1之间。因此,Theil不等系数度量的是相对的模拟误差的均方根(rms error)。如果U = 0,那么意味着对所有的t都有模拟值等于实际值,即模型与数据完全拟合;如果U = 1,则意味着模型的模拟和预测能力很差。

由于

其中,σs和σa分别是序列的平均值和标准差,ρ是它们的相关系数,即,因此,U可以分解为以下三个不等比率:

由于UM,US,UC分别显示了U的来源,故而按其所代表的误差来源分别被称为偏差比率、方差比率和协方差比率。

偏差比率是衡量系统误差的指标,因为它表明了模拟数列平均值偏离真实数列平均值的程度。不论不等系数U的值为多少,我们都希望偏差比率很接近0。一个较大的偏差比率(例如超过0.1或0.2)意味着模型存在系统偏差。

方差比率表明了模型模拟被研究变量变化程度的能力。如果方差比率很大,则说明真实数列波动很大而模拟数列波动很小,或者真实数列波动很小而模拟数列波动很大。这表明模型没有很好地模拟真实数据的转折点,因而也不是一个好的预测模型。

协方差比率测量的是非系统误差,即它衡量剔除了偏离平均值以后的误差。由于在一般情况下很难做到模型具有100%的模拟能力,使模拟和预测结果与实际数据完全吻合,因此,协方差比率较大,说明模拟误差主要来自随机因素而不是模型与实际数据的系统偏离。事实上,对于任何Theil不等系数U>0,最理想的模拟和预测模型是使UM=US=0,UC=1。

二、基于协整方程的GDP模拟与预测模型

第四节的讨论表明,GDP与居民消费价格指数、电信业务总量、货物周转量、社会商品零售总额以及旅客运输量之间存在协整关系。从理论上说,由这些协整变量构成的模型能够较好地模拟GDP的变动。尽管协整检验能够有效避免伪回归(spurious regressions),但正如我们在前面看到的,Johansen多变量检验方法强烈依赖于关于数据生成过程(the data generating process)的初始假设,不同的初始假设会得到不同的协整方程,因此,在构造模拟与预测模型时,虽然应以协整关系为基础,但不能完全依赖协整方程,它只是构造模拟与预测模型的一个必要条件而非充分条件。在构造模拟与预测模型时还应考虑各变量间的理论关系与统计关系。依据这一原则,我们在协整方程的基础上,兼顾AIC和SC准则,并去掉不显著的变量,得到如下模拟与预测模型:

表4-6表明,用来模拟和预测GDP的变量包括了电信业务类、交通运输类、居民消费价格指数类以及社会商品零售总额类变量。该模型中各变量与GDP变动方向符合经验关系,即与GDP同方向变化,所有变量不仅在统计上非常显著,而且从实际意义上,也是非常显著的;该模型解释了GDP变差的99.9%;Breusch-Godfrey序列相关LM的检验结果为:F-统计量为1.003626,相应的收尾概率为0.384,表明不存在序列相关。

表4-6 基于非GDP核算变量的GDP模拟与预测模型

模拟误差的均方根rms error = 0.021397,绝对值误差均值为0.016880,绝对值百分比误差均值为0.23626,Theil不等系数(U)为0.001409,偏差比率(UM)为0.000000,方差比率(US)为0.000144,协方差比率(UC)为0.999856。由于方差比率相对较小,协方差比率相对较大,根据最理想的模拟与预测模型的条件可知,表4-6所显示的模型应具有较为优良的模拟与预测能力。

为了实际考察和比较由表4-6给出的模型的模拟与预测优度,检验典型省GDP增长率的可信度,表4-7给出了根据表4-6的模型计算的GDP模拟值、模拟值与实际值的相对误差,并给出了各年GDP数据的95%置信区间以及GDP增长率。计算结果表现出如下特征:

(1)表4-7中数据表明,由表4-6模型计算出的GDP对数的模拟值与GDP对数的实际值之间的相对误差,大于0.5%的只有3个年份,分别发生在1978年、1981年、1984年,最大相对误差发生在1981年(-0.769%);在0.2%~0.5%之间的有9个年份,其中在0.4%以上的发生在1985年(0.499%)、1986年(-0.405%);在0.1%~0.2%之间的有7个年份,其余均在0.1%以下。相对误差为负的有12个年份,为正的有14个年份。1990年以后,GDP统计值大于模拟值较为明显的有1991年(0.259%)、1992年(0.301%)和1999年(0.221%);GDP统计值小于模拟值较为明显的有1995年(-0.303%)和2003年(-0.367%)。

(2)GDP统计增长率与模拟增长率之间绝对误差超过3个百分点的有1979年、1982年、1984年、1986年、1987年、1988年、1995年、2003年和2004年9个年份;误差在2~3个百分点之间的,有2个年份;误差在1~2个百分点的有8个年份;误差小于1个百分点的,有7个年份。误差为正的有14个年份,误差为负的有12个年份。1990年以后,GDP统计增长率与模拟增长率差别较大的有1991年(2.167个百分点)、1995年(-3.862个百分点)、2003年(-3.904个百分点)和2004年(4.507个百分点)。

(3)以1993年为分界点,GDP统计值与GDP模拟值,GDP统计增长率与模拟增长率,各自的平稳性出现较大的差别。1993年以前,GDP统计增长率与模拟增长率之间不论是在拐点出现的年份方面,还是峰点与谷点发生的时间,都基本一致,特别是统计增长率与模拟增长率的波动性基本相同。1993年之后,GDP统计增长率与模拟增长率之间在波动性方面出现较大差别,统计增长率基本上是一个比较平滑的U曲线,而模拟增长率则分别在1995年、2000年、2003年和2004年出现较大的波动,而且从1996开始一直到1999年,连续4年低于统计增长率见表4-7及图4-1。这种差别可以做出几种解释:一是模拟值的波动源于GDP与非GDP核算数据间的协整误差;二是GDP统计增长率的平稳性来源于宏观调控政策,是近年来中国实施稳定经济政策的结果;三是GDP统计数据经过了加工和调整,消除了波动性。

表4-7 基于非GDP核算变量模拟的GDP 95%置信区及其增长率

图4-1 基于非GDP核算变量模拟的GDP增长率

(4)为了进一步理解在个别年份出现的GDP统计增长率与模拟增长率之间的不协调性,我们下面给出了基于ARMA模型模拟的GDP增长率和基于能源与结构变量模型模拟的GDP增长率的对比图。图4-2中清晰表明,虽然基于能源与结构变量的模拟模型相对于ARMA模型而言,波动性更强,但基于ARMA模型模拟的GDP增长率和基于能源与结构变量模型模拟的GDP增长率,具有基本相似的波动性,特别是2000年以后,拐点、峰点、谷点基本同步。再将图4-2与基于非GDP核算变量模拟的GDP增长率加以对比,我们发现各种不同模型给出GDP模拟增长率均较统计增长率具有更强的波动性,而且波动型式比较一致。由于基于能源与结构变量模型和基于非GDP核算变量模型,较ARMA模型更具外生性,因此,从这一点来看,GDP增长率具有一定的波动性,可能更为接近现实。

图4-2 GDP统计增长率、ARMA模拟增长率与基于能源与结构变量模型的模拟增长率

三、基于分产业协整方程的GDP模拟与预测模型

前面利用非GDP核算变量模拟与预测的GDP,可以说是在总量层次上的一种模拟与预测。由于GDP由第一产业、第二产业和第三产业增加值构成,而不同的非GDP核算变量对不同产业的影响是不同的,因此,用相同的非GDP核算变量模拟和预测GDP有可能产生一定的偏差。为了研究这种偏差的大小及其对GDP模拟与预测的影响,下面我们利用不同的非GDP核算变量分别模拟不同产业的增加值,再合成总的GDP,进而比较上述偏差的大小。

在选取模拟不同产业增加值的非GDP核算变量及设定模型时,我们主要遵循如下三个原则:一是依据不同产业增加值与各非GDP变量之间的协整关系与因果关系;二是依据经济的循环流转过程,即经济发生的自然过程;三是计量模型要满足高斯—马尔可夫条件。依据这三个原则,我们设定了模拟第一产业、第二产业和第三产业增加值的三个模型。

1.第一产业增加值模拟模型与模拟结果

第一产业包括农林牧渔业。①第一产业的经济特点是存在较为确定的生产周期,生产者对市场信号的反应一般以一个生产周期为限,本期的市场信号决定下一期的生产决策。②前面的因果关系检验结果表明,社会商品零售总额约在10%的显著性水平上为第一产业增加值的Granger原因,从统计的角度上看,虽然只是处于可接受水平的边缘上,但从经济过程来看,社会商品零售总额作为消费需求的一部分,理应是第一产业增加值的一个决定因素。③旅客周转量与第一产业增加值互为Granger因果关系,因此一定为第一产业增加值的决定因素。④居民消费价格指数代表了社会对农产品需求的状况,如果价格较高,说明市场需求旺盛,而且需求大于供给,因此,滞后一期的居民消费价格指数应成为生产者进行生产决策的重要信号和依据。⑤货物运输量与旅客运输量均为第一产业增加值的结果,而且滞后一期的第一产业增加值作为货物运输量与旅客运输量的原因,较滞后2期更为显著,这一方面反映了产出量增加导致货物运输量和旅客运输量增加的事实,同时也表明,市场需求的相对饱和度在上升,必须通过扩大地域范围来销售农产品,由此给生产者带来的信号是经济不景气,因而会影响生产者下一期的生产决策。

因此,我们选择了社会商品零售总额、旅客周转量、旅客运输量、货物运输量和居民消费价格指数,其中前两个变量为当期值,后三个变量为滞后一期值。经计算,我们得到了如下模拟模型:

计算结果表明,该模型符合前面的理论预设,各变量均具有预期的符号,并且均在5%的显著性水平上具有统计上的显著性,各系数值的大小基本反映了变量间的作用关系,具有实际上的或经济上的显著性;调整过的R2为0.9855,说明模型解释了第一产业增加值变差的98.55%;DW统计量为1.67,Breusch-Godfrey序列相关LM的检验结果为:F-统计量和观测样本R2分别为0.505和1.380,相应的收尾概率分别为0.612和0.501,表明不存在序列相关,即模拟误差为随机的。

模拟误差的均方根rms error = 0.043963,绝对值误差均值为0.037368,绝对值百分比误差均值为0.625233,Theil不等系数(U)为0.003617,偏差比率(UM)为0.000000,方差比率(US)为0.002900,协方差比率(UC)为0.997100。由于方差比率相对较小,协方差比率相对较大,根据最理想的模拟与预测模型的条件可知,表4-8所显示的模型应具有较为优良的模拟与预测能力,从理论上说,该模型具有较高的模拟与预测效度(validity)。

表4-8 第一产业增加值模拟模型

表4-9 第一产业增加值模拟相对误差、95%置信区间、模拟增长率及绝对误差

为了实际考察和比较由表4-8给出的模型的模拟与预测优度,检验典型省第一产业增加值增长率的可信度,表4-9给出了根据表4-8的模型计算的第一产业增加值的模拟值、模拟值与实际值的相对误差,并给出了各年第一产业增加值数据的95%置信区间以及第一产业增加值的增长率。计算结果表现出如下特征:

(1)表4-9中数据表明,由表4-8模型计算出的第一产业增加值对数的模拟值与第一产业增加值对数的实际值之间的相对误差,大于1%的有4个年份,分别发生在1981年(-1.03%)、1984年(1.47%)、1987年(1.03%)和1992年(-1.12%);相对误差在0.5%~1%之间的有6个年份,其余年份的相对误差均在0.5%以下。相对误差为负的有14个年份,为正的有11个年份。1990年以后,第一产业增加值统计值大于模拟值较为明显的有1994年(0.76%)、1995年(0.57%)、1996年(0.46%)、2000年(0.40%)和2001年(0.44%);统计值小于模拟值较为明显的有1992年(-1.12%)、1997年(-0.52%)和2004年(-0.79%)。尽管存在这些差别,总的来说,第一产业增加值的统计值与模拟值之间的相对误差,以及由模型给出的第一产业增加值的95%置信区间,都在可接受的范围之内。

图4-3 第一产业增加值统计值与模拟值

(2)虽然第一产业增加值的统计值与模拟值之间的相对误差处于可接受的范围内,但第一产业增加值的统计增长率与模拟增长率之间的绝对误差相当大(见表4-9及图4-3)。统计增长率与模拟增长率绝对误差超过3个百分点的有12个年份;误差在2~3个百分点之间的有5个年份;误差在1~2个百分点的和误差小于1个百分点的分别只有3个年份和5个年份。误差为正的有14个年份,误差为负的有11个年份。1990年以后,第一产业增加值统计增长率与模拟增长率差别较大的有1992年(-7.74个百分点)、1993年(6.66个百分点)、1994年(6.10个百分点)、1997年(-6.09个百分点)、2002年(-3.75个百分点)和2004年(-5.25个百分点)。1990年以后误差为正的有9个年份,误差为负的有6个年份。

(3)典型省第一产业增加值有两套各自比较完整的数据:一套是各年统计年鉴发布的数据,并且在2004年山东统计年鉴上作为历史数据再次发布;另一套是在典型省统计信息网上发布的数据,并注释为“是与农业普查衔接后的数据”。两套数据都给出了按当年价格计算的绝对量和以1952年为100计算的指数。以指数计算的两套数据在增长率方面存在较大的差别,从1978~2004年,调整过的数据与原数据相比,增长率绝对误差超过2个百分点的有7个年份,其中相差较大的有1993年(5.89个百分点)、1994年(5.89个百分点)、1997年(4.19个百分点)和1998年(4.20个百分点)。从统计增长率与模拟增长率对比图来看,1997年统计增长率的上调,符合模拟情况,但1993年、1994年的上调,使统计增长率更偏离了模拟增长率,看不出上调的恰当理由,而“应该”进行上调的1992年却没有上调(或许实际上的确不应该上调,在这里可能是异常值)。

(4)图4-4中两个较大的圆圈分别是1992年的统计增长率和1997年的统计增长率,即使对1992年的增长率不作调整,而只对1997年的增长率进行调整,那么,我们可以发现,1989年以后,统计增长率与模拟增长率的峰点与谷点基本是在同一个年份出现(虽然大小存在一定的差别),而在1989年以前,这种情况很少出现。对此可做如下解释:一是1989年以后,中国经济市场化程度较以前有了很大的提高,第一产业的生产者基本上按市场信号进行生产决策;二是在市场经济下,模型中的几个变量具有一种内在的一致性;三是我们关于第一产业生产活动情况的理论假设与经验之间具有一致性,即选用具有滞后一期的几个变量的模型,符合经济运转的实际状况,表明本文模型的经验效度较高。

图4-4 第一产业增加值统计增长率与模拟增长率(%)

(5)第一产业增加值的模拟增长率与统计增长率在1990年以前,波动情况出现了较大的差异。1990年之后,统计增长率,特别是经过调整后的统计增长率,更为平稳一些,而模拟增长率则存在相对较大的波动。尽管如此,总体上来说,第一产业增加值的模拟增长率与统计增长率是比较吻合的,个别年份出现差别的原因很多。其中有些是由于主观感知而导致的,有些是随机因素而导致的,还有些可能是统计方法导致的,也可能是由于政治原因即“GDP锦标赛”而导致的。

2.第二产业增加值模拟模型与模拟结果

第二产业包括工业和建筑业。①第二产业的经济特点是,内部各构成部分生产周期存在较大的差别,但总体上说,生产周期一般较短,一般以季度来计算,因此,生产者对市场信号的反应一般以当期为限,即本期的市场信号决定本期的生产决策。②虽然前面的因果关系检验结果表明,社会商品零售总额与第二产业增加值没有直接的因果关系,但从经济过程来看,社会商品零售总额作为消费需求的一部分,理应是第二产业增加值的一个决定因素。③货物运输量作为第二产业增加值的Granger结果,反映了第二产业产出与运输之间具有一种内在的关系。④居民消费价格指数代表了社会对产出的需求状况,如果价格较高,说明市场需求旺盛,而且需求大于供给;如果价格较低,则说明市场需求较为呆滞,可能存在供给大于需求的状况,因此,居民消费价格指数为生产者进行生产决策的重要信号和依据。⑤电信业务总量与第二产业增加值互为Granger因果关系,反映了信息沟通与第二产业产出之间的内在联系,同时,从经济的实际运转过程来看,信息作为市场供给与需求联结的渠道,具有经济基础性的作用。因此,信息量与及时程度与第二产业生产者进行生产决策具有共时性和一致性。

因此,我们选择了社会商品零售总额、货物运输量、居民消费价格指数和电信业务总量作为第二产业产出增加值的预测变量。经计算,我们得到了如下模拟模型:

表4-10 第二产业增加值模拟模型

计算结果表明,该模型符合前面的理论预设,各变量均具有预期的符号,并且均在1%的显著性水平上具有统计上的显著性,各系数值的大小基本反映了变量间的相互作用关系,具有实际上的或经济上的显著性;调整过的R2为0.999,说明模型解释了第二产业增加值变差的99.95%;DW统计量为1.559,Breusch-Godfrey序列相关LM的检验结果为:F-统计量和观测样本R2分别为0.743和1.866,相应的收尾概率分别为0.489和0.393,表明不存在序列相关,即模拟误差为随机的。

模拟误差的均方根rms error = 0.028690,绝对值误差均值为0.021921,绝对值百分比误差均值为0.243516,Theil不等系数(U)为0.001558,偏差比率(UM)为0.000000,方差比率(US)为0.000176,协方差比率(UC)为0.999824。由于方差比率相对较小,协方差比率相对较大,根据最理想的模拟与预测模型的条件可知,表4-10所显示的模型应具有较为优良的模拟与预测能力,从理论上说,该模型具有较高的模拟与预测效度(validity)。

为了实际考察和比较由表4-10给出的模型的模拟与预测优度,检验典型省第二产业增加值增长率的可信度,表4-11给出了根据表4-10的模型计算的第二产业增加值的模拟值,模拟值与实际值的相对误差,并给出了各年第二产业增加值数据的95%置信区间以及第一产业增加值的增长率。计算结果表现出如下特征:

(1)表4-11中数据表明,由表4-10模型计算出的第二产业增加值对数的统计值与第二产业增加值对数的模拟值之间的相对误差,超过0.5%的有5个年份,分别发生在1983年(-0.777%)、1986年(-0.504%)、1990年(0.577%)、1992年(0.784%)和1995年(-0.513%);相对误差在0.1%~0.5%之间的有15个年份,其余年份的相对误差均在0.1%以下。相对误差为负的有15个年份,为正的有12个年份。1990年以后,第二产业增加值统计值大于模拟值较为明显的有1990年(0.577%)、1992年(0.784%)、1993年(0.416%)和1999年(0.263%);统计值小于模拟值较为明显的有1995年(-0.513%)和1996年(-0.271%)。相对于第一产业和GDP的模拟模型来说,该模型显现出的相对误差,要小得多。同时,由于2倍标准误差相对也小得多,因此,该模型给出的第二产业增加值的95%置信区间,效率更高一些。

表4-11 第二产业增加值模拟相对误差、95%置信区间、模拟增长率及绝对误差

(2)虽然第二产业增加值的统计值与模拟值之间的相对误差,相对于第一产业的情况而言要好得多,但第二产业增加值的统计增长率与模拟增长率之间的绝对误差,总的来说,仍然较大(见表4-11及图4-5)。绝对误差超过3个百分点的有14个年份;误差在2~3个百分点之间的有3个年份;误差在1~2个百分点的和误差小于1个百分点的,分别只有5个年份和4个年份。误差为正的有15个年份,误差为负的有11个年份。误差较大的年份有1983年(-7.31个百分点)、1991年(-7.16个百分点)、1992年(-10.12个百分点)和1994年(-6.69个百分点)。

图4-5 第二产业增加值统计值与模拟值的相对误差(%)

(3)增长率误差的波动样式(pattern)比较复杂(见图4-6)。第二产业增加值的统计增长率与模拟增长率之间绝对误差的标准差,1979~1989年为4.19,1990~2004年为4.61。显然,这两个阶段误差的标准差具有明显的差异。但对比(contrasts)更为鲜明的,是1983~1995年之间与1996~2004年之间,前一期间统计增长率与模拟增长率间的绝对误差的标准差为5.89,而后一期间的为2.26。自1996年起,统计增长率与模拟增长率之间的绝对误差显著地变小,而且两种增长率波动的峰点与谷点基本相同。除1999年和2004年统计增长率高出模拟增长率3个以上百分点外,其余年份的波动基本在可接受的范围内。对模型残差进行的White异方差性检验(White Heteroskedasticity test)结果为:F-统计量和观测变量的R2分别为0.747和6.730,相应的收尾概率分别为0.651和0.566,拒绝了存在异方差性的原假设,再考虑到不存在序列相关,我们可以得出结论,这种误差在不同时期的明显差异,并不是来自于模型的设定。

图4-6 第二产业增加值统计增长率与模拟增长率(%)

(4)第二产业增加值的统计增长率与模拟增长率之间绝对误差的标准差,在这两个期间存在的明显差异,可能源于如下几个原因:一是1983~1995年,正是乡镇企业兴起、发展与调整时期,乡镇企业的发展与衰落导致第二产业增加值变动得较为严重。二是此间,特别是1993年之前,市场经济指数相对不高,各经济变量之间的关系不是通过市场调节的而仍然通过计划调节。三是乡镇企业在统计方面可能的确存在不能很好区分现价与不变价的情况,因而使统计数据忽高忽低。四是因为统计方式改变造成了数据间的不协调。中国在1993年正式启用国民经济核算体系(NSA),1993年前后这一期间正是两种核算方法的转轨阶段,因此,两种核算方法衔接中出现的各种问题,可能导致了统计数据出现了较大的差异性。

(5)经济过程的波动规律一般是在波动性增长之后要出现波动性下滑,波动性下滑之后又要出现波动性上升。仅从这一点来判断,第二产业增加值的模拟增长率的波动更符合这一经济规律(见图4-6)。例如,在经历了1988~1990年的连续下降之后,1991年出现高速增长,但在1992年有了一个调整后,增长速度继续上升;同样,1996~1999年,增长率是波动性下降而不是平滑式下降,而且此间的模拟增长率均低于统计增长率,这可能更符合当时东南亚经济不景气的事实;1999年以后的经济好转也是在波动中好转的,而不是平滑式好转。

(6)1990~1996年,第二产业增加值增长率的波动,虽然在统计值与模拟值没有太大的差别,但由于在约束回归下模拟值受原数据结构的影响很大,因此,增长率连续大幅度上升,找不到合理的解释。

3.第三产业增加值模拟模型与模拟结果

第三产业包括交通运输、仓储、邮电通信业和批发零售贸易餐饮业。不难看出,本书中所指的非GDP核算变量大多都与第三产业增加值直接相关。因此,从理论上说,模拟与预测第三产业增加值的变量,更容易选取,但我们仍然遵循前面的分析步骤。①第三产业的经济特点是,内部各构成部分生产周期一般较短,因此,生产者对市场信号的反应一般以当期为限,即本期的市场信号决定本期的生产决策。②虽然前面的因果关系检验结果表明,社会商品零售总额与第三产业增加值没有直接的因果关系,但从经济过程来看,社会商品零售总额作为消费需求的一部分,理应是第三产业增加值的一个决定因素。③交通运输各变量与第三产业增加值互为Granger因果关系,反映了第三产业产出与交通运输之间具有一种内在的关系。④居民消费价格指数是第三产业增加值的Granger原因,同时,居民消费价格指数代表了社会对产出的需求状况,如果价格较高,说明市场需求旺盛,而且需求大于供给;如果价格较低则说明市场需求较为呆滞,可能存在供给大于需求的状况,因此,居民消费价格指数为生产者进行生产决策的重要信号和依据。⑤电信业务总量与第三产业增加值互为Granger因果关系,反映了信息沟通与第三产业产出之间的内在联系,同时,从国民经济的核算过程来看,电信业务总量是第三产业增加值的构成部分之一。

鉴于上述原因,我们选择了社会商品零售总额、货物运输量、居民消费价格指数和电信业务总量作为第三产业产出增加值的预测变量,经计算并剔除在统计上均不显著的交通运输业各变量,我们得到了如下模拟模型:

表4-12 第三产业增加值模拟模型

计算结果表明,该模型符合前面的理论预设,各变量均具有预期的符号,并且均在1%的显著性水平上具有统计上的显著性,各系数值的大小基本反映了变量间的相互作用关系,具有实际上的或经济上的显著性;调整过R2为0.998,说明模型解释了第三产业增加值变差的99.8%;DW统计量为1.458,Breusch-Godfrey序列相关LM的检验结果为:F-统计量和观测样本R2分别为0.891和2.208,相应的收尾概率分别为0.426和0.332,表明不存在序列相关,即模拟误差为随机的。

模拟误差的均方根rms error = 0.041204,绝对值误差均值为0.030314,绝对值百分比误差均值为0.440072,Theil不等系数(U)为0.002681,偏差比率(UM)为0.000000,方差比率(US)为0.000444,协方差比率(UC)为0.999556。由于方差比率相对较小,协方差比率相对较大,根据最理想的模拟与预测模型的条件,可知表4-12所显示的模型应具有较为优良的模拟与预测能力,从理论上说,该模型具有较高的模拟与预测效度(validity)。

为了实际考察和比较由表4-12给出的模型的模拟与预测优度,检验典型省第三产业增加值增长率的可信度,表4-13给出了根据表4-12的模型计算的第三产业增加值的模拟值、模拟值与实际值的相对误差,并给出了各年第三产业增加值数据的95%置信区间以及第三产业增加值的增长率。计算结果表现出如下特征:

(1)表4-13中数据表明,由表模型计算出的第三产业增加值对数的统计值与第三产业增加值对数的模拟值之间的相对误差,超过0.5%的有7个年份,分别发生在1978年(1.542%)、1980年(-1.285%)、1981年(-1.933%)、1982年(0.566%)、1983年(0.973%)、1987年(0.580%)和1990年(-0.504%);相对误差在0.1%~0.5%之间的有15个年份,其余年份的相对误差均在0.1%以下。相对误差为负的有15个年份,为正的有12个年份。1990年以后,第三产业增加值统计值大于模拟值的有1997年(0.268%)、1998年(0.320%)、2000年(0.134%)、2001年(0.202%)和2002年(0.097%);统计值小于模拟值较为明显的有1990年(-0.504%)、1992年(-0.300%)和2003年(-0.324%)。虽然相对于第二产业增加值的模型来说,该模型显现出的相对误差要大一些,2倍标准误差相对宽一些,因此,该模型给出的第三产业增加值的95%置信区间,不如第二产业增加值模型的效率,但该模型对于1990年以后情况的模拟效率要高一些,相对误差的绝对值除1990年在0.5%以上之外,其他年份相对误差的绝对值均在0.5%以下(见表4-13及图4-7)。

图4-7 第三产业增加值的统计值与模拟值的相对误差

(2)第三产业增加值的统计增长率与模拟增长率之间的绝对误差,总的来说,仍然较大(见表4-13及图4-8)。绝对误差超过3个百分点的有14个年份;误差在2~3个百分点之间的有1个年份;误差在1~2个百分点的和误差小于1个百分点的分别只有6个年份和5个年份。误差为正的有12个年份,误差为负的有14个年份。误差较大的年份有1979年(-12.74个百分点)、1980年(-6.74个百分点)、1981年(-4.80个百分点)、1982年(18.58个百分点)、1983年(3.48个百分点)、1984年(-3.80个百分点)、1986年(-5.08个百分点)、1987年(7.04个百分点)、1988年(-7.85个百分点)、1989年(5.40个百分点)、1990年(-6.64个百分点)、1991年(3.11个百分点)、1997年(3.25个百分点)和1999年(-3.37个百分点)。统计增长率与模拟增长率的绝对误差虽然较大,但大部分都发生在1990年以前,1990年以后,误差较大的只有4个年份,占28%。总的来说,模型对1990年以后的增长率模拟得相当不错。

表4-13 第三产业增加值模拟相对误差、95%置信区间、模拟增长率及绝对误差

图4-8 第三产业增加值统计增长率与模拟增长率(%)

(3)第三产业增加值统计增长率与模拟增长率的波动样式(pattern),以1990年为分界线,前后两个时期出现较为明显的差别。第三产业增加值的统计增长率与模拟增长率之间绝对误差的标准差,1979~1989年为8.74,1990~2004年为2.61,显然,这两个阶段误差的标准差具有明显的差异。出现这种差异的原因,可能与市场经济的发育程度相关,市场发育得越完善,模型中各解释变量与第三产业增加值可能更具有相关性。再一种解释是,由于1990年以前的第三产业增加值为推算数据,个别年份很有可能存在低估或高估。1979~1989年间,第三产业增加值统计增长率小于模拟增长率的有7个年份,而高于模拟增长率的有4个年份,但平均统计增长率为13.99%,平均模拟增长率为14.66%。因此,高估与低估相互抵消,对平均增长率的影响并不是很大。

(4)1990年以后,统计增长率与模拟增长率出现较大差异的是1990年、1997年和1999年,特别是1997年和1999年,这两年的局部峰点与谷点正好相反。1997年正值东南亚经济危机爆发,国内经济面临有效需求不足,经济增长整体下滑时期。同时,根据前面的协整与因果关系检验结果来看,第三产业增加值统计增长率1997年的峰值有待进一步解释和说明。模拟增长率1999年的局部峰点,与第一产业、第二产业增加值以及GDP的增长率轨迹具有一致性,同时也是国内扩大内需政策发生效果、国内经济摆脱东南亚经济危机影响因而出现转折的时期,由于这只是一个局部的峰点,因而模拟值有其一定的合理性。

4.基于分产业模拟增长率计算的GDP增长率

对各产业增加值的模拟虽然同样具有意义,但最终目的是为了模拟和估计GDP增长率。为了根据三次产业模拟的增加值及其增长率计算GDP增长率,我们主要按如下三种方式计算:

方式一:

(1)依据前面模拟三次产业增加值指数的回归方程,以1952年相应产业增加值为100,计算各产业各年总的增加值,并将三次产业的增加值相加作为当年GDP估计值。

(2)将上一年各产业增加值占GDP的比重为权数(weight),分别乘以本年各产业增加值的增长率并求和,作为本年GDP增长率的估计值。从理论上说,各次产业增加值越接近真实值,这种方式计算的GDP增长率越接近真实的增长率。

方式二:

将三次产业增加值增长率的算术平均值作为GDP增长率的估计值。由于各次产业增加值在GDP构成中各不相同,而且随着经济的发展,各次产业增加值在GDP中所占的比重在不断变化。从理论上说,经济结构差别越大,按算术平均方式计算出的GDP增长率越应该偏离真实的增长率,而且,只要不是各次产业增加值在GDP中的比重均匀分布,按这种方式计算的GDP增长率,就应该系统地低于真实增长率。

方式三:

将估计出来的三次产业增加值直接相加得到按1952年基数计算的各年的GDP,再以上一年为100,计算出GDP的增长率。从理论上,按这一方式计算的GDP增长率应该与第一种方式计算的增长率完全相同。

以上三种方式计算的结果总结于表4-14中。

表4-14的计算结果,显现出如下几个特征:

(1)根据方式一,即三次产业增加值增长率的加权平均值与按方式三,即各产业增加值之和的比,计算的GDP增长率完全相同。这表明,如果数据没有被“污染”,那么,按这两种方式核算的GDP增长率应该是相同的。这一事实与理论预期的完全相同。

(2)各产业增加值增长率的算术平均值低于按方式一计算的GDP增长率。这与理论上的GDP统计方法完全一致,即如果数据是准确的,那么,按各产业增加值增长率的算术平均值计算的GDP增长率,必然系统地低估GDP的真实增长率。然而,它并没有系统地低于GDP统计增长率。这一现象只能有两种解释方式:一是GDP统计增长率低估了真实增长率;二是各产业增加值的增长率被系统地高估了。由于一般来说,前者的可能性不大,因此,出现各产业增加值增长率的算术平均值没有系统地低于统计增长率的原因,只能是后者了。

(3)GDP统计增长率高于按第二种方式估计的增长率,但低于按方式一估计的增长率。从年平均增长速度来看,统计增长率每年高于按三次产业增加值增长率算术平均值计算的增长率0.68个百分点,每年低于按第一种方式计算的增长率1.19个百分点。统计增长率与后者的差距明显大于前者,这从理论上说是矛盾的,因为数据越准确,按各产业增加值增长率的加权平均方式计算的GDP增长率,应该越接近于真实增长率。由于按加权方式计算的GDP增长率系统地高于GDP的统计增长率,这说明,要么统计增长率被系统地低估,要么各产业增加值增长率被系统地高估。由于前者一般不可能,所以差别主要来自后者。

表4-14 以1952年为基数计算的各产业增加值及三种方式计算的GDP增长率(%)

(4)将表4-14的计算结果与前面依据能源消费、自回归移动平均模型和按非GDP核算数据模型估计的GDP增长率相比较,可以看出,依据能源消费、自回归移动平均模型以及按非GDP核算数据模型估计的GDP增长率,与统计增长率比较,波动幅度都更为剧烈一些,这种比较强的波动样式与按第一种方式估计的GDP增长率更相近。这说明,统计增长率数据受到了“污染”,经过了人为的“加工”(见图4-9)。

图4-9 不同方式计算的GDP增长率

(5)依据能源消费、自回归移动平均模型以及按非GDP核算数据模型估计的GDP增长率与统计增长率的差别并不是十分显著。从理论上说,模拟出的GDP应该是观测到的GDP的均值,而在我们的模拟结果中,各种模型的模拟结果都显现出共同样式:即统计增长率为模拟增长率的均值。这一现象与GDP数据的随机性显然存在矛盾。此外,基于非GDP核算变量模拟的各产业增加值增长率的加权平均值估算的GDP增长率,明显高于按其他方式估计的增长率和统计增长率。从理论上说,各产业增加值增长率的加权平均,理应与GDP增长率相同,同时,表4-14中第一种方式和第三种方式估计的GDP增长率完全相同这一事实,也证实了这一点。因此,唯一能够解释这种矛盾和差别的,是数据受到了“污染”,从而使数据之间的关系偏离了数据之间固有的内在关系(见图4-9)。

(6)如果按照通常关于GDP增长率核算存在虚假问题的理解,那么,各年的GDP统计增长率与实际增长率相比,只能高估,不能低估,因此,如果将各种模型中模拟的GDP增长率高于统计增长率的值进行修正,将模拟增长率高于统计增长率的值用统计值来代替,而模型中模拟增长率低于统计增长率的保持不变,则可以得到一组全新的GDP增长率数据。假如以非GDP核算变量为解释变量的模型为基础进行修正,那么修正后的GDP增长率的年平均增长率从1980~2004年为10.99,仅与统计增长率的年平均增长率相差1.14个百分点(见图4-9),同时仍高于按第二种方式计算的GDP增长率。最重要的是修正后的GDP增长率数据的波动样式更符合各次产业增加值增长率加权平均值的波动样式,可能比统计增长率更接近真实的增长。

第四节 结 论

本书利用计量工具考察了典型省GDP、第一产业、第二产业以及第三产业增加值,与电信业务类变量、交通运输类变量、储蓄存款类变量、社会商品零售额、居民消费价格指数等非GDP核算变量之间的协整关系与因果关系,并以这些非GDP核算变量为解释变量,构建了计量经济学模型。实证研究结果表明:

(1)典型省GDP、第一产业、第二产业以及第三产业增加值,与电信业务类变量、交通运输类变量、储蓄存款类变量、社会商品零售额、居民消费价格指数等非GDP核算变量之间是协整的,而且存在多个协整关系;同时,三次产业之间存在协整关系。三次产业间这种协整关系表明,经济发展是一个平衡推进的过程,各产业间存在彼此相互作用的关系,抑制某个产业的发展将严重影响其他产业的发展,进而会影响经济的整体发展。其中,第三产业对其他两个产业的产出弹性最大,这一事实表明,营造第三产业发展的良好环境,促进第三产业的发展,对于促进经济的整体发展具有事半功倍的效果。

(2)典型省GDP、第一产业、第二产业以及第三产业增加值,与电信业务类变量、交通运输类变量、社会商品零售额、居民消费价格指数等非GDP核算变量之间存在单向或双向Granger因果关系,而与储蓄存款类变量不存在因果关系。特别是交通与通信类变量,与GDP、第一产业、第二产业以及第三产业增加值之间存在显著的双向因果关系。这表明了交通与通信在经济发展中的基础性作用。

(3)以非GDP核算变量为解释变量的模型,比较好地模拟了GDP数据。该模型解释了GDP变差的99.9%,各变量均在1%显著性水平上显著,残差序列不存在序列相关。该模型模拟误差的均方根为rms error =0.021397,绝对值误差均值为0.016880,绝对值百分比误差均值为0.23626,Theil不等系数(U)为0.001409,偏差比率(UM)为0.000000,方差比率(US)为0.000144,协方差比率(UC)为0.999856。由于方差比率相对较小,协方差比率相对较大,因此,该模型具有较为优良的模拟与预测GDP的能力。依该模型模拟的GDP计算的GDP增长率的年平均值为12.04(1979~2004年),与相应期间的统计增长率的年平均值11.92,只相差0.12个百分点。这表明,以非GDP变量作为解释变量的GDP模型,显现不出GDP自身的真实性问题。

(4)以非GDP变量作为解释变量,模拟各产业增加值,再依据各产业增加值计算出各产业增加值的增长率,最后,求出各产业增加值增长率加权之和,得到GDP增长率。此方法得到的GDP增长率,明显高于统计增长率和按能源消费模型、ARMA模型以及非GDP核算变量模型计算的GDP增长率。这表明,各次产业增加值数据与GDP之间应有的内在关系被破坏了,说明GDP数据和各产业数据受到了人为的“污染”,因而失去数据间应有的内在关系。

(5)各种模型模拟的GDP序列具有较强的波动性,而且波动样式基本相同,而GDP统计增长率则更为平稳,表明GDP统计增长率存在着经过人为“加工”处理的可能性。

(6)各次产业增加值增长率的算术平均值,与加权平均值以及依其他模型模拟的GDP计算的GDP增长率,具有非常相似的波动样式,而且并没有系统地低于统计增长率,这与GDP增长率的核算理论相矛盾,表明GDP增长率与各产业增加值增长率受到了扭曲性加工。

参考文献

1. Ch aremza,W.W. and Readman,D.F.(1997)New Directions in Econometric Practice: General to Specific Modelling,Cointegration and Vector Autoregression,2ndedn.,Cheltenham: Edward Elgar.

2. Dickey,D.A.,Jansen,D.W. and Thornton,D.L.(1994)‘A primer on cointegration with an application to money and income’,in B.B.Rao(ed.),Cointegration for the Applied Economist,New York: St. Martin’s Press.

3. Enders,W.(1995)Applied Econometric Time Series,New York: John Wiley.

4. Engle,R.,Granger,C.,1987. Cointegration and error correction: representation,estimation,and testing. Econometrica 55,257-276.

5. Johansen,S.,1988. Statistical analysis of cointegration vectors. Journal of Economic Dynamics and Control 12,231-254.

【注释】

[1]本书所有计算都使用Eviews 3.1软件包完成。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈