首页 理论教育 理论基础:严平稳过程、差分及随机游走

理论基础:严平稳过程、差分及随机游走

时间:2023-07-07 理论教育 版权反馈
【摘要】:,n都有公式15-1成立,其中F(·)表示n个随机变量的联合分布函数,则称其为严平稳过程或强平稳过程。二次一阶差分表示为,k阶差分可表示为k阶差分常用于季节性数据的差分,如4阶差分、12阶差分。图15-1由白噪声过程产生的时间序列白噪声是平稳的随机过程,因其均值为零,方差不变,随机变量之间非相关。图15-2由随机游走过程产生时间序列“随机游走”一词首次出现于1905年自然杂志第72卷Pearson K.和Ra

理论基础:严平稳过程、差分及随机游走

时间序列分析方法由Box与Jenkins于1976年提出。它适用于各种领域的时间序列分析。

时间序列模型不同于经济计量模型的两个特点是:

(1)这种建模方法不以经济理论为依据,而是依据变量自身的变化规律,利用外推机制描述时间序列的变化。

(2)明确考虑时间序列的非平稳性。如果时间序列非平稳,建立模型之前应先通过差分把它变换成平稳的时间序列,再考虑建模问题。

时间序列模型的应用:

(1)研究时间序列本身的变化规律(何种结构,建立模型,有无确定性趋势,有无单位根,有无季节性成分)。

(2)在回归模型的预测中首先预测解释变量的值。

(3)非经典经济计量学是回归模型知识与时间序列模型知识的结合。

1.随机过程、时间序列定义

自然界中事物变化的过程可以分成两类。一类是确定型过程,一类是非确定型过程。确定型过程可以理解为确定性事件,即给定变量值,可以描述出相应的数值,可以用关于时间t的函数描述的过程。例如,真空中的自由落体运动过程,电容器通过电阻的放电过程,行星的运动过程等。非确定型过程,即在事件发生前不确定哪一个结果会发生,只能给出状态空间,但是不能用一个(或几个)关于时间t的确定性函数描述的过程。

随机过程:由随机变量组成的一个有序序列称为随机过程,记为{x(s,t),s∈S,t∈T}。其中S表示样本空间,T表示序数集。对于每一个t,t∈T,x(·,t)是样本空间S中的一个随机变量。对于每一个s,s∈S,x(s,·)是随机过程在序数集T中的一次实现。随机过程简记为{xt}或xt。随机过程也常简称为过程。

随机过程一般分为两类。一类是离散型的,一类是连续型的。如果一个随机过程{xt}对任意的t∈T都是一个连续型随机变量,则称此随机过程为连续型随机过程。如果一个随机过程{xt}对任意的t∈T都是一个离散型随机变量,则称此随机过程为离散型随机过程。本书只考虑离散型随机过程。

严(强)平稳过程:一个随机过程中若随机变量的任意子集的联合分布函数与时间无关,即无论对T的任何时间子集(t1,t2,…,tn)以及任何实数k,(ti+k )∈T ,i=1,2,…,n都有公式15-1成立,其中F(·)表示n个随机变量的联合分布函数,则称其为严平稳过程或强平稳过程。

严平稳意味着随机过程所有存在的矩都不随时间的变化而变化。严平稳的条件是非常严格的,而且对于一个随机过程,上述联合分布函数不便于分析和使用。因此希望给出不象强平稳那样严格的条件。若放松条件,则可以只要求分布的主要参数相同。如只要求从一阶到某阶的矩函数相同。这就引出了宽平稳概念。

如果一个随机过程m阶矩以下的矩的取值全部与时间无关,则称该过程为m阶平稳过程。比如

其中μ,σ2为常数,不随t(t∈T);k [(tr +k )∈T ,r =i ,j ]变化而变化,则称该随机过程{xt}为二阶平稳过程(协方差平稳过程)。该过程属于宽平稳过程。

如果严平稳过程的二阶矩为有限常数值,则其一定是宽平稳过程。反之,一个宽平稳过程不一定是严平稳过程。但对于正态随机过程而言,严平稳与宽平稳是一致的。这是因为正态随机过程的联合分布函数完全由均值、方差和协方差所惟一确定。本书简称二阶平稳过程为平稳过程。

时间序列:随机过程的一次实现称为时间序列,也用{xt}或xt表示。

与随机过程相对应,时间序列分类如下,

时间序列中的元素称为观测值。{xt}既表示随机过程,也表示时间序列。xt既表示随机过程的元素随即变量,也表示时间序列的元素观测值。在不致引起混淆的情况下,为方便,xt也直接表示随机过程和时间序列。

随机过程与时间序列的关系如下所示:

某河流一年的水位值,{x1,x2,…,xt-1,xt},可以看作一个随机过程。每一年的水位纪录则是一个时间序列,。而在每年中同一时刻(如t=2时)的水位纪录是不相同的。构成了x2取值的样本空间。

例如,要记录某市日电力消耗量,则每日的电力消耗量就是一个随机变量,于是得到一个日电力消耗量关于天数t的函数。而这些以年为单位的函数族构成了一个随机过程{xt},t=1,2,…,365。因为时间以天为单位,是离散的,所以这个随机过程是离散型随机过程。而一年的日电力消耗量的实际观测值序列就是一个时间序列。

自然科学领域中的许多时间序列常常是平稳的。如工业生产中对液面、压力、温度的控制过程,某地的气温变化过程,某地100年的水文资料,单位时间内路口通过的车辆数过程等。但经济领域中多数宏观经济时间序列却都是非平稳的。如一个国家的年GDP序列,年投资序列,年进出口序列等。

为便于计算,先给出差分、差分算子、滞后算子定义。

差分:时间序列变量的本期值与其滞后值相减的运算叫差分。差分分为一阶差分和高阶差分。

首先给出差分符号。对于时间序列xt,一阶差分可表示为

式中:Δ称为一阶差分算子(也用D表示)。L称为滞后算子(也用B表示),其定义是

差分算子和滞后算子可以直接参与运算。

二次一阶差分表示为,

k阶差分可表示为

k阶差分常用于季节性数据的差分,如4阶差分、12阶差分。

滞后算子有如下性质。

(1)常数与滞后算子相乘等于常数。

(2)滞后算子适用于分配率。

(3)滞后算子适用于结合率。

(4)滞后算子的零次方等于1。

(5)滞后算子的负整数次方意味着超前。

下面介绍两种基本的随机过程

(1)白噪声(white noise)过程。

白噪声过程:对于随机过程{xt,t∈T},如果E (xt)=0,var(xt)=σ2<∞,t∈T,cov(xt,xt+k)=0,(t+k)∈T,k≠0,则称{xt}为白噪声过程。

图15-1 由白噪声过程产生的时间序列

白噪声是平稳的随机过程,因其均值为零,方差不变,随机变量之间非相关。显然上述白噪声是二阶宽平稳随机过程。如果{xt}同时还服从正态分布,则它就是一个强平稳的随机过程。

(2)随机游走(random walk)过程。

对于下面的表达式

如果ut为白噪声过程,则称xt为随机游走(随机游动、随机漫游)过程。

图15-2 由随机游走过程产生时间序列

“随机游走”一词首次出现于1905年自然(Nature)杂志第72卷Pearson K.和Rayleigh L.的一篇通信中。该信件的题目是“随机游走问题”。文中探讨的是寻找一个被放在野地中央的醉汉的最佳策略是从投放点开始搜索

随机游走过程的均值为零,方差为无限大。

所以随机游走过程是非平稳的随机过程。

2.2时间序列模型

(1)自回归过程。

如果一个剔出均值和确定性成分的线性过程可表达为

其中φi,i=1,…,p是自回归参数,ut是白噪声过程,则称xt为p阶自回归过程,用AR(p)表示。xt是由它的p个滞后变量的加权和以及ut相加而成。

若用滞后算子表示:

式中,Φ(L)被称为特征多项式或自回归算子,公式如下:

(2)移动平均过程。

如果一个剔出均值和确定性成分的线性随机过程可用下式表达:

其中θ1,θ2,…,θq是移动平均参数,ut为白噪声过程,则上式称为q阶移动平均过程,记为MA(q)。之所以称“移动平均”,是因为xt是由q+1个ut和ut滞后项的加权和构造而成。“移动”指t的变化,“平均”指加权和。

由定义知任何一个q阶移动平均过程都是由q+1个白噪声变量的加权和组成,所以任何一个移动平均过程都是平稳的。

自回归与移动平均过程的关系如下。

①一个平稳的AR(p)过程

可以转换为一个无限阶的移动平均过程,

②一个可逆的MA(q)过程

可转换成一个无限阶的自回归过程:

③对于AR(p)过程只需考虑平稳性问题,条件是Φ(L)=0的根(绝对值)必须大于1。不必考虑可逆性问题。

④对于有限阶MA(q)过程,只需考虑可逆性问题,条件是Θ(L)=0的根(绝对值)必须大于1,不必考虑平稳性问题。

(3)自回归移动平均过程。

由自回归和移动平均两部分共同构成的随机过程称为自回归移动平均过程,记为ARMA(p,q),其中p,q分别表示自回归和移动平均部分的最大阶数。

ARMA(p,q)过程的平稳性只依赖于其自回归部分,即Φ(L)=0的全部根取值在单位圆之外(绝对值大于1)。其可逆性则只依赖于移动平均部分,即Θ(L)=0的根取值应在单位圆之外。

(4)单整自回归移动平均过程。(www.xing528.com)

以上介绍了三种平稳的随机过程。对于ARMA过程(包括AR过程),如果特征方程Φ(L)=0的全部根取值在单位圆之外,则该过程是平稳的;如果若干个或全部根取值在单位圆之内,

则该过程是强非平稳的。例如:

(特征方程的根=1/1.3=0.77)上式两侧同减xt-1

仍然非平稳。除此之外还有第三种情形,即特征方程的若干根取值恰好在单位圆上。这种根称为单位根,这种过程也是非平稳的。下面介绍这种重要的非平稳随机过程。

假设一个随机过程含有d个单位根,其经过d次差分之后可以变换为一个平稳的自回归移动平均过程。则该随机过程称为单整自回归移动平均过程。

傅克斯与詹金斯积数十年理论与实践的研究指出,时间序列的非平稳性是多种多样的,然而幸运的是经济时间序列常常具有这种特殊的线性齐次非平稳特性(即参数是线性的,xt及其滞后项都是一次幂的)。对于一个非季节性经济时间序列常常可以用含有一个或多个单位根的随机过程模型描述。

考虑如下模型:

式中:Φ(L)是一个平稳的自回归算子。即Φ(z)=0的根都大于1。Θ(L)表示可逆的移动平均算子。若取

则上式可表示为

说明yt经过d次差分之后,可用一个平稳的、可逆的ARMA过程xt表示。

随机过程yt经过d次差分之后可变换为一个以Φ(L)为p阶自回归算子,Θ(L)为q阶移动平均算子的平稳、可逆的随机过程,则称yt为(p,d,q)阶单整(单积)自回归移动平均过程,记为ARIMA(p,d,q)。这种取名的目的是与以后各章中的称谓相一致。ARIMA过程也称为综合自回归移动平均过程。其中Φ(L)Δd称为广义自回归算子。

3.时间序列模型的建立与预测

一般来说,时间序列模型的建立和预测分为以下几步,首先利用相关图和偏相关图识别模型形式(确定d,p,q);然后对初步选取的模型进行参数估计;最后进行包含参数的显著性检验和残差的随机性检验。通过检验结果,判断模型是否可取,如果可取则输出结果,如果不可取则从第一步开始,重新建立模型。

ARIMA过程yt用表示,其中Φ(L)和Θ(L)分别是p,q阶的以L为变数的多项式,它们的根都在单位圆之外。α为Δdyt过程的漂移项,Δdyt表示对yt进行d次差分之后可以表达为一个平稳的可逆的ARMA过程。这是随机过程的一般表达式。它既包括了AR,MA和ARMA过程,也包括了单整的AR,MA和ARMA过程。

模型的识别就是通过对相关图的分析,初步确定适合于给定样本的ARIMA模型形式,即确定d,p,q的取值。

模型参数的估计是待初步确定模型形式后对模型参数进行估计。样本容量应该在50以上。

诊断与检验就是以样本为基础检验拟合的模型,以求发现某些不妥之处。如果模型的某些参数估计值不能通过显著性检验,或者残差序列不能近似为一个白噪声过程,应返回第一步再次对模型进行识别。如果上述两个问题都不存在,就可接受所建立的模型。下面对建摸过程做详细论述。

(1)模型的识别。

模型的识别主要依赖于对相关图与偏相关图的分析。在对经济时间序列进行分析之前,首先应对样本数据取对数,目的是消除数据中可能存在的异方差,然后分析其相关图。

识别的第1步是判断随机过程是否平稳。如果一个随机过程是平稳的,其特征方程的根都应在单位圆之外;如果Φ(L)=0的根接近单位圆,自相关函数将衰减的很慢。所以在分析相关图时,如果发现其衰减很慢,即可认为该时间序列是非平稳的。这时应对该时间序列进行差分,同时分析差分序列的相关图以判断差分序列的平稳性,直至得到一个平稳的序列。对于经济时间序列,差分次数,即模型中的参数d通常只取0,1或2。

实际中也要防止过度差分。一般来说平稳序列差分得到的仍然是平稳序列,但当差分次数过多时存在两个缺点,(1)序列的样本容量减小;(2)方差变大;所以建模过程中要防止差分过度。对于一个序列,差分后若数据的极差变大,说明差分过度。

第2步是在平稳时间序列基础上识别ARMA模型阶数p,q。下图给出了不同ARMA模型的自相关函数和偏自相关函数。当然一个过程的自相关函数和偏自相关函数通常是未知的。用样本得到的只是估计的自相关函数和偏自相关函数,即相关图和偏相关图。建立ARMA模型,时间序列的相关图与偏相关图可为识别模型参数p,q提供信息。相关图和偏相关图(估计的自相关系数和偏自相关系数)通常比真实的自相关系数和偏自相关系数的方差要大,并表现为更高的自相关。实际中相关图,偏相关图的特征不会像自相关函数与偏自相关函数那样“规范”,所以应该善于从相关图,偏相关图中识别出模型的真实参数p,q。另外,估计的模型形式不是唯一的,所以在模型识别阶段应多选择几种模型形式,以供进一步选择。

图15-3 ARIMA过程与其自相关函数偏自相关函数特征

(2)模型参数的估计。

对于时间序列模型,一般采用极大似然法估计参数。对于一组相互独立的随机变量xt,(t=1,2,…,T),当得到一个样本(x1,x2,…,xT)时,似然函数可表示为

式中:γ=(γ1,γ2,…,γk)是一组未知参数。对数似然函数是

通过选择γ使上式达到最大,从而求得极大似然估计值γ。具体步骤是用上述对数似然函数对每个未知参数求偏导数并令其为零,即

一般来说似然函数是非线性的,必须采用迭代计算的方法求参数的极大似然估计值。极大似然估计量(MLE)具有一致性和渐近有效性。

现在讨论怎样对时间序列模型的参数进行极大似然估计。

对于非平稳过程yt,假定经过d次差分之后可以表达为一个平稳、可逆的自回归移动平均过程xt

对于yt假定可以观测到T+d个观测值,即y-d+1,…,y0,y1,…,yt,则经过d次差分之后,xt的样本容量为T。以{x1,…,xt}为样本估计ARMA(p,q)模型参数(φ1,…,φp,θ1,…,θq) 。对随机过程{xt}的参数估计就如对回归模型的参数估计一样,目的是使xt与其拟合值的残差平方和最小。把上式改写为

若用分别表示对φi,和ut的估计,则使下式最小。

假定,t=1,…,T,且不存在自相关,则条件对数似然函数为

之所以称之为条件对数似然函数是因为依赖于过去的不可知观测值x0,x-1,…,x-q+1和u0,u-1,…,u-q+1。比如:

对上式求极大即等同于对求极小。对求极小时需要先确定x0,x-1,…,x-q+1和u0,u-1,…,u-q+1的值。此问题的一般处理方法是取这些变量等于他们的无条件期望值。u0,u-1,…,u-q+1的无条件期望值为零。若模型中不含有漂移项,则x0,x-1,…,x-q+1的无条件期望值也为零。当样本容量T与滞后长度p,q值相比充分大,且φ1,…,φp的值不接近1时,这种近似非常理想。

若上式中不含有移动平均项,对于自回归参数来说是一个线性函数。可以用OLS法估计参数。如果式中含有移动平均项,那么对于移动平均参数来说,上式是一个非线性函数,必须采用非线性估计方法。

首先假定模型为纯自回归形式:

或者

这是一个线性回归模型,极大似然估计与OLS估计结果近似相同。

当模型中含有移动平均成分时:

对于参数来说,模型是非线性的。对于非线性模型,通常由三种估计方法。

①接搜索法。

通过改变参数的取值,反复计算残差平方和值。然后从中选择最小的那个值所对应的参数值作为对参数的估计值。这种方法只有在参数个数较少时才是可行的。当参数个数较多时,计算量将非常大。例如当含有四个被估参数,每个参数需选择20个计算值时,则需要计算204=160 000次。

②直接优化法。

求误差平方和函数对每一个参数的偏导数并令其为零,从而求得正规方程:

式中:(γ1,…,γp+q)=(φ1,…,φp,θ1,…θq)。因为p+q个方程中都含有p+q个参数,所以必须联立求解。由于计算上的困难,这种方法很少直接采用。

(3)诊断与检验。

完成模型的识别与参数估计后,应对估计结果进行诊断与检验,以求发现所选用的模型是否合适。若不合适,应该知道下一步作何种修改。

估计的模型是否成立应该从3个方面检查。①模型参数估计量必须通过t检验;②模型的全部特征根(包括自回归、移动平均两部分)的倒数都必须在单位圆以内(即模型具有平稳性和可逆性);③模型的残差序列必须通过Q检验(Box和Pierce于1970年提出)。同时也要尽量做到④模型结构应当尽量简练;⑤参数稳定性要好;⑥预测精度要高。

Q检验的零假设是

即模型误差项的K阶自相关系数全为零,误差项是一个白噪声过程。Q统计量定义为

近似服从χ2(K -p -q)分布,其中T表示样本容量,rk表示用残差序列计算的自相关系数值,K表示自相关系数的个数,p表示模型自回归部分的最大滞后值,q表示移动平均部分的最大滞后值。

Ljung和Box认为(2.70)式定义的Q统计量的分布与χ2(K -p -q)分布存在差异(相应值偏小),于是提出修正的Q统计量。

修正的Q统计量近似服从χ2(K -p -q)分布。且它的近似性比原Q统计量的近似性更好。

对于固定的k值,当T→∞时,(T+2)/ (T -k )→1,也就是说,当样本容量无限大时,两个公式是一样的。当样本容量越小时,固定k值条件下,因子(T+2)/(T-k)越大于1。当k值越大时,因子(T+2)/(T-k)的值相对越大。可见,当样本容量越小,k值越大时,用后者计算的Q值越不容易通过平稳性检验。

用残差序列计算Q统计量的值。显然若残差序列不是白噪声,残差序列中必含有其他成份,自相关系数不等于零。则Q值将很大,反之Q值将很小。判别规则是

其中α表示检验水平。

(4)时间序列模型预测。

下面先以ARMA(1,1)模型为例具体介绍点预测方法。其他形式时间序列模型的预测方法与此类似。

设对时间序列样本{xt},t=1,2,…,T,所拟合的模型是

则理论上T+1期xt的值应按下式计算:

用估计的参数分别代替上式中的φ1,θ1和uT+1。上式中的uT+1是未知的,但知E(uT+1)=0,所以取uT+1=0。xT是已知的(样本值)。对xT+1的预测按下式进行:

由上述公式,理论上xT+2的预测式是

仍取uT+1=0,uT+2=0,则xT+2的实际预测式是

式中:是上一步得到的预测值,与此类推,xT+3的预测式为

由上可见,随着预测期的加长,预测式中移动平均项逐步淡出预测模型,预测式变成了纯自回归形式。

对于AR(p)过程,预测式永远是AR(p)形式的,对于MA(q)过程,当预测期超过q时,预测值等于零。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈