
第二十二章-常用统计预测方法(3)—ARIMA.ppt
45页第三节 ARIMA预测方法陈 炳 为2021/6/312021/6/32 传统的时间序列分析的应用, 主要是确定性的时间序列分析方法, 包括指数平滑法、滑动平均法、时间序列的分解等等, 这些方法的应用有一个前提条件: 时间序列的随机性部分相对来说并不显著事实上, 这一条件在大多数情况下都是不成立的因为, 随着社会的发展, 许多不确定性因素的影响越来越大, 必须引起人们的重视2021/6/33 1970 年, Box 和Jenkins 提出了以随机理论为基础的时间序列分析方法, 使时间序列分析理论上升到一个新的高度, 预测的精确度大大提高其基本模型有三种: 自回归(AR) 模型; 滑动平均(MA) 模型 自回归滑动平均(AR IMA) 模型2021/6/34 两个问题:(1)分析时间序列的随机性、平稳性和季节性;(2)在对时间序列分析的基础上,选择适当的模型进行预测 (AR(p),MA(q),ARIMA(p, d,q))2021/6/351 ARIMA预测数学模型§自回归滑动平均混合模型(autoregressive integrated moving average) ARIMA(p,d,q) 其中:p为自回归的阶数;d为差分阶数;q为滑动平均阶数。
2021/6/36ARIMA模型可分为:(1)自回归模型(AR),即ARIMA(p,0,0);(2)滑动平均模型(MA),即ARIMA(0,0,q);(3)自回归滑动平均混合模型(ARIMA(p,d,q))2021/6/37§ARIMA方法依据的基本思想: 将预测对象随时间推移而形成的时间序列视为一个随机序列,即除去个别偶然原因引起的观测值外,时间序列是一组依赖于时间t的随机变量 这组随机变量所具有的依存关系或自相关性表征了预测对象发展的延续性,而这种自相关性一旦被相应的数学模型描述出来,就可以从时间序列的过去及现在的值预测未来值2021/6/38运用ARIMA方法的前提条件: 作为预测对象的时间序列是一零均值的平稳时间序列 平稳随机序列的统计特性不随时间的推移而变化直观的看,平稳随机序列的折线图无明显的上升或下降趋势如图22-10)2021/6/39§对非零均值的非平稳的时间序列,若用ARIMA预测方法,需先对时间序列进行零均值化和差分平稳化处理.§零均值化:对均数不为零的序列每一项都减去该序列的平均数,构成一个均值为零的新的时间序列 如例22-2:可取2021/6/310§差分平稳化处理 (I) 对均值为零的非平稳时间序列进行差分,使之成为平稳时间序列。
一般情况下,非平稳序列经过一阶差分或二阶差分都可以平稳化如:有线性增长趋势的时间序列可用一阶差分;若为二次增长可用二阶差分2021/6/311例22-3 某医院从1990年1月-2001年12月的门诊量数据 (P336)门诊情况的序列图2021/6/312门诊、均零、一阶差分法的序列图2021/6/313门诊、一阶差分法、二阶差分的序列图2021/6/314具体计算:2021/6/315自回归模型(AR)经典统计中的回归模型:表示因变量对于自变量依赖(相关)关系等式右侧将随机变量 分解成两部分,一部分是自变量 它们代表某些已知的可变化因素;另一部分是残差量 ,它是由一些不可捉摸的因素及测量误差产生通常假定 为正态零均值独立序列2021/6/316 将经典统计回归模型推广,得到一类新的线性模型称为自回归模型可用来描述某些时间序列特别是当时间序列难于和其它因素建立联系时,用自回归模型建模更显重要Yt代表在t时的观察值,et代表误差或偏差,表示不能用模型说明的随机因素2021/6/317此模型和经典统计回归模型的本质区别:ü 在经典统计回归模型中 是已知的可变化因素。
自变量间的关系是相互独立的ü在自回归模型中 同属于一个序列,它们彼此之间不是独立的,而是有一定的相互依赖关系2021/6/318一阶自回归模型 上面 的模型称为p阶自回归模型当p=1时是一阶自回归模型 意义: Yt变量受Yt-1的影响2021/6/319例如:考虑一个阻尼单摆以Yt表示 t时刻的最大摆幅,由于阻尼的作用,Yt与Yt-1之间具有关系式:式中的 代表阻尼系数 表示第t个摆动周期中单摆还受到外加的力所额外加的摆幅2021/6/320滑动平均(MA)模型式中 是时间序列在 t时刻的观察值;q是滑动平均的阶数; 是时间序列模型在t时刻的误差或偏差在滑动平均的过程中,每一个值是由当前干扰以及前一个或多个干扰的均值决定的滑动平均的阶确定了有多少个前干扰被用于平均2021/6/321三、自回归滑动平均混合(ARIMA)模型将自回归模型和滑动平均模型组合,便构成自回归滑动平均混合(ARIMA)模型2021/6/322应用ARIMA方法预测分为三个阶段:1.模型的识别:利用自相关分析和偏相关分析等方法,分析时间序列的随机性、平稳性及季节性,并选定一个特定的模型以拟合所分析的时间序列。
2. 2021/6/3232 模型中参数的估计和模型的检验:用时间序列的数据,估计模型的参数,并进行检验,以判定该模型是否恰当3 预测应用:用选定的模型对将来某个时刻的数值作出预测2021/6/324ARIMA的计算步骤1、识别 必须确定三个整数p,d,q,另外还须确定是否具有周期性首先应从散点图判别时间序列是否平稳从上面差分之后的图可见: 进行一阶差分I(1)=ARIMA(1)之后,其随机性较好故d=1 I(2)=ARIMA(2) d通常取为0或1,一般不超过2 如图22-10 d=02021/6/325p的确定:AR(p)=ARIMA(p,0,0)其意义为在自回归序列中,每个值都是前一个值或多个值的线性组合AR(1)代表每个值对前值的依赖程序对于非周期的时间序列,P值的决定可取决于PACF若Lag滞后项开始急剧减小,则通常令p=Lag否则是拖尾的,其p=0如:图22-12,P=02021/6/326§q值的确定: 滑动平均MA(q),每一项是由当前干扰以及前或一个或前多个干扰的均值决定的 MA(q)= ARIMA(0,0,q)对于非周期的时间序列,q值的决定可取决于ACF。
若在Lag滞后项开始急剧减小,则通常令q=Lag否则是拖尾的,其q=0如:图22-12,由于在滞后1处显示了一个负的低谷,其后几个值与其相差较大故q=12021/6/3272、估计 给出模型后ARIMA(0,1,1),计算模型的参数,并获得 拟合值或预测值(FIT_1) 、残差(ERR_1)、其可信限(LCL_1,UCL_1)及标准误(SEP_1) 结果表22-7,模型中MA1=0.78105,表示序列中的每个值等于当前的随机干扰减去前一个随机干扰的0.78倍2021/6/3283 诊断可从两个方面考虑:(1)残差的ACF和PACF不应与0有显著的差异 ACF、PACF高阶相关相关可能偶尔会超过95%的可信区间,但如一或二阶很大,那么模型就是错误的2021/6/329§(2)残差应是随机的,即是白噪声(white noise)可用Box-Ljung Q统计量应在大约有1/4的滞后项中考察Q值(但滞后项不能多于50)Q统计量应没有统计学意义§(3)考察AIC和SBC 考虑多个模型,如AIC与SBC均小,说明这个模型较好AIC适用于自回归模型,SBC适用于更通用的模型。
2021/6/330(4)控制图的建立 可在同一个序列图中,作出其实测值、95%的可信限上、下界及预测值 图22-142021/6/331季节性ARIMA模型(seasonal ARIMA)2021/6/332ARIMA(0,1,1)12 代表12为周期1 季节性后移算子 B(backfit)代表时间序列后移一时间点考察B2代表往后移动两个单位对于周期为12的观察值,则为B12季节性ARIMA(0,0,1)12 Zt=(1-θB12)etARIMA(0,1,1)12 (1-B12)Zt=(1-θB12)et2021/6/3332 识别季节模型的一些问题 (1) 序列的长度要较长如至少应有7或8个季节周期的数据 (2)季节性与非季节性的混合 若ACF或PACF或两者在季节周期的整数倍时点处都显示了特别 值,说明存在季节过程 2021/6/334(1)ACF图和PACF图2021/6/3351次差分后的序列图2021/6/336(2)季节模型的识别1次差分存在问题(1) 仍存在季节性问题,仍有上升的趋势,可考虑用季节性差分。
2) 方差非齐,可考虑用对数变换2021/6/337季节性差分中 D=1 季节性差分可平滑急剧的季节波动左图为一次性季节差分后的序列图2021/6/338对数变换,1次季节性差分2021/6/339§在时点12时出现一个单一的低谷,故Q=1即考虑季节性模型为ARIMA(0,1,1) (3) 从残差中识别非季节性模型: 若季节性模型的识别是正确的,真实值与拟合值间的差异(即残差)就能显示模型中非季节性的部分2021/6/340残差的ACF与PACF图2021/6/341(1)ACF开始很大,然后衰减2)PACF也衰减,并且很快 ARIMA(1,0,1) 结果见P3692021/6/3425 模型的诊断 对残差序列的自相关函数和Box-Ljung统计量信其显著水平6 检验区间模型识别和参数估计及模型诊断的过程往往是一个模型逐渐完善的过程需要不断修正最初的选择 2021/6/343无季节性模型ACFPACFAR(P)拖尾Lag=p后急减MA(q)Lag=q后急减拖尾ARMA(p,q)拖尾拖尾张文彤
