第01章序列的统计量、检验和分布.ppt
43页第一章第一章 序列的统计量、检验和分布序列的统计量、检验和分布l EViews提供序列的各种统计图、统计方法及过程当用前述的方法向工作文件中读入数据后,就可以对这些数据进展统计分析和图表分析 EViews可以计算一个序列的各种统计量并可用表、图等形式将其表现出来视图包括最简单的曲线图,一直到核密度估计l1l 翻开工作文件,双击一个序列名,即进入序列的对话框单击“view可看到菜单分为四个区,第一部分为序列显示形式,第二和第三部分提供数据统计方法,第四部分是转换选项和标签 l21.1 1.1 描绘统计量描绘统计量 l 以直方图显示序列的频率分布直方图将序列的长度按等间距划分,显示观测值落入每一个区间的个数l 同直方图一起显示的还有一些标准的描绘统计量这些统计量都是由样本中的观测值计算出来的如图(例1.1): l3l例1.3中GDP增长率的统计量: l4l 均值均值 ( (mean)mean) 即序列的平均值,用序列数据的总和除以数据的个数 中位数中位数 (median) (median) 即从小到大排列的序列的中间值是对序列分布中心的一个粗略估计 最大最小值最大最小值 (max and min) (max and min) 序列中的最大最小值。
标准差标准差(Standard Deviation)(Standard Deviation) 标准差衡量序列的离散程度计算公式如下N 是样本中观测值的个数, 是样本均值 l5l l 偏度偏度SkewnessSkewness 衡量序列分布围绕其均值的衡量序列分布围绕其均值的非对称性计算公式如下非对称性计算公式如下 是变量方差的有偏估计假设序列的分布是对称的,S值为0;正的S值意味着序列分布有长的右拖尾,负的S值意味着序列分布有长的左拖尾例1.1中X的偏度为0,说明X的分布是对称的;而例1.3中GDP增长率的偏度是0.78,说明GDP增长率的分布是不对称的l6l l 峰度峰度KurtosisKurtosis 度量序列分布的凸起或平坦度量序列分布的凸起或平坦程度,计算公式如下程度,计算公式如下 分布的凸起程度大于 正态分布;假设K值小于3,序列分布相对于正态分布是平坦的例1.1中X的峰度为2.5,说明X的分布相对于正态分布是平坦的;而例1.3中GDP增长率的峰度为2.14 ,说明GDP增长率的分布相对于正态分布也是平坦的意义同S中 ,正态分布的 K 值为3假设 K 值大于3,l7l JarqueJarque- -BeraBera 检验检验 检验序列是否服从正态分布。
统计量计算公式如下 S为偏度,K为峰度,k是序列估计式中参数的个数 在正态分布的原假设下,J-B统计量是自由度为2的 2 分布 J-B统计量下显示的概率值P值是J-B统计量超出原假设下的观测值的概率假设该值很小,那么回绝原假设当然,在不同的显著性程度下的回绝域是不一样的例1.1中X的J-B统计量下显示的概率值P值是0.92,承受原假设, X 服从正态分布;而例1.3中GDP增长率的的J-B统计量的概率值P值是0.455 ,也承受原假设, 说明GDP增长率服从正态分布 l81.2 1.2 均值、中位数、方差的假设检验均值、中位数、方差的假设检验l 这部分是对序列均值、中位数、方差的假设检验在序列对象菜单项选择择View/tests for descriptive stats/simple hypothesis tests,就会出现下面的序列分布检验对话框: l91. 1. 均值检验均值检验 假设不指定序列 x 的标准差,EViews将在 t 统计量中使用该标准差的估计值 s 是 x 的样本估计值,N是x的观测值的个数在原假设下,假设x服从正态分布,t 统计量是自由度为N-1的t分布 l 原假设是序列 x 的期望值 m ,备选假设是 m ,即 l10l 假设给定x的标准差,EViews计算t 统计量: 是指定的x的标准差。
要进展均值检验,在Mean内输入 值假设标准差,想要计算t统计量,在右边的框内输入标准差值可以输入任何数或标准EViews表达式,下页我们给出检验的输出结果 l11 这是检验例1.7中GDP增长率的均值,检验H0:X=10%,H1:X10%表中的Probability值是P值边际显著程度在双边假设下,假设这个值小于检验的显著程度,如0.05那么回绝原假设这里我们不能回绝原假设l122. 2. 方差检验方差检验 l 检验的原假设为序列 x 的方差等于 2,备选假设为双边的,x 的方差不等于 2 ,即 EViews计算2统计量,计算公式如下 N为观测值的个数, 为x的样本均值在原假设下,假设x服从正态分布, 2 统计量是服从自由度为N-1的 2分布 要进展方差检验,在Variance处填入在原假设下的方差值可以填入任何正数或表达式 l133 3. . 中位数检验中位数检验 l 原假设为序列x的中位数等于m,备选假设为双边假设,x的中位数不等于m,即 EViews提供了三个以排序为根底的无参数的检验统计量方法的主要参考来自于Conover1980和Sheskin1997 进展中位数检验,在Median右边的框内输入中位数的值,可以输入任何数字表达式。
l141.31.3 分布函数分布函数 EViews提供了几种对数据进展初步分析的方法在1.1 我们已列出了几种图来描绘序列分布特征在本节,列出了几种散点图且允许我们可以用有参数或无参数过程来做拟合曲线图 这些图包含着复杂计算和大量的特殊操作,对某些完全技术性的介绍,不必掌握所有细节EViews中设置的缺省值除了对极特殊的分析外,对一般分析而言是足够用的直接点击ok键承受缺省设置,就可以轻松的展现出每个图 l151 1. .3.1 3.1 序列分布图序列分布图 本节列出了三种描绘序列经历分布特征的图 1. CDFSurvivorQuantile1. CDFSurvivorQuantile图图 这个图描绘出带有加或减两个标准误差带的经历累积分布函数,残存函数和分位数函数在序列菜单中或组菜单中选择View /Distribution/ CDFSurvivorQuantile时 ( 组菜单的Multiple Graphs中),就会出现下面的对话框:l16 其中,Cumulative Distribution(累积分布)操作用来描绘序列的经历累积函数CDFCDF是序列中观测值不超过指定值 r 的概率 Survivor(残存)操作用来描绘序列的经历残存函数 l17 Quantile(分位数) 操作用来描绘序列的经历分位数。
对 0 q 1, X 的分位数 x(q) 满足下式: ,且 分位数函数是CDF的反函数,可以通过调换CDF的横纵坐标轴得到 All选项包括CDF,Survivor和Quantile函数 Saved matrix name可以允许把结果保存在一个矩阵内 Include standard errors(包括标准误差)操作标绘接近95%的置信区间的经历分布函数 l18 工作文件工作文件1_3.wf11_3.wf1中中GDPGDP增长率的分布图增长率的分布图l192. QuantileQuantile2. QuantileQuantile图图 QuantileQuantile ( 图)对于比较两个分布是一种简单但重要的工具这个图标绘出一个被选序列的分位数分布相对于另一个序列的分位数分布或一个理论分布的异同假设这两个分布是一样的,那么图将在一条直线上假设图不在一条直线上,那么这两个分布是不同的 中选择View/Distribution Graphs/Quantile-Quantile.下面的 Plot对话框会出现: l20 可以选与如下的理论分布的分位数相比较: Normal(正态)分布:钟形并且对称的分布. Uniform(均匀)分布:矩形密度函数分布. Exponential(指数)分布:结合指数分布是一个有着一条长右尾的正态分布. Logistic(逻辑)分布:除比正态分布有更长的尾外是一种近似于正态的对称分布. Extreme value(极值)分布:I型极小值分布是有一条左长尾的负偏分布,它非常近似于对数正态分布. 可以在工作文件中选择一些序列来与这些典型序列的分位数相比较,也可以在编辑框中键入序列或组的名称来选择对照的序列或组,EViews将针对列出的每个序列计算出图。
l21 以以下图是GDP增长率和指数分布的Q-Q图: l22 3. Kernel Density核密度 这个视图标绘出序列分布的核密度估计一个序列的分布的最简单非参数密度估计是直方图通过选View/ Descriptive Statistics/Histogram and Stats可以得到直方图,直方图对原点的选择比较敏感并且是不连续的以以下图是GDP增长率序列分布的直方图: l23 核密度估计用“冲击代替了直方图中的“框,所以它是平滑的平滑是通过给远离被估计的点的观测值以小的权重来到达的 一个序列 X 在点 x 的核密度估计为: 这里,N是观测值的数目,h是带宽或平滑参数,K是合并为一体的核函数 l24 中选View/Distribution Graphs/Kernel Density会出现下面的核密度对话框: 要展现核密度估计,需要指定如下几项: l25 (1) Kernel(1) Kernel(核核) ) 核函数是一个加权函数,它决定冲击的形状EViews针对核函数K提供如下操作: Epanechnikov(default) Triangular (三角形)Uniform(Rectangular) (均匀分布)Normal(Gaussian) (正态分布)Biweight(Quartic) Triweight Cosinus 这里u是核函数的辐角,I (.)是指示函数,辐角为真时,它取 1,否那么取 0。
l26 (2) Bandwidth带宽 带宽h控制密度估计的平滑程度;带宽越大,估计越平滑带宽的选取在密度估计中非常重要,缺省设置是一种基于数据的自动带宽, 这里N是观测值的数目;s是标准离差;R是序列的分位数间距;因子k是标准带宽变换,标准带宽变换用来调整带宽以便对不同的核函数自动密度估计有大致相当的平滑 也可以自定带宽,先点击User Specified,在下面的对话框中键入一个非负数 l27以以下图是GDP增长率序列分布的核密度估计:l281.3.2 1.3.2 带有拟合线的散点图带有拟合线的散点图 通过view/Graph/Scatter翻开一个组的视图菜单包括四种散点图 1. Simple Scatter简单散点图 其第一个序列在程度轴上,其余的在纵轴上 2. Scatter with Regression(2. Scatter with Regression(回归散点图回归散点图) ) 在组中对第一个序列及第二个序列进展总体变换来进展二元回归,选择Regression后出现对话框: l29工作文件工作文件1_5.wf11_5.wf1中的居民消费和中的居民消费和GDPGDP的带回归线的散点图的带回归线的散点图l30 下面是针对二元拟合的序列变换: None Logarithmic Inverse Power Box-Cox Polynomial 在编辑框中来指定参数a,b。
假设变换是不可以的,会出现错误提示,对多项式(Polynomial)的阶数定的过高EViews会自动降低阶数以防止共线性 点击ok后,EViews拟合出一条回归线,可以在Fitted Y series编辑框中键入一个名称保存这个拟合的序列 l31 Robustness lterations(Robustness lterations(稳健叠代稳健叠代) ) 最小二乘法对一些无关观测值的存在非常敏感,稳健叠代操作就是产生一。





