
正态性检验和正态转换的方法以及在SPSS中的实现.doc
6页正态性检验的方法以及在SPSS中的实现本文将汇总正态检验常用的方法以及各种方法的适用条件和在SPSS中的实现,此外,还将提及将非正态分布转化为正态分布的方法,以及选择转化方法的依据一、 正态检验方法1.1观察分布,预先判断先做直方图看看是否大概符合正态分布,Graph-->legacy dialogs-->histogram-->选入变量--》OK.如果距离正态分布的样子太远了,就不要做以下工作了1.2计算偏度(Skewness)和峰度(Kurtosis) ,当它们接近0时,为正态这是一种比较直观的方法,用于初步判断1) 在SPSS中通用菜单栏Analyze—Reports—Case Summaries分析过程Statistics的选择项中计算偏度(Skewness)和峰度(Kurtosis) ;2) 通过Analyze—Reports—Report Summaies in Row s分析过程Report 的 Summary 的选择项计算偏度、峰度;或者通过Reprts—Report Summaries in Columns 分析过程的Summary 选择项计算偏度和峰度;3) 通过Analyze—Descriptive Statistics—Frequencies分析过程的Statistics的选择项Distribution中计算偏度、峰度;4) 通过Analyze—Descriptive Statist ics—Descr iptives分析过程的Opt ions的选择项Distribution 中计算偏度、峰度;5) 通过Analyze—Compare means—means 分析过程的Options 的选择项 Statistics 中选择统计量 Skewness (偏度)、Kurto sis (峰度)来对数据资料进行正态性检验。
附偏度和峰度统计意义:偏度主要是研究分布形状是否对称:约等于0 则可以认为分布是对称的; >0 则可以认为右偏态,此时在均值右边的数据更为分散; <0 则可以认为左偏态,此时在均值左边的数据更为分散 峰度它是以正态分布为标准,比较两侧极端数据分布情况的指标:等于0说明该变量分布的峰态正合适,不胖也不瘦(正态分布), >0 此说明该变量的分布峰态太陡峭(瘦高个);反之,如果Kurtosis为负值,该变量的分布峰态太平缓(矮胖子)1.3用正态概率图的P-P 或Q-Q 法对数据资料进行正态性检验P-P图和图可以判断的分布很多,对于正态分布的检验也不仅限于标准正态分布P-P图是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地检测样本数据是否符合某一概率分布如果被检验的数据符合所指定的分布,则代表样本数据的点应当基本在对角线上Q-Q图的结果与P-P图非常相似,只是P-P图是用分布的累计比,而Q-Q图用的是分布的分位数来做检验和P-P图一样,如果数据为正态分布,则在Q-Q正态分布图中,数据点应基本在图中的对角线上1.4 用非参数分析方法(Nonparametr ic Tests)对数据资料进行正态性检验正态检验属于非参数检验(分布类型未知的检验),原假设是“样本来自的总体与正态分布无显著性差异,即样本符合正态分布”。
正态分布的非参数检验具体方法有两种,依据样本大小选择合适的检验:大样本(50个样本以上)用K-S检验,小样本(50个样本以下)用Shapiro-Wilk检验在SPSS中的实现有两处,一处是使用Descriptive Statistics->Explore(Shapiro-Wilk检验只在这里),点Plot按钮,选中Normal plot with test这样就可以对选择的变量进行正态性检验了,读取结果时,sig.>0.05(0.01,0.1)时说明显著,即符合正态分布;一种是使用Non-parametic Test->1 Sample K-S Test注意以上两处进行K-S检验的区别 :在‘Explore’里出现的Kolmogorov-Smirnov检验,它的右上角有一个a的注释号,下面的介绍表明它是经过Lilliefors改进或纠正的结果,它将Kolmogorov-Smirnov检验改进用于一般的正态性检验;而在‘非参数检验’里出现的Kolmogorov-Smirnov检验,是没有经过纠正或改进的,该正态性检验只能做标准正态检验由以上区别的本质原因是:Kolmogorov-Smirnov检验是通过样本的经验分布函数与给定分布函数的比较,推断该样本是否来自给定分布函数的总体。
由于需要给定分布函数,所以当用于正态性检验时只能做标准正态检验下面说明在非参数检验中进行K-S检验的步骤:1) 步骤1:在spss中打开数据,怎么打开就不介绍了,打开数据以后,在菜单栏上执行:analyze--非参检验--legacy disalogs--1 sample k-s2) 步骤2:将你要检验正态的变量放到test variables list,勾选下面的normal,这是标准正态分布的意思3) 步骤3:点击exact,进入选择检验方法的对话框,4) 步骤4:这里有三个选项可以选择,第一个asymptotic的意思是基于渐进分布的显著性水平的检验指标,适于大样本,如果样本过小或者分布不好,就会影响检验的效力;monte carlo适用于精确显著性水平的无偏估计,如果样本过大,数据处理过程太长,就应该使用这个选项;exact精确计算概率值,可以设定数据处理的时间,如果数据处理时间超过了你设定时间30分钟,就应该使用monte carlo 5) 回到k-s检验对话框,点击options按钮,设置输出的参数6) 步骤6:勾选descriptive和quartiles,这两个的意思分别是输出描述性统计和四分位数,点击continue按钮。
7) 步骤7:我们可以看到对数据的检验结果,最后的显著性检验值为0.000,小于显著性水平0.05,所以不能接受原假设,即不符合正态分布二、 正态转换方法如果需要将变量转化为正态分布,需要根据变量的分布形状确定相应的转换公式 如果是中度偏态(如Skewness为其标准误差的2-3倍),可以考虑取根号值来转换,以下是SPSS的指令(其中”nx”是原始变量x的转换值):COMPUTE nx = SQRT(x). 如果高度偏态(如Skewness为其标准误差的3倍以上),则可以取对数,其中又可分为自然对数和以10为基数的对数如以下是转换自然对数的指令:COMPUTE nx = LN(x);以下是转换成以10为基数的对数(其纠偏力度最强,有时会矫枉过正,将正偏态转换成负偏态):COMPUTE nx = LG10(x).上述公式只能减轻或消除变量的正偏态(positive skewed),但如果不分青红皂白(即不观察偏态和峰度)地用于负偏态(negative skewed)的变量,则会使负偏态变得更加严重如果是负偏态的分布,则需要先对原始变量做reflection(反向转换),即将所有的值反过来,如将最大值变成最小值、最小值变成最大值、等等。
如果变量的取值很多或有小数、分数,上述方法几乎不可能,则需要写如下的指令:COMPUTE nx = max – x + 1.其中max是x的最大值转化结束后要重复第一部分提到的方法,观察变量是否被转化成功总结一下,常用的变量正态变换方法有对数变换、平方根变换、倒数变换、平方根反正玄变换等,应根据资料性质选择适当的变量变换方法 对数变换 即将原始数据X的对数值作为新的分布数据:X’=lgX当原始数据中有小值及零时,亦可取X=lg(X+1)还可根据需要选用X’=lg(X+k)或X’=lg(k-X)对数变换常用于(1)使服从对数正态分布的数据正态化如环境中某些污染物的分布,人体中某些微量元素的分布等,可用对数正态分布改善其正态性2)使数据达到方差齐性,特别是各样本的标准差与均数成比例或变异系数CV接近于一个常数时 平方根变换 即将原始数据X的平方根作为新的分布数据X’=sqrt(X)平方根变换常用于:1)使服从Poission分布的计数资料或轻度偏态资料正态化,可用平方根变换使其正态化2)当各样本的方差与均数呈正相关时,可使资料达到方差齐性 倒数变换 即将原始数据X的倒数作为新的分析数据X’=1/X常用于资料两端波动较大的资料,可使极端值的影响减小。
平方根反正旋变换 即将原始数据X的平方根反正玄值做为新的分析数据X’=sin-1sqrt(X)常用于服从二项分布的率或百分比的资料一般认为等总体率较小如<30%时或较大(如>70%时),偏离正态较为明显,通过样本率的平方根反正玄变换,可使资料接近正态分布,达到方差齐性的要求你可以根据自己的资料适当转化另外,可以考虑其他分析方法,比如秩和检验 。
