SPSS学习系列16. 统计量与统计图.doc
12页16. 统计量与统计图针对连续变量做描述性统计描述性统计量分为:(1)刻画集中趋势——均值、中位数、众数;(2)刻画离散程度——方差、标准差、极差、变异系数;(3)刻画分布形态——偏度、峰度一、简单的描述性统计有数据文件:对“数学成绩”、“英语成绩”做描述性统计1. 【分析】——【描述统计】——【描述】,打开“描述性”窗口,将变量“数学成绩”“英语成绩”选入【变量】框,2.点【选项】,打开“选项”子窗口,根据需要勾选点【继续】回到原窗口;若需要得到Z标准分数,勾选“将标准化得分另存为变量”;点【确定】得到描述统计量N全距极小值极大值和均值标准差方差偏度峰度统计量统计量统计量统计量统计量统计量标准误统计量统计量统计量标准误统计量标准误数学成绩505842100378975.781.97413.960194.869-.174.337-.651.662英语成绩506238100396679.322.28016.123259.936-.725.337-.355.662有效的 N (列表状态)50注:默认是按变量选入顺序输出上表二、探索性描述统计输出统计量和统计图,其主要作用有:(1)检查异常值;(2)检验数据的分布特征(是否服从正态分布);1.【分析】——【描述统计】——【探索】,打开“探索”窗口,将变量“数学成绩”“英语成绩”选入【变量】框 注:若在【因子变量】框选入若干分类变量,将按其水平值组合分别统计分析;注意勾选【输出】可选项的“两者都”。
2. 点【统计量】,打开“统计量”子窗口,“M-估计量”——当数据背离正态分布、带长尾、或有极端数据时,M-估计量仍能提供很好的中心趋势估计;“界外值”——可以检验数据是否有极端值存在;3. 点【绘制】,打开“图”子窗口,【箱图】勾选“按因子水平分组”,【描述性】勾选“茎叶图”、“直方图”,勾选“带检验的正态图”(检验数据是否具有正态性)点【继续】回到原窗口,点【确定】得到案例处理摘要案例有效缺失合计N百分比N百分比N百分比数学成绩50100.0%00.0%50100.0%英语成绩50100.0%00.0%50100.0%描述统计量标准误数学成绩均值75.781.974均值的 95% 置信区间下限71.81上限79.755% 修整均值75.92中值75.50方差194.869标准差13.960极小值42极大值100范围58四分位距22偏度-.174.337峰度-.651.662英语成绩均值79.322.280均值的 95% 置信区间下限74.74上限83.905% 修整均值80.30中值85.00方差259.936标准差16.123极小值38极大值100范围62四分位距26偏度-.725.337峰度-.355.662正态性检验Kolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.数学成绩.08250.200*.97450.340英语成绩.17850.000.91350.001*. 这是真实显著水平的下限。
a. Lilliefors 显著水平修正(1)样本量大于50用Kolmogorov-Smirnov检验,样本量小于50用Shapiro-Wilk检验;(2)原假设H0:服从正态分布;H1:不服从正态分布P值<0.05, 拒绝原假设H0;P值>0.05, 接受原假设H0, 即服从正态分布;本例中,数学成绩的P值=0.340>0.05, 故服从正态分布;英语成绩的P值=0.001<0.05, 故不服从正态分布数学成绩 Stem-and-Leaf Plot Frequency Stem & Leaf 1.00 4 . 2 .00 4 . .00 5 . 7.00 5 . 5556777 3.00 6 . 024 4.00 6 . 5578 7.00 7 . 0111124 9.00 7 . 555668888 3.00 8 . 244 7.00 8 . 5577779 4.00 9 . 1224 4.00 9 . 5789 1.00 10 . 0 Stem width: 10 Each leaf: 1 case(s)茎叶图,SPSS自动根据全距选定5作为组距,以第5行为例,茎的数字为6,叶的数字为024,表示该组距有三个观察值:60,62,64 即正态概率分布图,越接近直线,表示越服从正态分布。
残差图 盒形图英语成绩”的上述图形(略)三、盒形图 在一条数轴上,以数据的上下四分位数(Q1-Q3)为界画一个矩形盒子(中间50%的数据落在盒内);在数据的中位数位置画一条线段为中位线;用◇标记数据的均值;默认延长线不超过盒长的1.5倍,之外的点认为是异常值(用○标记)盒形图的主要应用就是,剔除数据的异常值、判断数据的偏态和尾重有数据文件:依前文做探索性描述统计,只绘制“直方图”和“盒形图”描述统计量标准误X1均值45.361.739均值的 95% 置信区间下限41.91上限48.815% 修整均值44.31中值42.00方差302.516标准差17.393极小值20极大值98范围78四分位距22偏度.871.241峰度.440.478X2均值66.141.871均值的 95% 置信区间下限62.43上限69.855% 修整均值66.99中值68.00方差350.243标准差18.715极小值12极大值98范围86四分位距27偏度-.656.241峰度.126.478正态性检验Kolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.X1.125100.001.940100.000X2.083100.086.965100.010a. Lilliefors 显著水平修正 注:X1为正偏态数据(偏度>0, 高峰左偏移、右长尾),均值45.36 > 中位数42 > 众数35. 盒形图中的黑线为中位数位置;圆圈标记为异常值;若有*标记,表示极端值(3倍IQR外)。
注:X2为负偏态数据(偏度<0, 高峰右偏移、左长尾)。





