
《SPSS基本统计分析》PPT课件.ppt
59页第四章第四章 基本统计分析基本统计分析基本统计分析功能包括:基本统计分析功能包括:1.1.报告分析报告分析((ReportReport)(有兴趣的自学))(有兴趣的自学)2.2.描述性统计分析描述性统计分析((Descriptive Statistics))一、基本统计分析功能一、基本统计分析功能描述性统计分析描述性统计分析((Descriptive Statistics))•1. Frequencies 频数分析频数分析•2. Descriptive 描述性统计分析描述性统计分析•3. Explore 探索分析探索分析•4. Crosstabs 列联表分析列联表分析•5. Ratio 比率分析比率分析二、频数分析二、频数分析•(一)频数的定义(一)频数的定义 频数就是一个变量在各个变量值上频数就是一个变量在各个变量值上取值的个案数,是描述性统计中最常用取值的个案数,是描述性统计中最常用的方法。
的方法 可编制频数分布表和绘制统计图,可编制频数分布表和绘制统计图,把握数据分布的基本特征把握数据分布的基本特征频数分析频数分析•(二)频数分析的目的频数分析的目的 通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的频数分析频数分析•(三)频数分析的功能(三)频数分析的功能 1.1.产生详细的频数表;产生详细的频数表; 2.2.按要求给出某个分位点;按要求给出某个分位点; 3.3.绘制常用的条图、饼图、直方图绘制常用的条图、饼图、直方图适用范围:更适用于对分类变量以及不服适用范围:更适用于对分类变量以及不服从正态分布的连续性变量进行描述从正态分布的连续性变量进行描述显示频数分布表显示频数分布表统计量统计量统计图形统计图形频数输出的顺序频数输出的顺序 Frequences主对话框主对话框选择一个或多个变选择一个或多个变量右移入量右移入Variable((s))框统计量统计量显示频数显示频数分布表分布表统计图统计图频数输出的顺序频数输出的顺序Frequences主对话框主对话框输出统计量对话框输出统计量对话框Chart 对话框对话框Format 对话框对话框按各个变量组织输按各个变量组织输出,输出结果将按出,输出结果将按照每个变量一张表照每个变量一张表的形式显示的形式显示按频数的升序输出按频数的升序输出按变量值的升序输出按变量值的升序输出统计表中变量的各统计表中变量的各项分析结果在一张项分析结果在一张表并列显示表并列显示控制频数表输出范围控制频数表输出范围类型的最大数目为类型的最大数目为某频次分析结果演示某频次分析结果演示统计量统计量条形图条形图 用宽度相同的条形的高度或长短来表示频数分布变化的图形,适用于定类和定序变量的分析。
条形图条形图饼图饼图•用圆形及圆内扇形的面积来表示频数百分比变化的图形,有利于研究事物内在结构组成等问题饼图中圆内扇形的面积可以表示频数,也可以表示百分比饼图饼图( (圆饼图圆饼图) )直方图直方图•用矩形的面积来表示频数分布变化的图形,适用于定距型变量的分析直方图直方图频数分析的应用举例频数分析的应用举例•案例: 利用住房状况问卷调查数据,分析被调查家庭中户主的从业状况和目前所住房屋的产权情况频数分析的操作步骤结论结论•由从业状况表得到的分析结论如下:本次被调查家庭的总数为2993户,户主的从业状况是:人数最多的是国有企业,其次是行政事业单位和私营企业,人数最少的是大专院校科研单位•由房屋产权表得出:近50%是多层商品房,无产权和部分产权也占有一定比例,二手房的比例较低,高层商品房的比例最少 频数分析的扩展功能频数分析的扩展功能•举例 应用住房状况调查问卷数据,分析人均住房面积的分布情况,并对本地户口和外地户口家庭进行比较分析思路分析思路•由于人均住房面积为定距型变量,直接采用频数分析不利于其分布形态的把握,因此考虑,依据我们上节课中学过的分组功能对数据分组后再编制频数分布表。
频数分布表如下:分组后人均面积分组后人均面积•接下来利用频数分析计算出所有样本的人均住房面积的四分位数,然后,按照户口状况对数据进行拆分,并重新计算四分位数,分别得到本市户口和外地户口的人均住房面积的四分位数结果如下:表表1表表2•表1表明:25%家庭的人均住房面积在13.7平方米以下;有50%家庭的人均住房面积在19.6平米以下•表2表明:本市户口家庭2825户,人均住房四分位数差是13;外地户口家庭168户,人均住房面积的四分位数差是21.6.可见外地户口家庭的人均住房面积的离散程度高于本市户口,尤其在高数值区三、计算基本描述统计量三、计算基本描述统计量(一)功能:(一)功能: 对定距型变量进行描述性统计分析,计对定距型变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等,算均值、标准差、全距和均值标准误差等,并可将原始数据转换成并可将原始数据转换成Z分数(二)基本描述统计量二)基本描述统计量•常见的基本描述统计量可以分为三大类: 1、集中趋势的描述统计量(均值、中位值、众值); 2、离散程度的描述统计量(标准差、方差、极差); 3、分布形态的描述统计量(偏度系数、峰度系数)。
(三)应用举例(三)应用举例•利用住房状况调查问卷数据,对人均住房面积计算基本描述统计量,并分别对本市户口和外地户口家庭进行比较首先进行数据拆分)•统计结果表明:本市户口家庭的人均住房面积的均值是21.7平方米,低于外地户口家庭26.7无论是本市户口还是外地户口,人均住房面积的分布均呈一定的右偏分布(两个偏度统计量分别为2.18和1.43),且本市户口的偏度更大些;同时,本市户口和外地户口家庭人均住房面积均呈尖峰分布(两个峰度统计量分别为8.3和2.1)由此可见,本市户口和外地户口中的大部分家庭的人均住房面积都低于各自的平均水平,此时,仅用均值刻画住房状况是不准确的•利用住房状况调查问卷数据,分析人均住房面积是否存在不均衡现象分析人均住房面积是否存在不均衡现象,可以从分析住房面积是否有大量异常值入手(四四)例题分析例题分析 已知已知2020个初生婴儿的体重数据如下表,个初生婴儿的体重数据如下表,对其进行描述统计对其进行描述统计2770 2915 2795 2995 2860 2970 3087 3126 3125 46542272 3503 4218 3418 3921 2669 3707 2310 2573 3881打开数据文件打开数据文件““婴儿体重婴儿体重.sav”.sav”。
打开打开 DescriptivesDescriptives主对话框,选定变量主对话框,选定变量t t进入进入VariableVariable栏中选中选中Save standardized values as Save standardized values as variablesvariables复选框,要求计算变量的复选框,要求计算变量的z z值,并值,并保存结果到当前数据集中保存结果到当前数据集中单击单击OptionsOptions按钮,选中按钮,选中MeanMean、、Std.DeviationStd.Deviation、、MinimumMinimum、、Maximum Maximum 、、Variance Variance 项操作步骤:操作步骤:婴儿体重的描述统计量婴儿体重的描述统计量这时打开原数据集,可看到多了一列这时打开原数据集,可看到多了一列ztzt,这是,这是t t 的的z z 分数,如下图所示:分数,如下图所示:保存了保存了z 分数的数据集分数的数据集五、探索性分析五、探索性分析1.1.概念概念 数据探索是统计分析中非常重要的一步,可以数据探索是统计分析中非常重要的一步,可以帮助我们决定选择帮助我们决定选择哪种统计方法哪种统计方法进行数据分析,有如下三方面的考察:进行数据分析,有如下三方面的考察:(1)考察数据的正确性 考察数据中的一些异常值,分析这些值产生的原因,判断其正确性,再决定修改、删除或保留它们。
2)考察数据的分布特征 考察数据的正态分布特征可以为以后进行统计分析时采用正确的统计方法提供正确的依据3)考察变量之间数据的相互关系 变量与变量之间相关性的考察、方差齐性的考察,是一些统计分析过程必须事先了解的返回主要功能主要功能 调用此过程可检查数据是否有错误、考察样调用此过程可检查数据是否有错误、考察样本分布特征及对样本分布规律作初步考察剔除本分布特征及对样本分布规律作初步考察剔除奇异值和错误数据探索分析过程将提供在分组奇异值和错误数据探索分析过程将提供在分组和不分组的情况下常用的统计量与图形和不分组的情况下常用的统计量与图形探索分析过程探索分析过程 按按Analyze Descriptive Statistics Explore 顺序单击,打开顺序单击,打开 Explore 主对话框主对话框探索分析探索分析Explore Explore 主对话框主对话框StatisticsStatistics对话框对话框 Explore Explore 栏中栏中PlotsPlots对话框对话框(三三)例题:下表为例题:下表为30名名10岁少儿的身高(岁少儿的身高(cm))数据,数据,试对其进行探索分析。
试对其进行探索分析编编号号身高身高编编号号身高身高编编号号身高身高男男女女男男女女男男女女1131.5132.76135.5137.511132.2124.02137.4133.07121.4141.412129.0140.33128.2139.78129.2138.813132.6130.14136.0125.49135.4120.914140.9133.45140.4138.610135.8137.515129.3136.7步骤:步骤:打开打开 Explore主对话框,打开数据文件主对话框,打开数据文件“Explore分分析析.sav”选变量身高进入因变量栏中,选性别变量选变量身高进入因变量栏中,选性别变量进入因子列表栏中;进入因子列表栏中;在输出栏中选择在输出栏中选择 Both项;项;打开统计量对话框,选中描述性打开统计量对话框,选中描述性 、、M-估计量、估计量、 界界外值复选项,单击继续返回;外值复选项,单击继续返回;打开绘制对话框,选择箱图栏中的打开绘制对话框,选择箱图栏中的按因子水平分组按因子水平分组项,选择描述性栏内的项,选择描述性栏内的 茎叶图复选项,选择茎叶图复选项,选择Spread vs level with levene Test栏中的栏中的 Power estimation项,项,单击单击 Continue 返回。
单击返回单击OK观测量摘要表观测量摘要表M估计量表估计量表少儿身高的分组描述统计量少儿身高的分组描述统计量少儿身高的极端值少儿身高的极端值从左到右分为三部分:频从左到右分为三部分:频数、茎和叶数、茎和叶茎是整数部分,叶是小数茎是整数部分,叶是小数部分,部分,Stem width表示茎表示茎宽每行的茎和叶组成的宽每行的茎和叶组成的数字再乘以茎宽,即得到数字再乘以茎宽,即得到实际数据的近似值,实际实际数据的近似值,实际数据中与该近似值靠近的数据中与该近似值靠近的值的个数即为频数表示的值的个数即为频数表示的个数茎叶图茎叶图箱式图箱式图方形是箱式图的主体,方形是箱式图的主体,上下边为四分位数,中上下边为四分位数,中心粗线为中位数,变量心粗线为中位数,变量的的50%的观测值落在这的观测值落在这一区域中一区域中方形上下两条纵向直线方形上下两条纵向直线是触须线,触须线外的是触须线,触须线外的两端线为本体的最大值两端线为本体的最大值和最小值本体指除奇和最小值本体指除奇异值外的变量值异值外的变量值奇异值用奇异值用“O”标出,标出,本例中无奇异值本例中无奇异值上机作业上机作业•1.自己学习报告分析的各项命令。
自己学习报告分析的各项命令•2.熟练掌握频次分析、描述性统计分析熟练掌握频次分析、描述性统计分析和探索分析的基本功能和运用技巧和探索分析的基本功能和运用技巧•3.完成上机练习完成上机练习4,写作第一个统计分析,写作第一个统计分析报告。
