
spss统计分析-实例分析课件.pptx
91页Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,,‹#›,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,SPSS,统计分析,,,——,案例应用,SPSS,基本统计分析,方差分析,相关分析,1,、基本统计分析,基本统计分析,描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件SPSS,的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在描述菜单中,包括,:,,,1.1,频数分析,频数分析目的:基本统计分析往往从频数分析开始通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的1,)编制频数分布表,频数:即变量值落在某个区间(或某个类别)中的次数,百分比:即各频数占总样本数的百分比,有效百分比:即各频数占有效样本数的百分比,有效样本数=总样本-缺失样本数,累计百分比:即各百分比逐级累加起来的结果最终取值为,100,2,)绘制统计图,,,,,,,1.1 频数分析,频数分析的基本操作,(,1,)分析,—,描述统计,—,频率,(,2,)将频数分析变量选择到变量框中,(,3,)单击表格按钮选择绘制统计图形,选择饼图,1.1频数分析,,,1.1频数分析,输出结果,1.1,频数分析_例,1,例,1,-,1,分析住房状况调查数据中户主的从业状况和目前所住房屋的产权情况,思路:利用频数分布表及图形,条件:都是分类变量,直接分析,步骤:,调用命令:,Analyze\Descriptive Statistics\Frequencies,选择分析变量,选择图形,选择分布表输出格式,1.1,频数分析_例,1,分析结果,分布表中累计百分比基本没有意义,应该删除。
1.1,频数分析_扩展功能,分位数,(Pencentile Values),计算分位数,:适用于定距数据,数据按升序排序后,找到若干个分位点上的变量值,q,uartiles:,计算,四分位数25%(,QL,)、,50%(,中位数)、75%(,QU),,cut points for,n,equal groups:n,等份,percentile:,自定义百分位点,,其他基本统计量,集中趋势,(Central Tendency),离散趋势,(Dispersion),分布形态,(Distribution),1.1,频数分析_扩展功能例,案例,1,-,2,分析人均住房面积的分布,并对本市户口和外地户口家庭的人均住房面积分布情况进行比较特点:“人均住房面积”是定距型变量,步骤:,根据“人均住房面积”建立分组变量;,调用命令频数分析命令,Frequencies,,选择分组变量作为分析变量,再一次使用频数分析命令,Frequencies,选择“人均住房面积”作为分析变量,不选择生成频数表,选择不生成图形,选择计算四分位数,根据“户口状况”对数据进行拆分,(Split File),再重复上一步的工作(计算分类的四分位数),案例,1,-,2,分析结果,1,案例,1,-,2,分析结果,2,频数分析,例:,测量,100,名健康成人的血清蛋白总含量,形成数据,serum,(克,/,升),使用频数分析了解这一数据的统计特征。
SPSS,的操作步骤,1,、菜单中点,分析,/,描述统计,/,频率,,进入频率对话框,频数分析,SPSS,的操作步骤,2,、将变量选入,变量,窗口,再点击,统计量,,进行设置,完成后点,继续,返回,,,,,SPSS,的操作步骤,2,、在频率主对话框中分别进入,图表,和,格式,进行设置,完成后点,继续,返回,最后点,确定,SPSS,的输出结果,该教学案例数据解析,均值(平均值、平均数)表示的是某变量所有取值的集中趋势或平均水平例如,学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等中值是在一组数据中居于中间的数,(,特别注意的地方是:这组数据之前已经经过升序排列!!!,),,即在这组数据中,有一半的数据比它大,有一半的数据比它小如果这组数据包含偶数个数字,中值是位于中间的两个数的平均值10 20 40 50 70,10 20 30 40 50 60,百分位数分析:比如,假设某个考生在入学考试中的语文部分的原始分数为,54,分相对于参加同一考试的其他学生来说,他的成绩如何并不容易知道但是如果原始分数,54,分恰好对应的是第,70,百分位数,我们就能知道大约,70,%的学生的考分比他低,而约,30,%的学生考分比他高。
众数(,Mode,)统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个) 修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个用,M,表示 理性理解:简单的说,就是一组数据中占比例最多的那个数全距也称为极差,,是数据的最大值与最小值之间的绝对差在相同样本容量情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散计算公式:最大值-最小值1.2 描述分析,描述分析目的:获取数据的均值、标准差、峰度等数据,进一步把握数据的,集中趋势,、,离散程度,和,分布形状,基本描述统计量,,刻画集中趋势的统计量,刻画离散程度的统计量,刻画分布形态的统计量,,1.2 描述分析,刻画集中趋势的统计量,集中趋势指一组数据向某一中心值靠拢的倾向计算刻画集中趋势的统计量正是要寻找能够反应数据一般水平的“代表值”或“中心值”常用统计量:,均值,、,中位数,、,众数,,1.2 描述分析,刻画离散程度的统计量,离散程度,是指一组数据远离其“中心值”的程度如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中心值”对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值”的周围,数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的。
常用统计量:,全距、方差、标准差,,,,标准差,(,standard deviation--Std Dev):,表示某变量的所有变量值离散程度的统计量SPSS,中计算的是样本标准差方差(,variance):,标准差的平方SPSS,中计算的是样本方差极差 (,range):,,(,maximum),—(,minimum),,1.2 描述分析,刻画分布形态的描述统计量,数据分布形态主要指数据分布,是否对称,,,偏斜程度,如何,,分布陡峭程度,等常用统计量:,偏度、峰度,偏度,:描述变量取值分布,形态对称性,的统计量当分布为对称分布时,正负总偏差相等,偏度值等于,0,;当分布为不对称分布时,正负总偏差不相等,偏度值大于,0,或小于,0,偏度值,大于,0,表示正偏差值大,称为,正偏或右偏,;偏度值,小于,0,表示负偏差值大,称为,负偏或左偏,偏度,绝对值越,大,表示数据分布形态的,偏斜程度越大,峰度:描述变量取值分布,形态陡峭程度,的统计量当数据分布与标准正态分布的陡峭程度相同时,峰度值等于,0,;峰度,大于,0,表示数据的分布比标准正态分布,更陡峭,,为,尖峰分布,;峰度,小于,0,表示数据的分布比标准正态分布,平缓,,为,平峰分布,。
扁平分布,,,,,尖峰分布,,,,,,峰态,,,,,左偏分布,,,,,右偏分布,与标准正态分布比较!,,,偏态,扁平分布,,,,,尖峰分布,,,,,,扁平分布,尖峰分布,左偏分布,扁平分布,尖峰分布,右偏分布,左偏分布,扁平分布,尖峰分布,1.2 描述分析,计算基本描述统计量的操作,,(,1,)分析,—,描述统计,—,描述,(,2,)将分析变量选择到变量框中,(,3,)单击选项按钮指定基本统计量,,1.2 描述分析,应用例一,案例,1,-,3,:计算人均住房面积的基本描述统计量,并对本市户口和外地户口家庭的情况进行比较操作步骤:,调用命令,Analyze\Descriptive Statistics,,\Descriptives,选择“人均面积”作为分析变量,选择必要的分析指标,根据户口状况对数据进行拆分,(Split File),重新调用命令,\Descriptives,计算不同户口状况的指标值,应用例一分析结果,全部数据分析结果,分组数据分析结果,1.2,描述性分析,,,描述性分析主要用于输出变量的各类描述性统计量的值,通过上一节的学习可知,频数分析同样可以做到,都是以计算数值型单变量的统计量为主。
描述性统计分析没有图形功能,也不能生成频数表,但描述性分析可以将原始数据转换成标准正态评分值,并以变量形式存入数据文件中,以便后续分析时应用在多元统计分析中,对均值差异较大的变量,采用变量标准化后的数据进行分析,可以消除均值差异带来的影响描述统计量,例:,调查记录了,130,名正常男性血液中的红细胞数(,RBC,,万,/mm,),,,用描述统计量查看该数据的统计特征SPSS,的操作步骤,1,、菜单中点,分析,/,描述统计,/,描述,,进入描述对话框,2,、将变量算入,变量,窗口,进入,选项,对话框进行设置,完成后点,继续,,并,确定,SPSS,的输出结果,数据编辑窗口中,在原变量右侧多了一列由原变量标准化产生的“,Z+,原变量名,”,的列,1.3,交叉分组下的频数分析,目的,,了解不同变量在不同水平下的数据分布情况,例:学习成绩与性别有关联吗?(两变量),例:职业、性别、爱逛商店有关联吗?(三变量),,分析的主要步骤,产生交叉列联表,分析列联表中变量间的关系,列联表,,列联表分析过程,可通过,Crosstabs,对话框实现,(,Analyze,,Descriptive Statistics Crosstabs,),。
公司,1,公司,2,公司,3,公司,4,合计,赞成,68,75,57,79,279,反对,32,45,33,31,141,合计,100,120,90,110,420,例,2.1d,已知对集团公司某项改革方案意见的调查结果,试分析各子公司对该项改革方案的态度是否一致,.,,定义变量,(,形成数据集,3,),,公司,company,公司,1 1,公司,2 2,公司,3 3,公司,4 4,68,32,75,45,57,33,79,31,态度,attitude,赞成,1,反对,2,,赞成,1,反对,2,,赞成,1,反对,2,,赞成,1,反对,2,,观察频数,freq,指定,freq,为加权变量,,Crosstabs,对话框,指定行变量,指定列变量,指定分布表的层变量,显示分类条形图,不输出多维交叉表,Crosstabs,对话框,本例中选择,chi-square,卡方检验,分类变量相关指标,相关,列联系数,Φ,和,V,系数,λ,值,不确定系数,定序变量的相关指标,适用于一个为分类变量、另一个为等间隔变量的检验,列联表中的,卡方独立性检验,H,0,:,行变量与列变量独立,显著性水平,=0.05,,Crosstabs,对话框,本例中选择频数及频率输出项,观察频数,期望频数,频率,行频率,列频率,总和频率,残差,非标准化,标准化,调整的标准化残差,频数,升序,行顺序,降序,,输,出,结,果,㈠,,输出结果㈡:,显著值为,0.430>0.05,接受零假设,态度与,公司没有关系,2,、方差分析,方差分析概述,背景案例,统计学原理,相关统计量,SPSS,操作,SPSS,结果解读,方差分析案例,,2.1方差分析概述,背景案例,影响农作物产量的因素可能有多个,如品种、施肥量、地域特征等。
在众多的因素中,有些因素会对产量有明显的影响,有些因素的影响不大因此,找到中影响因素中起重要的和关键作用的因素是非常重要的进一步,在掌握了关键因素后,如品种、施肥量等,还需要对不同品种、不同施肥量的产量进行比较,研究究竟哪个品种的产量高,施肥量究竟多少最为合适在制定广告宣传策略时,不同方案所获得的广告效果可能是不一样的广告效果可能会受到广告形式、地区规模、播放时间段、播放频率等因素的影响需要研究在影响广告效果的众多因素中,哪些因素是主要的,哪些是次要的,哪些因素水平是最合理的对这种类似问题的研究可以通过方差分析来实现2.1 方差分析概述,2.1.2,方差分析相关概念,观测变量:,农作物产量、广告效果,因素(控制变量):,品种、施肥量、播放时间段等,因素水平:,因素的不同类别,如甲品种、乙品种就是品种这一变量的两个水平单因素方差分析、多因素方差分析,,,2.1 方差分析概述,2.1.3,方差分析统计学原理,观测变量取值变化原因:,1,、控制变量;,2,、随机变量,如果相对于随机变量引起的观测值差异,控制变量引起的观测值差异较大,则说明控制变量对观测变量有显著影响在统计学中,控制变量和随机变量引起的差异可以分别用一个统计量来表示。
单因素方差分析中,分别用,SSA,、,SSE,来表示SSA,:组间差异(,组间离差平方和,),主要是由控制变量的不同水平造成的差异;,SSE,:组内差异(,组内离差平方和,),主要是由随机变量引起的差异SSA+SSE=SST,SST:,总差异(,总离差平方和,),,方差分析任务:判定,SSA,相对于,SST(,或,SSE),的大小SSA,相对较大,则表明控制变量起到了显著影响,若相对较小,则表明控制变量没有显著影响2.1 方差分析概述,2.1.3,单因素方差分析统计学原理,假设控制变量会对观测值不会产生显著影响,,将总离差(SST)分解为组间离差平方和(SSA)和组内离差平方和(SSE)比较,SSA,与,SST,的相对大小SSA,与,SST,的相对大小要受到样本规模、控制变量水平数的影响,为消除这些因素的影响对,SSA,、,SST,要进行一定的处理(分别除以自由度),用统计量,F,来表示,SSA,的相对大小,方差分析,-,从观测变量的,部分,取值推测观测变量,总体,取值与随机变量的关系部分是否能够代表总体情况?,由于存在随机抽样和样本数量较少等原因,通过分析,样本,的出的结论不能直接用于,总体,。
要进行假设检验F,是随机变量,服从一定的分布,其取值会因为具体的样本的不同而不同计算研究样本的,F,值,即,F,的观测值,并计算该,F,观测值对应概率,p,值,如果,p,值很小(一般是小于,0.05,),说明,F,取到该观测值的概率很小,是不可能发生的则认为假设“控制变量对观测值没有显著影响”是不对的,也就是,控制变量会对观测变量产生显著影响2.1方差分析概述,2.1.4,单因素方差分析基本假设:,对总体分布的假设:,总体服从正态分布,各处理组总体方差相等(方差齐性或方差同质性),,,正态分布检验:根据大数定律和中心极限定理原理 ,假设满足方差齐性检验:,对控制变量不同水平下观测变量总体的方差是否相等进行假设检验,在,SPSS,中可以通过,方差同质性检验,进行2.2 SPSS方差分析操作,2.2.1,方差分析数据形式,离差分解时仅仅是对观测水平这一列的数值进行分析,但是也要有存放控制变量的列正确的数据格式,是统计分析的前提观测变量,,,控制变量,2.2 SPSS方差分析操作,2.2.2 SPSS,操作步骤,打开的数据格式,分析,——,比较均值,——,单因素方差分析,选择观测变量(因子)、控制变量(因变量),(,只能选择一个因子),选项,选择“方差同质性检验”,,,,,,缺失值处理,2.3 SPSS方差分析结果解读,,P,值(显著性),=0.515,,远大于基准值,0.05,,说明假设,“方差齐性”,正确,即控制变量不同水平下各组的方差相同。
满足方差分析的前提P,值(显著性),=0. 000,,远小于基准值,0.05,,说明假设,“控制变量对观测变量没有显著影响,即广告形式对销售额没有显著影响”不,正确,即控制变量不同水平下各组的方差不相同结论:广告形式对销售额有显著影响2.3 SPSS方差分析结果解读,,结论:广告形式用报纸获得的销售额最高,宣传品的效果最不好,,61,单因素方差分析,(4) SPSS,实现举例,【,例,】,在大熊猫形象经济贡献的调查中,被调查者的教育背景分为五个层次,,A,高中,/,中专及以下,B,大专,C,大学本科,D,硕士,E,博士及以上 ,在此,可分析不同教育水平的游客对于景区的购物质量接待满意度作用有无不同12,.您对四川购物接待质量满意吗?,1,不满意,2,有点不满意,3,不好说,4,有点满意,5,非常满意,25,.您的教育背景:,A,高中,/,中专及以下,B,大专,C,大学本科,D,硕士,E,博士及以上,,,,,62,单因素方差分析,第,1,步 分析,:,由于考虑的是一个控制变量(教育背景)对一个观测变量(购物接待质量满意度)的影响,而且是,4,种教育背景,所以不适宜用独立样本,T,检验(仅适用两组数据),应采用单因素方差分析。
第,2,步 数据的组织:,数据分成两列,一列是购物质量满意度,变量名为“,V36”,,另一变量是教育背景(变量值分别为,1,2,3,4,),变量名为“,CE25”,,输入数据并保存第,3,步 方差相等的齐性检验:,由于方差分析的前提是各个水平下(这里是不同的教育背景,CE25,影响下的购物接待质量满意度,V36,)的总体服从方差相等的正态分布,且各组方差具有齐性其中正态分布的要求并不是很严格,但对于方差相等的要求是比较严格的,因此必须对方差相等的前提进行检验63,1.1,单因素方差分析,,,,,,不同教育背景的方差齐性检验(方差同质性检验)结果,方差齐性检验的,H0,假设是:方差相等从上表可看出相伴根据,Sig.=0.393>,(,0.05,)说明应该接受,H0,假设(即方差相等)故下面就用方差相等的检验方法64,单因素方差分析,,,,,,五种不同教育背景的方差检验(,ANOVA,)结果,上表是教育背景方差分析的结果,组间(,Between Groups,)平方和(,Sum of Squares,)为,17.256,,自由度(,df,)为,4,,均方为,4.314,;组内(,Within Groups,)平方和为,809.535,,自由度为,805,,均方为,1.006,;,F,统计量为,4.290,。
由于组间比较的相伴概率,Sig.,(,p,值),=0.002<0.05,,故应拒绝,H0,假设(四种教育背景对购物满意度影响效果无显著差异),说明四种教育背景对购物接待质量满意度的影响效果有显著性差异65,单因素方差分析,第,4,步 多重比较分析:,通过上面的步骤,只能判断,4,种教育背景对于购物满意度的影响是否有显著差异如果想进一步了解究竟是哪种教育水平与其他组有显著性的均值差别(即哪种教育水平影响更大)等细节问题,就需要在多个样本均值间进行两两比较由于第,3,步检验出来方差具有齐性,故选择一种方差相等的方法,这里选,LSD,方法;,Significance level,(显著性水平)取,0.05,;,,,,,,66,1.1,单因素方差分析,第,5,步 运行主要结果及分析:,,,,,,从整个表反映出来五种教育背景之间,1,与,2,、,3,、,4,,,2,与,3,之间不存在显著差异,其它均存在显著差异67,1.1,单因素方差分析,,,,,,均值折线图,上图为几种教育背景均值的折线图,可以看出均值分布比较陡峭,均值差异也较大3,相关分析,相关分析概述,SPSS,相关分析操作,SPSS,相关分析结果解读,SPSS,相关分析案例,,3.1 相关分析概述,家庭收入和支出、子女身高和父母身高的关系、一个人的身高和体重的关系?,,相关分析:,研究两个变量相互关系的密切程度和变化趋势,并用适当的统计指标描述。
3.1 相关分析概述,相关分析与方差分析的比较,相同点:分析两个变量之间,是否有关系,不同点:相关分析可以比较两个变量的,变化趋势,的异同,方差分析不能3.1 相关分析概述,相关分析工具:,散点图、数值,,散点图:将数据以点的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及它们的强弱程度和方向在实际分析中,散点图经常表现出某些特定的形式如绝大多数的数据类似于“橄榄球”的形状,或集中形成一根“棒状”,而剩余的少数数据点则零散地分布在四周通常“橄榄球”和“棒状”代表了数据对的主要结构和特征,可以利用曲线将这种主要结构的轮廓描绘出来,使数据的主要特征更突出3.1 相关分析概述,散点图,简单散点图:,表示一对变量间统计关系的散点图矩阵散点图:,以矩阵形式在多个坐标轴上分别显示多对变量间的统计关系r=1,r=0.7~0.8,r=0,r=0,r=-0.7,~,-0.8,r=-1,完全正相关,正相关,无相关,完全负相关,负相关,无相关,3.1 相关分析概述,矩阵散点图:,弄清各坐标轴所代表的变量课题总数,专著数,论文数,课题总数,论文数,专著数,横轴:从最底层一条向上依次为,论文数、专注数、课题总数。
纵轴:从最左侧一条向右依次为,课题总数、专注数、论文数 3.1 相关分析概述,相关系数,以数值的方式精确的反映了两个变量间,线性相关,的强弱程度①相关系数,r,的取值在,-1,~,+1,之间;,②,r>0,表示两变量存在,正的线性相关,关系;,r<0,表示两变量存在,负的线性相关,关系;,③,r,=,1,表示两变量存在,完全正相关,;,r,=,-1,表示两变量存在,完全负相关,;,r,=,0,表示两变量,不存在相关,,,不代表两变量之间不相关,;,④,|r|>0.8,表示两变量有,较强的线性关系,;,|r|<0.3,表示两变量之间的,线性关系较弱,3.1 相关分析概述,相关系数种类,1.Pearson,简单相关系数(度量两定距型变量的线性相关性),2.Spearman,等级相关系数(度量定序变量间的线性相关关系),,定序变量:,区别等级次序的变量定序变量能决定次序,例如文化程度可以分为大学、高中、初中、小学、文盲;年龄可以分为老、中、青但是,定序变量在只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定距变量:,区别等级次序及其距离的变量它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质3.2 SPSS相关分析操作,3.2.1,散点图,1,、图形,-,旧对话框,-,散点,/,点状,2,、选择散点图类型,3,、制定,X,、,Y,轴变量或矩阵变量,,,,,2.2.2,散点图应用举例,案例:,利用住房状况问卷调查数据,分析家庭收入与打算购买的住房面积之间存在怎样的统计关系数据:住房状况调查,.sav,),操作:,【,图形(,Graps,),】,【,散点图(,Scatter,),】,简单散点图,①表示一对变量间统计关系的散点图,②将纵轴变量选入,【Y,轴,】,,,③将横轴变量选入,【X,轴,】,,,④将分组变量选入,【,设置标记,】:,用该变量分组,并在一张图上用不同颜色绘制若干个散点图⑤将标记变量选入,【,标注个案,】,:将标记变量的各变量值标记在散点图相应点的旁边3.2 SPSS相关分析操作,相关系数,1,、分析,-,相关,-,双变量,2,、选择变量(可选择多个),3,、选择相关系数(可复选),,,3.3 SPSS结果解读,,,样本相关系数,假设“总体无线性相关”概率接近,0,,小于,0.01,,假设不对,即总体存在显著线性相关,,,二元变量相关分析主对话框,,,正态分布的等间隔测度的变量使用,计算分类间的秩相关系数,计算分类间的秩相关系数,考虑节点,两个变量间的相关分析,输出选择项对话框,,,连续变量间的相关分析实例,,Data08-01,:,1962,年-,1988,年安徽省国民收入与城乡居民储蓄存款余额两个变量间的线性相关分析(,income,:国民收入,,deposit,:城乡居民储蓄存款余额,,number,:序号,,year,:年份)。
连续变量间的相关:,Pearson,,相关系数,r=.976,和其相应的显著性概率,Sig=.000(,显然国民收入与存款余额之间是高度相关的,),相关系数,(,取值及其意义,),-1.0,+1.0,0,-0.5,+0.5,完全负相关,,,无线性相关,,完全正相关,负相关程度增加,,r,,正相关程度增加,,因,p=0.000
了解不同变量在不同水平下的数据分布情况SST:总差异(总离差平方和)各处理组总体方差相等(方差齐性或方差同质性)不同教育背景的方差齐性检验(方差同质性检验)结果简单散点图:表示一对变量间统计关系的散点图,。












