好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

spss统计分析-实例分析课件.ppt

90页
  • 卖家[上传人]:公****
  • 文档编号:588235968
  • 上传时间:2024-09-07
  • 文档格式:PPT
  • 文档大小:2.66MB
  • / 90 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • SPSS统计分析统计分析——案例应用案例应用SPSS基本统计分析基本统计分析方差分析方差分析相关分析相关分析 1、基本统计分析、基本统计分析基本统计分析,描述性统计分析是统计分析的第一步,做好这第一步是基本统计分析,描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件下面进行正确统计推断的先决条件SPSS的许多模块均可完成描述性的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在描述菜单中,包括分析,但专门为该目的而设计的几个模块则集中在描述菜单中,包括:: 1.1频数分析频数分析频数分析目的:基本统计分析往往从频数分析开始通过频频数分析目的:基本统计分析往往从频数分析开始通过频数分析能够了解变量取值的状况,对把握数据的分布特征是数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的非常有用的1)编制频数分布表)编制频数分布表频数:即变量值落在某个区间(或某个类别)中的次数频数:即变量值落在某个区间(或某个类别)中的次数百分比:即各频数占总样本数的百分比百分比:即各频数占总样本数的百分比有效百分比:即各频数占有效样本数的百分比,有效样本数=总样本-缺失样本有效百分比:即各频数占有效样本数的百分比,有效样本数=总样本-缺失样本数数累计百分比:即各百分比逐级累加起来的结果。

      最终取值为累计百分比:即各百分比逐级累加起来的结果最终取值为1002)绘制统计图)绘制统计图 1.1 频数分析频数分析频数分析的基本操作频数分析的基本操作((1)分析)分析—描述统计描述统计—频率频率((2)将频数分析变量选择到)将频数分析变量选择到变量框中变量框中((3)单击表格按钮选择绘制)单击表格按钮选择绘制统计图形,选择饼图统计图形,选择饼图 1.1频数分析频数分析 1.1频数分析频数分析输出结果输出结果 1.1 频数分析_例 频数分析_例1例例1--1 分析住房状况调查数据中户主的从业状况 分析住房状况调查数据中户主的从业状况和目前所住房屋的产权情况和目前所住房屋的产权情况思路:利用频数分布表及图形思路:利用频数分布表及图形条件:都是分类变量,直接分析条件:都是分类变量,直接分析步骤:步骤:•调用命令:调用命令:•Analyze\Descriptive Statistics\Frequencies•选择分析变量选择分析变量•选择图形选择图形•选择分布表输出格式选择分布表输出格式 1.1 频数分析_例 频数分析_例1分析结果分析结果分布表中累计百分比基本分布表中累计百分比基本没有意义,应该删除。

      没有意义,应该删除 1.1 频数分析_扩展功能频数分析_扩展功能分位数分位数(Pencentile Values)•计算分位数计算分位数:适用于定距数据适用于定距数据•数据按升序排序后,找到若干个分位点上的变量值数据按升序排序后,找到若干个分位点上的变量值•quartiles:计算计算四分位数四分位数25%(QL)、、50%(中位数中位数)、、75%(QU)• cut points for n equal groups:n等份等份•percentile:自定义百分位点自定义百分位点• 其他基本统计量Ø集中趋势(Central Tendency)Ø离散趋势(Dispersion)Ø分布形态(Distribution) 1.1 频数分析_扩展功能例频数分析_扩展功能例案例案例1--2•分析人均住房面积的分布,并对本市户口和外地户口家分析人均住房面积的分布,并对本市户口和外地户口家庭的人均住房面积分布情况进行比较庭的人均住房面积分布情况进行比较•特点:特点:“人均住房面积人均住房面积”是定距型变量是定距型变量•步骤:步骤:•根据“人均住房面积”建立分组变量;•调用命令频数分析命令Frequencies– 选择分组变量作为分析变量•再一次使用频数分析命令Frequencies–选择“人均住房面积”作为分析变量–不选择生成频数表,选择不生成图形–选择计算四分位数•根据“户口状况”对数据进行拆分(Split File)•再重复上一步的工作(计算分类的四分位数) 案例案例1--2分析结果分析结果1 案例案例1--2分析结果分析结果2 频数分析频数分析•例:例:测量测量100名健康名健康成人的血清蛋白总含成人的血清蛋白总含量,形成数据量,形成数据serum(克(克/升),使升),使用频数分析了解这一用频数分析了解这一数据的统计特征。

      数据的统计特征 S SP PS SS S的的的的操操操操作作作作步步步步骤骤骤骤1 1、菜单中点、菜单中点、菜单中点、菜单中点分析分析分析分析/ /描述统计描述统计描述统计描述统计/ /频率频率频率频率,进入频,进入频,进入频,进入频率对话框率对话框率对话框率对话框频数分析频数分析 S SP PS SS S的的的的操操操操作作作作步步步步骤骤骤骤2 2、将变量选入、将变量选入、将变量选入、将变量选入变量变量变量变量窗口,再点击窗口,再点击窗口,再点击窗口,再点击统计统计统计统计量量量量,进行设置,完,进行设置,完,进行设置,完,进行设置,完成后点成后点成后点成后点继续继续继续继续返回返回返回返回 S SP PS SS S的的的的操操操操作作作作步步步步骤骤骤骤2 2、在频率主对话框中分别进入、在频率主对话框中分别进入、在频率主对话框中分别进入、在频率主对话框中分别进入图表图表图表图表和和和和格式格式格式格式进进进进行设置,完成后点行设置,完成后点行设置,完成后点行设置,完成后点继续继续继续继续返回,最后点返回,最后点返回,最后点返回,最后点确定确定确定确定 S SP PS SS S的的的的输输输输出出出出结结结结果果果果 该教学案例数据解析该教学案例数据解析均值(平均值、平均数)表示的是某变量均值(平均值、平均数)表示的是某变量所有取值的集中趋势或平均水平。

      例如,所有取值的集中趋势或平均水平例如,学生某门学科的平均成绩、公司员工的平学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等均收入、某班级学生的平均身高等 中值是在一组数据中居于中间的数中值是在一组数据中居于中间的数(特别注意的地特别注意的地方是:这组数据之前已经经过升序排列!!!方是:这组数据之前已经经过升序排列!!!),,即在这组数据中,有一半的数据比它大,有一半即在这组数据中,有一半的数据比它大,有一半的数据比它小如果这组数据包含偶数个数字,的数据比它小如果这组数据包含偶数个数字,中值是位于中间的两个数的平均值中值是位于中间的两个数的平均值 10 20 40 50 70 10 20 30 40 50 60 百分位数分析:比如,假设某个考生在入学考试百分位数分析:比如,假设某个考生在入学考试中的语文部分的原始分数为中的语文部分的原始分数为54分相对于参加同分相对于参加同一考试的其他学生来说,他的成绩如何并不容易一考试的其他学生来说,他的成绩如何并不容易知道但是如果原始分数知道但是如果原始分数54分恰好对应的是第分恰好对应的是第70百分位数,我们就能知道大约百分位数,我们就能知道大约70%的学生的考分%的学生的考分比他低,而约比他低,而约30%的学生考分比他高。

      %的学生考分比他高 众数(众数(Mode)统计学名词,在统计分布上具有)统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)众数可以不存在或多于一个) 修正定义:是修正定义:是一组数据中出现次数最多的数值,叫众数,有时一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个用众数在一组数中有好几个用M表示 理性理解:理性理解:简单的说,就是一组数据中占比例最多的那个数简单的说,就是一组数据中占比例最多的那个数 全距也称为极差全距也称为极差,是数据的最大值与最小,是数据的最大值与最小值之间的绝对差在相同样本容量情况下值之间的绝对差在相同样本容量情况下的两组数据,全距大的一组数据要比全距的两组数据,全距大的一组数据要比全距小的一组数据更为分散小的一组数据更为分散 计算公式:最大值-最小值计算公式:最大值-最小值 1.2 描述分析描述分析描述分析目的:获取数据的均值、标准差、描述分析目的:获取数据的均值、标准差、峰度等数据,进一步把握数据的峰度等数据,进一步把握数据的集中趋势集中趋势、、离散程度离散程度和和分布形状分布形状。

      基本描述统计量基本描述统计量 刻画集中趋势的统计量刻画集中趋势的统计量 刻画离散程度的统计量刻画离散程度的统计量 刻画分布形态的统计量刻画分布形态的统计量 1.2 描述分析描述分析刻画集中趋势的统计量刻画集中趋势的统计量集中趋势指一组数据向某一中心值靠拢的倾向计算刻画集中趋势指一组数据向某一中心值靠拢的倾向计算刻画集中趋势的统计量正是要寻找能够反应数据一般水平的集中趋势的统计量正是要寻找能够反应数据一般水平的“代表值代表值”或或“中心值中心值”常用统计量:常用统计量:均值均值、、中位数中位数、、众数众数 1.2 描述分析描述分析刻画离散程度的统计量刻画离散程度的统计量离散程度离散程度是指一组数据远离其是指一组数据远离其“中心值中心值”的程度 如果数据都紧密地集中在如果数据都紧密地集中在“中心值中心值”的周围,数据的离的周围,数据的离散程度较小,说明这个散程度较小,说明这个“中心值中心值”对数据的代表性好;对数据的代表性好;相反,如果数据仅是比较松散地分布在相反,如果数据仅是比较松散地分布在“中心值中心值”的周的周围,数据的离散程度较大,则此围,数据的离散程度较大,则此“中心值中心值”说明数据特说明数据特征是不具有代表性的。

      征是不具有代表性的常用统计量:常用统计量:全距、方差、标准差全距、方差、标准差 •标准差(standard deviation--Std Dev):表示某变量的所有变量值离散程度的统计量•SPSS中计算的是样本标准差中计算的是样本标准差•方差(variance):标准差的平方•SPSS中计算的是样本方差中计算的是样本方差•极差 (range): (maximum)—(minimum) 1.2 描述分析描述分析刻画分布形态的描述统计量刻画分布形态的描述统计量数据分布形态主要指数据分布数据分布形态主要指数据分布是否对称是否对称,,偏斜程度偏斜程度如何,如何,分布分布陡峭程度陡峭程度等常用统计量:常用统计量:偏度、峰度偏度、峰度偏度偏度:描述变量取值分布:描述变量取值分布形态对称性形态对称性的统计量的统计量当分布为对称分布时,正负总偏差相等,偏度值等于当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分;当分布为不对称分布时,正负总偏差不相等,偏度值大于布时,正负总偏差不相等,偏度值大于0或小于或小于0偏度值大于大于0表示正偏差表示正偏差值大,称为值大,称为正偏或右偏正偏或右偏;偏度值;偏度值小于小于0表示负偏差值大,称为表示负偏差值大,称为负偏或左偏负偏或左偏。

      偏度偏度绝对值越绝对值越大,表示数据分布形态的大,表示数据分布形态的偏斜程度越大偏斜程度越大峰度:描述变量取值分布峰度:描述变量取值分布形态陡峭程度形态陡峭程度的统计量的统计量当数据分布与标准正态分布的陡峭程度相同时,峰度值等于当数据分布与标准正态分布的陡峭程度相同时,峰度值等于0;峰度;峰度大于大于0表表示数据的分布比标准正态分布示数据的分布比标准正态分布更陡峭更陡峭,为,为尖峰分布尖峰分布;峰度;峰度小于小于0表示数据的表示数据的分布比标准正态分布分布比标准正态分布平缓平缓,为,为平峰分布平峰分布 扁平分布扁平分布扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态与标准正态与标准正态与标准正态分布比较!分布比较!分布比较!分布比较!偏态偏态偏态偏态扁平分布扁平分布扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布扁平分布扁平分布扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布左偏分布左偏分布左偏分布左偏分布扁平分布扁平分布扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布右偏分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布左偏分布扁平分布扁平分布扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布 1.2 描述分析描述分析计算基本描述统计量的操作计算基本描述统计量的操作((1)分析)分析—描述统计描述统计—描述描述((2)将分析变量选择到变量框中)将分析变量选择到变量框中((3)单击选项按钮指定基本统计量)单击选项按钮指定基本统计量 1.2 描述分析描述分析  应用例一 应用例一案例案例1--3:计算人均住房面积的基本描述统计量,:计算人均住房面积的基本描述统计量,并对本市户口和外地户口家庭的情况进行比较。

      并对本市户口和外地户口家庭的情况进行比较操作步骤:操作步骤:•调用命令调用命令Analyze\Descriptive Statistics  \Descriptives•选择“人均面积”作为分析变量•选择必要的分析指标•根据户口状况对数据进行拆分根据户口状况对数据进行拆分(Split File)•重新调用命令重新调用命令\Descriptives计算不同户口状况的指计算不同户口状况的指标值标值  应用例一分析结果 应用例一分析结果全部数据分析结果分组数据分析结果 1.2 描述性分析• 描述性分析主要用于输出变量的各类描述性统计量的值,通过上一节的学习可知,频数分析同样可以做到,都是以计算数值型单变量的统计量为主描述性统计分析没有图形功能,也不能生成频数表,但描述性分析可以将原始数据转换成标准正态评分值,并以变量形式存入数据文件中,以便后续分析时应用 在多元统计分析中,对均值差异较大的变量,采在多元统计分析中,对均值差异较大的变量,采用变量标准化后的数据进行分析,可以消除均值用变量标准化后的数据进行分析,可以消除均值差异带来的影响差异带来的影响 描述统计量描述统计量•例:例:调查记录了调查记录了130名正常男名正常男性血液中的红细胞数(性血液中的红细胞数(RBC,,万万/mm)),用描述统计量查看该用描述统计量查看该数据的统计特征。

      数据的统计特征 S SP PS SS S的的的的操操操操作作作作步步步步骤骤骤骤1 1、菜单中点、菜单中点、菜单中点、菜单中点分析分析分析分析/ /描述统计描述统计描述统计描述统计/ /描述描述描述描述,进入描述对话框,进入描述对话框,进入描述对话框,进入描述对话框2 2、将变量算入、将变量算入、将变量算入、将变量算入变量变量变量变量窗口,进入窗口,进入窗口,进入窗口,进入选项选项选项选项对话框进行设置,对话框进行设置,对话框进行设置,对话框进行设置,完成后点完成后点完成后点完成后点继续继续继续继续,并,并,并,并确定确定确定确定 S SP PS SS S的的的的输输输输出出出出结结结结果果果果数据编辑窗口中,在数据编辑窗口中,在数据编辑窗口中,在数据编辑窗口中,在原变量右侧多了一列原变量右侧多了一列原变量右侧多了一列原变量右侧多了一列由原变量标准化产生由原变量标准化产生由原变量标准化产生由原变量标准化产生的的的的“ “Z+Z+原变量名原变量名原变量名原变量名” ”的列的列的列的列 1.3 交叉分组下的频数分析交叉分组下的频数分析目的 了解不同变量在不同水平下的数据分布情况 •例:学习成绩与性别有关联吗?例:学习成绩与性别有关联吗?(两变量两变量)•例:职业、性别、爱逛商店有关联吗?例:职业、性别、爱逛商店有关联吗?(三变量三变量)分析的主要步骤•产生交叉列联表•分析列联表中变量间的关系 列联表列联表Ø列联表分析过程,可通过列联表分析过程,可通过CrosstabsCrosstabsCrosstabsCrosstabs对话框对话框实现实现( (AnalyzeAnalyzeAnalyzeAnalyze Descriptive Statistics CrosstabsDescriptive Statistics CrosstabsDescriptive Statistics CrosstabsDescriptive Statistics Crosstabs) )。

      公司公司1 1公司公司2 2公司公司3 3公司公司4 4合计合计赞成赞成6868757557577979279279反对反对3232454533333131141141合计合计1001001201209090110110420420例例2.1d已知对集团公司某项改革方案意见的已知对集团公司某项改革方案意见的调查结果,试分析各子公司对该项改调查结果,试分析各子公司对该项改革方案的态度是否一致革方案的态度是否一致. . 定义变量定义变量( (形成数据集形成数据集3 3) )公司公司公司公司 company公司公司公司公司1 11 1公司公司公司公司2 22 2公司公司公司公司3 33 3公司公司公司公司4 44 468683232757545455757333379793131态度态度态度态度 attitude赞成赞成赞成赞成 1 1反对反对反对反对 2 2 赞成赞成赞成赞成 1 1反对反对反对反对 2 2 赞成赞成赞成赞成 1 1反对反对反对反对 2 2 赞成赞成赞成赞成 1 1反对反对反对反对 2 2 观察频数观察频数观察频数观察频数 freqfreq 指定指定freq为加权变量为加权变量 CrosstabsCrosstabsCrosstabsCrosstabs对话框对话框对话框对话框指定行变量指定行变量指定行变量指定行变量指定列变量指定列变量指定列变量指定列变量指定分布表的层变量指定分布表的层变量指定分布表的层变量指定分布表的层变量显示分类条形图显示分类条形图显示分类条形图显示分类条形图不输出多维交叉表不输出多维交叉表不输出多维交叉表不输出多维交叉表 CrosstabsCrosstabsCrosstabsCrosstabs对话框对话框对话框对话框本例中选择本例中选择本例中选择本例中选择chi-squarechi-square卡方检验卡方检验卡方检验卡方检验分类变量相关指标分类变量相关指标分类变量相关指标分类变量相关指标相关相关相关相关列联系数列联系数列联系数列联系数ΦΦ和和和和V V系数系数系数系数λ λ值值值值不确定系数不确定系数不确定系数不确定系数定序变量的相关指标定序变量的相关指标定序变量的相关指标定序变量的相关指标适用于一个为分类适用于一个为分类适用于一个为分类适用于一个为分类变量、另一个为等变量、另一个为等变量、另一个为等变量、另一个为等间隔变量的检验间隔变量的检验间隔变量的检验间隔变量的检验 列联表中的列联表中的卡方独立性检验卡方独立性检验H0::行变量与列变量独立行变量与列变量独立显著性水平显著性水平=0.05 CrosstabsCrosstabsCrosstabsCrosstabs对话框对话框对话框对话框本例中选择频数本例中选择频数本例中选择频数本例中选择频数及频率输出项及频率输出项及频率输出项及频率输出项观察频数观察频数观察频数观察频数期望频数期望频数期望频数期望频数频率频率频率频率行频率行频率行频率行频率列频率列频率列频率列频率总和频率总和频率总和频率总和频率残差残差残差残差非标准化非标准化非标准化非标准化标准化标准化标准化标准化调整的标准化残差调整的标准化残差调整的标准化残差调整的标准化残差频数频数频数频数升序升序升序升序行顺序行顺序行顺序行顺序降序降序降序降序 输输输输出出出出结结结结果果果果㈠㈠㈠㈠ 输出结果㈡:输出结果㈡:输出结果㈡:输出结果㈡:显著值为0.430>0.05接受零假设,态度与公司没有关系 2、方差分析、方差分析方差分析概述方差分析概述背景案例背景案例统计学原理统计学原理相关统计量相关统计量SPSS操作操作SPSS结果解读结果解读方差分析案例方差分析案例 2.1方差分析概述方差分析概述背景案例背景案例影响农作物产量的因素可能有多个,如品种、施肥量、地域特影响农作物产量的因素可能有多个,如品种、施肥量、地域特征等。

      在众多的因素中,有些因素会对产量有明显的影响,有征等在众多的因素中,有些因素会对产量有明显的影响,有些因素的影响不大因此,找到中影响因素中起重要的和关键些因素的影响不大因此,找到中影响因素中起重要的和关键作用的因素是非常重要的进一步,在掌握了关键因素后,如作用的因素是非常重要的进一步,在掌握了关键因素后,如品种、施肥量等,还需要对不同品种、不同施肥量的产量进行品种、施肥量等,还需要对不同品种、不同施肥量的产量进行比较,研究究竟哪个品种的产量高,施肥量究竟多少最为合适比较,研究究竟哪个品种的产量高,施肥量究竟多少最为合适在制定广告宣传策略时,不同方案所获得的广告效果可能是不在制定广告宣传策略时,不同方案所获得的广告效果可能是不一样的广告效果可能会受到广告形式、地区规模、播放时间一样的广告效果可能会受到广告形式、地区规模、播放时间段、播放频率等因素的影响需要研究在影响广告效果的众多段、播放频率等因素的影响需要研究在影响广告效果的众多因素中,哪些因素是主要的,哪些是次要的,哪些因素水平是因素中,哪些因素是主要的,哪些是次要的,哪些因素水平是最合理的最合理的对这种类似问题的研究可以通过方差分析来实现。

      对这种类似问题的研究可以通过方差分析来实现 2.1 方差分析概述方差分析概述2.1.2 方差分析相关概念方差分析相关概念观测变量:观测变量:农作物产量、广告效果农作物产量、广告效果因素(控制变量):因素(控制变量):品种、施肥量、播放时间段等品种、施肥量、播放时间段等因素水平:因素水平:因素的不同类别,如甲品种、乙品种就是品因素的不同类别,如甲品种、乙品种就是品种这一变量的两个水平种这一变量的两个水平单因素方差分析、多因素方差分析单因素方差分析、多因素方差分析 2.1 方差分析概述方差分析概述2.1.3 方差分析统计学原理方差分析统计学原理观测变量取值变化原因:观测变量取值变化原因:1、控制变量;、控制变量; 2、随机变、随机变量量如果相对于随机变量引起的观测值差异,控制变量引起的观测值差异较大,则说明如果相对于随机变量引起的观测值差异,控制变量引起的观测值差异较大,则说明控制变量对观测变量有显著影响在统计学中,控制变量和随机变量引起的差异可控制变量对观测变量有显著影响在统计学中,控制变量和随机变量引起的差异可以分别用一个统计量来表示单因素方差分析中,分别用以分别用一个统计量来表示单因素方差分析中,分别用SSA、、SSE来表示。

      来表示SSA:组间差异(:组间差异(组间离差平方和组间离差平方和),主要是由控制变量的不),主要是由控制变量的不同水平造成的差异;同水平造成的差异;SSE:组内差异(:组内差异(组内离差平方和组内离差平方和),主要是由随机变量引起),主要是由随机变量引起的差异SSA+SSE=SSTSST:总差异(总差异(总离差平方和总离差平方和)) 方差分析任务:判定方差分析任务:判定SSA相对于相对于SST(或或SSE)的大小SSA相对较大,则相对较大,则表明控制变量起到了显著影响,若相对较小,则表明控制变量没有显著影表明控制变量起到了显著影响,若相对较小,则表明控制变量没有显著影响 2.1 方差分析概述方差分析概述•2.1.3 单因素方差分析统计学原理单因素方差分析统计学原理•假设控制变量会对观测值不会产生显著影响,假设控制变量会对观测值不会产生显著影响,将总离差(将总离差(SST)分解为组间离差平方和)分解为组间离差平方和((SSA)和组内离差平方和()和组内离差平方和(SSE)•比较比较SSA与与SST的相对大小的相对大小•SSA与与SST的相对大小要受到样本规模、控制变量水平数的影响,为消除这些因素的影响的相对大小要受到样本规模、控制变量水平数的影响,为消除这些因素的影响对对SSA、、SST要进行一定的处理(分别除以自由度),用统计量要进行一定的处理(分别除以自由度),用统计量F来表示来表示SSA的相对大小的相对大小方差分析方差分析-从观测变量的从观测变量的部分部分取值推测观测变量取值推测观测变量总体总体取值与随机变量的关系。

      取值与随机变量的关系部分是否能够代表总体情况?部分是否能够代表总体情况?由于存在随机抽样和样本数量较少等原因,通过分析由于存在随机抽样和样本数量较少等原因,通过分析样本样本的出的结论不能直接用于的出的结论不能直接用于总体总体要进行假设检验要进行假设检验F是随机变量,服从一定的分布,其取值会因为具体的样本的不同而不同计算研究样是随机变量,服从一定的分布,其取值会因为具体的样本的不同而不同计算研究样本的本的F值,即值,即F的观测值,并计算该的观测值,并计算该F观测值对应概率观测值对应概率p值,如果值,如果p值很小(一般是小于值很小(一般是小于0.05),说明),说明F取到该观测值的概率很小,是不可能发生的则认为假设取到该观测值的概率很小,是不可能发生的则认为假设“控制变量对观控制变量对观测值没有显著影响测值没有显著影响”是不对的,也就是,控制变量会对观测变量产生显著影响是不对的,也就是,控制变量会对观测变量产生显著影响 2.1方差分析概述方差分析概述2.1.4 单因素方差分析基本假设:单因素方差分析基本假设:对总体分布的假设:对总体分布的假设:总体服从正态分布总体服从正态分布各处理组总体方差相等(方差齐性或方差同质性)各处理组总体方差相等(方差齐性或方差同质性)正态分布检验:根据大数定律和中心极限定理原理正态分布检验:根据大数定律和中心极限定理原理 ,假,假设满足。

      设满足方差齐性检验:方差齐性检验:对控制变量不同水平下观测变量总体的方差是否相等进行假设检验,对控制变量不同水平下观测变量总体的方差是否相等进行假设检验,在在SPSS中可以通过中可以通过方差同质性检验方差同质性检验进行 2.2 SPSS方差分析操作方差分析操作2.2.1 方差分析数据形式方差分析数据形式离差分解时仅仅是对观测水平这一列的数值进行分析,但是也离差分解时仅仅是对观测水平这一列的数值进行分析,但是也要有存放控制变量的列要有存放控制变量的列正确的数据格式正确的数据格式是统计分析的前提是统计分析的前提观测变量观测变量控制变量控制变量 2.2 SPSS方差分析操作方差分析操作2.2.2 SPSS操作步骤操作步骤打开的数据格式打开的数据格式分析分析——比较均值比较均值——单因素方差分析单因素方差分析选择观测变量(因子)、控制变量(因变量)选择观测变量(因子)、控制变量(因变量)(只能选择一个因子)只能选择一个因子)选项,选择选项,选择“方差同质性检验方差同质性检验”缺失值处理缺失值处理 2.3 SPSS方差分析结果解读方差分析结果解读P值(显著性)值(显著性)=0.515,远大,远大于基准值于基准值0.05,说明假设,说明假设“方方差齐性差齐性”正确,即控制变量不正确,即控制变量不同水平下各组的方差相同。

      同水平下各组的方差相同满满足方差分析的前提足方差分析的前提P值(显著性)值(显著性)=0. 000,远小于基,远小于基准值准值0.05,说明假设,说明假设“控制变量对观控制变量对观测变量没有显著影响,即广告形式测变量没有显著影响,即广告形式对销售额没有显著影响对销售额没有显著影响”不不正确,正确,即控制变量不同水平下各组的方差即控制变量不同水平下各组的方差不相同结论:广告形式对销售额有显著影响结论:广告形式对销售额有显著影响 2.3 SPSS方差分析结果解读方差分析结果解读结论:广告形式用报纸获得的销售额最高,宣传品的效果最不好结论:广告形式用报纸获得的销售额最高,宣传品的效果最不好 61单因素方差分析(4) SPSS实现举实现举例例【【例例】】 在大熊猫形象在大熊猫形象经济贡经济贡献的献的调查调查中,被中,被调查调查者的教育背者的教育背景分景分为为五个五个层层次,次,A A高中高中/ /中中专专及以下及以下 B B大大专专 C C大学本科大学本科 D D硕硕士士 E E 博士及以上博士及以上 ,在此,可分析不同教育水平的游客,在此,可分析不同教育水平的游客对对于景区的于景区的购购物物质质量接待量接待满满意度作用有无不同。

      意度作用有无不同1212.您.您对对四川四川购购物接待物接待质质量量满满意意吗吗??1 1不不满满意意 2 2有点不有点不满满意意 3 3不好不好说说 4 4 有点有点满满意意 5 5 非常非常满满意意2525.您的教育背景:.您的教育背景:A A 高中高中/ /中中专专及以下及以下 B B大大专专 C C大学本科大学本科 D D 硕硕士士 E E 博士及以上博士及以上 62单因素方差分析Ø第1步 分析:由于考由于考虑虑的是一个控制的是一个控制变变量(教育背景)量(教育背景)对对一个一个观测观测变变量(量(购购物接待物接待质质量量满满意度)的影响,而且是意度)的影响,而且是4种教育背景,所以不适种教育背景,所以不适宜用独立宜用独立样样本本T检验检验((仅仅适用两适用两组组数据),数据),应应采用采用单单因素方差分析因素方差分析Ø第2步 数据的组织:数据分成两列,一列是购物质量满意度,变量数据分成两列,一列是购物质量满意度,变量名为名为“V36”,另一变量是教育背景(变量值分别为,另一变量是教育背景(变量值分别为1,2,3,4),变量名),变量名为为“CE25”,输入数据并保存。

      输入数据并保存 Ø第3步 方差相等的齐性检验:由于方差分析的前提是各个水平下由于方差分析的前提是各个水平下(这里是不同的教育背景(这里是不同的教育背景CE25影响下的购物接待质量满意度影响下的购物接待质量满意度V36)的总)的总体服从方差相等的正态分布,且各组方差具有齐性其中正态分布的要体服从方差相等的正态分布,且各组方差具有齐性其中正态分布的要求并不是很严格,但对于方差相等的要求是比较严格的,因此必须对方求并不是很严格,但对于方差相等的要求是比较严格的,因此必须对方差相等的前提进行检验差相等的前提进行检验 631.1 单因素方差分析 不同教育背景的方差齐性检验(方差同质性检验)结果方差齐性检验的H0假设是:方差相等从上表可看出相伴根据Sig.=0.393> (0.05)说明应该接受H0假设(即方差相等)故下面就用方差相等的检验方法 64单因素方差分析 五种不同教育背景的方差检验(ANOVA)结果 上表是教育背景方差分析的结果,组间(Between Groups)平方和(Sum of Squares)为17.256,自由度(df)为4,均方为4.314;组内(Within Groups)平方和为809.535,自由度为805,均方为1.006;F统计量为4.290。

      由于组间比较的相伴概率Sig.(p值)=0.002<0.05,故应拒绝H0假设(四种教育背景对购物满意度影响效果无显著差异),说明四种教育背景对购物接待质量满意度的影响效果有显著性差异 65单因素方差分析Ø第4步 多重比较分析:通通过过上面的步上面的步骤骤,只能判,只能判断断4种教育背景种教育背景对对于于购购物物满满意度的影响是否有意度的影响是否有显显著著差异如果想差异如果想进进一步了解究竟是哪种教育水平与其一步了解究竟是哪种教育水平与其他他组组有有显显著性的均著性的均值值差差别别(即哪种教育水平影响更(即哪种教育水平影响更大)等大)等细节问题细节问题,就需要在多个,就需要在多个样样本均本均值间进值间进行两行两两比两比较较由于第由于第3步检验出来方差具有齐性,故选步检验出来方差具有齐性,故选择一种方差相等的方法,这里选择一种方差相等的方法,这里选LSD方法;方法;Significance level(显著性水平)取(显著性水平)取0.05;; 661.1 单因素方差分析Ø第5步 运行主要结果及分析: 从整个表反映出来五种教育背景之间1与2、3、4,2与3之间不存在显著差异,其它均存在显著差异。

      671.1 单因素方差分析 均值折线图 上图为几种教育背景均值的折线图,可以看出均值分布比较陡峭,均值差异也较大 3 相关分析相关分析相关分析概述相关分析概述SPSS相关分析操作相关分析操作SPSS相关分析结果解读相关分析结果解读SPSS相关分析案例相关分析案例 3.1 相关分析概述相关分析概述家庭收入和支出、子女身高和父母身高的关系、家庭收入和支出、子女身高和父母身高的关系、一个人的身高和体重的关系?一个人的身高和体重的关系?相关分析:相关分析:研究两个变量相互关系的密切程度和研究两个变量相互关系的密切程度和变化趋势,并用适当的统计指标描述变化趋势,并用适当的统计指标描述 3.1 相关分析概述相关分析概述相关分析与方差分析的比较相关分析与方差分析的比较相同点:分析两个变量之间相同点:分析两个变量之间是否有关系是否有关系不同点:相关分析可以比较两个变量的不同点:相关分析可以比较两个变量的变变化趋势化趋势的异同,方差分析不能的异同,方差分析不能 3.1 相关分析概述相关分析概述相关分析工具:相关分析工具:散点图、数值散点图、数值散点图:将数据以点的形式画在直角坐标系上,通散点图:将数据以点的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及过观察散点图能够直观的发现变量间的相关关系及它们的强弱程度和方向。

      它们的强弱程度和方向在实际分析中,散点图经常表现出某些特定的形式在实际分析中,散点图经常表现出某些特定的形式如绝大多数的数据类似于如绝大多数的数据类似于“橄榄球橄榄球”的形状,或集的形状,或集中形成一根中形成一根“棒状棒状”,而剩余的少数数据点则零散,而剩余的少数数据点则零散地分布在四周通常地分布在四周通常“橄榄球橄榄球”和和“棒状棒状”代表了代表了数据对的主要结构和特征,可以利用曲线将这种主数据对的主要结构和特征,可以利用曲线将这种主要结构的轮廓描绘出来,使数据的主要特征更突出要结构的轮廓描绘出来,使数据的主要特征更突出 3.1 相关分析概述相关分析概述散点图散点图简单散点图:简单散点图:表示一对变量间统计关系的散点图表示一对变量间统计关系的散点图矩阵散点图:矩阵散点图:以矩阵形式在多个坐标轴上分别显示多对以矩阵形式在多个坐标轴上分别显示多对变量间的统计关系变量间的统计关系 r=1r=0.7~0.8r=0r=0r=-0.7 ~ -0.8r=-1完全正相关完全正相关正相关正相关无相关无相关完全负相关完全负相关负相关负相关无相关无相关 3.1 相关分析概述相关分析概述矩阵散点图:矩阵散点图:弄清各坐标轴所代表的变量。

      弄清各坐标轴所代表的变量 课题总数课题总数专著数专著数论文数论文数课课题题总总数数论论文文数数专专著著数数横轴:从最底层一条向上依次为横轴:从最底层一条向上依次为 论文数、专注数、课题总数论文数、专注数、课题总数纵轴:从最左侧一条向右依次为纵轴:从最左侧一条向右依次为 课题总数、专注数、论文数课题总数、专注数、论文数 3.1 相关分析概述相关分析概述相关系数相关系数以数值的方式精确的反映了两个变量间以数值的方式精确的反映了两个变量间线性相关线性相关的强弱程度的强弱程度 ①①相关系数相关系数r的取值在的取值在-1~~+1之间;之间; ②②r>0表示两变量存在表示两变量存在正的线性相关正的线性相关关系;关系;r<0表示两变表示两变量存在量存在负的线性相关负的线性相关关系;关系; ③③r==1表示两变量存在表示两变量存在完全正相关完全正相关;;r==-1表示两变量存表示两变量存在在完全负相关完全负相关;;r==0表示两变量表示两变量不存在相关不存在相关,,不代表两不代表两变量之间不相关变量之间不相关;; ④④|r|>0.8表示两变量有表示两变量有较强的线性关系较强的线性关系;; |r|<0.3表示两表示两变量之间的变量之间的线性关系较弱线性关系较弱。

      3.1 相关分析概述相关分析概述相关系数种类相关系数种类1.Pearson简单相关系数(度量两定距型变量的线性相简单相关系数(度量两定距型变量的线性相关性)关性)2.Spearman 等级相关系数(度量定序变量间的线性等级相关系数(度量定序变量间的线性相关关系)相关关系)定序变量:定序变量:区别等级次序的变量定序变量能决定次序,例如文化程度可区别等级次序的变量定序变量能决定次序,例如文化程度可以分为大学、高中、初中、小学、文盲;年龄可以分为老、中、青但是,以分为大学、高中、初中、小学、文盲;年龄可以分为老、中、青但是,定序变量在只具有大于或小于的性质,只能排列出它们的顺序,而不能反映定序变量在只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离比如大学究竟比高中高出多少,大学与高中之出大于或小于的数量或距离比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的定距变量:定距变量:区别等级次序及其距离的变量它除了包括定序变量的特性外,区别等级次序及其距离的变量。

      它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质的数学特质 3.2 SPSS相关分析操作相关分析操作3.2.1 散点图散点图1、图形、图形-旧对话框旧对话框-散点散点/点状点状2、选择散点图类型、选择散点图类型3、制定、制定X、、Y轴变量或矩阵变量轴变量或矩阵变量 2.2.2 散点图应用举例散点图应用举例案例: 利用住房状况问卷调查数据,分析家庭收利用住房状况问卷调查数据,分析家庭收入与打算购买的住房面积之间存在怎样的统计关入与打算购买的住房面积之间存在怎样的统计关系数据:住房状况调查系数据:住房状况调查.sav))操作:【【图形(图形(Graps))】】 【【散点图(散点图(Scatter))】】 简单散点图①①表示一对变量间统计关系的散点图表示一对变量间统计关系的散点图②②将纵轴变量选入将纵轴变量选入【【Y 轴轴】】,,③③将横轴变量选入将横轴变量选入【【X轴轴】】,,④④将分组变量选入将分组变量选入【【设置标记设置标记】】:用该变量分组,用该变量分组,并在一张图上用不同颜色绘制若干个散点图。

      并在一张图上用不同颜色绘制若干个散点图⑤⑤将标记变量选入将标记变量选入【【标注个案标注个案】】:将标记变量的:将标记变量的各变量值标记在散点图相应点的旁边各变量值标记在散点图相应点的旁边 3.2 SPSS相关分析操作相关分析操作相关系数相关系数1、分析、分析-相关相关-双变量双变量2、选择变量(可选择多个)、选择变量(可选择多个)3、选择相关系数(可复选)、选择相关系数(可复选) 3.3 SPSS结果解读结果解读样本相关系数样本相关系数假设假设“总体无线性相关总体无线性相关”概率接近概率接近0,小于,小于0.01,假设不对,即总体存,假设不对,即总体存在显著线性相关在显著线性相关 二元变量相关分析主对话框二元变量相关分析主对话框 正态分布正态分布正态分布正态分布的等间隔的等间隔的等间隔的等间隔测度的变测度的变测度的变测度的变量使用量使用量使用量使用计算分类计算分类计算分类计算分类间的秩相间的秩相间的秩相间的秩相关系数关系数关系数关系数计算分类间的秩相计算分类间的秩相计算分类间的秩相计算分类间的秩相关系数,考虑节点关系数,考虑节点关系数,考虑节点关系数,考虑节点两个变量间的相关分析 输出选择项对话框 连续变量间的相关分析实例连续变量间的相关分析实例Data08-01Data08-01::::19621962年-年-年-年-19881988年安徽省国民收入与城乡居民储蓄存款余年安徽省国民收入与城乡居民储蓄存款余年安徽省国民收入与城乡居民储蓄存款余年安徽省国民收入与城乡居民储蓄存款余额两个变量间的线性相关分析(额两个变量间的线性相关分析(额两个变量间的线性相关分析(额两个变量间的线性相关分析(incomeincome:国民收入,:国民收入,:国民收入,:国民收入,depositdeposit:城乡居:城乡居:城乡居:城乡居民储蓄存款余额,民储蓄存款余额,民储蓄存款余额,民储蓄存款余额,numbernumber:序号,:序号,:序号,:序号,yearyear:年份)。

      年份)连续变量间的相关:连续变量间的相关:Pearson 相关系数相关系数相关系数相关系数r=.976r=.976和其相应的显著性概率和其相应的显著性概率和其相应的显著性概率和其相应的显著性概率Sig=.000(Sig=.000(显然国民收入与存款余额显然国民收入与存款余额显然国民收入与存款余额显然国民收入与存款余额之间是高度相关的之间是高度相关的之间是高度相关的之间是高度相关的) ) 相关系数( (取值及其意义取值及其意义) )-1.0+1.00-0.5+0.5完全负相关完全负相关完全负相关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负相关程度增加负相关程度增加负相关程度增加负相关程度增加r正相关程度增加正相关程度增加正相关程度增加正相关程度增加 因因p=0.000

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.