SPSS分析调查问卷数据的方法.ppt
84页利用利用SPSS分析调查问卷数据分析调查问卷数据马青华问卷数据的预处理SPSS分析分析调查问卷数据的方法卷数据的方法•当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我们以spss为处理软件,来简要说明一下问卷的处理过程,它的过程大致可分为四个过程:•定定定定义变义变量量量量﹑﹑数据数据数据数据录录入入入入﹑﹑统计统计分析和分析和分析和分析和结结果保存果保存果保存果保存. .•下面将从这四个方面来对问卷的处理做详细的介绍.定定义变量量•大多数情况下我们需要从头定义变量,在打开SPSS后,我们可以看到和excel相似的界面,在界面的左下方可以看到Data View, Variable View两个标签,只需单击左下方的Variable View标签就可以切换到变量定义界面开始定义新变量•在表格上方可以看到一个变量要设置如下几项:name(变量名)、type(变量类型)、width(变量值的宽度)、decimals(小数位) 、label(变量标签) 、Values(定义具体变量值的标签)、Missing(定义变量缺失值)、Colomns(定义显示列宽)、Align(定义显示对齐方式)、Measure(定义变量类型是连续、有序分类还是无序分类).调查问卷中的数据编码和录入调查问卷中的数据编码和录入调查问卷中的数据编码和录入调查问卷中的数据编码和录入•把一份问卷上面的每一个问题设为一个变量,这样一份问卷有多少个问题就要有多少个变量与之对应,每一个问题的答案即为变量的取值.现在我们以问卷第一个问题为例来说明变量的设置.为了便于说明,可假设此题为:1.请问你的年龄属于下面哪一个年龄段( )? A:20—29 B:30—39 C:40—49 D:50--59变量设置可如下变量设置可如下: name即变量名为即变量名为1,,type即类型可根据答案的类型设置即类型可根据答案的类型设置,答案我答案我们可以用们可以用1、、2、、3、、4来代替来代替A、、B、、C、、D,所以我们选择数字型的,即选择所以我们选择数字型的,即选择Numeric, width宽度为宽度为4,,decimals即小数位数位为即小数位数位为0(因为答案没有小数点),(因为答案没有小数点),label即变量标签为即变量标签为“年龄段查询年龄段查询”。
Values用于定义具体变量值的标签用于定义具体变量值的标签,单击单击Value框框右半部的省略号,会弹出变量值标签对话框右半部的省略号,会弹出变量值标签对话框,在第一个文本框里输入在第一个文本框里输入1,第二个输入第二个输入20—29,然后单击添加即可然后单击添加即可.同样道理我们可做如下设置同样道理我们可做如下设置,即即1=20—29、、2=30—39、、3=40—49、、4=50--59;;Missing,用于定义变量缺失值,用于定义变量缺失值, 单击单击missing框右侧的省略号,框右侧的省略号,会弹出缺失值对话框会弹出缺失值对话框, 界面上有一列三个单选钮,默认值为最上方的界面上有一列三个单选钮,默认值为最上方的“无缺失值无缺失值”;;第二项为第二项为“不连续缺失值不连续缺失值”,最多可以定义,最多可以定义3个值;最后一项为个值;最后一项为“缺失值范围加可选缺失值范围加可选的一个缺失值的一个缺失值”,在此我们不设置缺省值,在此我们不设置缺省值,所以选中第一项如图;所以选中第一项如图;Colomns,定义显,定义显示列宽示列宽,可自己根据实际情况设置;可自己根据实际情况设置;Align,定义显示对齐方式,定义显示对齐方式,有居左、居右、居有居左、居右、居中三种方式;中三种方式;Measure,定义变量类型是连续、有序分类还是无序分类。
定义变量类型是连续、有序分类还是无序分类开放式题型的设置:诸如你所在的省份是_____这样的填空题即为开放题,设置这些变量的时候只需要将Value 、Missing两项不设置即可.数据数据录入:入:Spss数据录入方式•在spss的数据录入窗口中直接输入就可以了, 几点注意事项:•a. 在数据录入窗口,可看到有一个表格,这个表格中的每一行代表一份问卷,也称为一个个案.•b. 在数据录入窗口中,可看到表格上方出现了1、2、3、4、5…….的标签名,这其实是我们在第一步定义变量中,我们为问卷的每一个问题取的变量名,即1代表第一题,2代表第二题.以次类推.只需要在变量名下面输入对应问题的答案即可完成问卷的数据录入.比如上述年龄段查询的例题,如果问卷上勾选了A答案,在1下面输入1就行了(不要忘记我们通常是用1、2、3、4来代替A、B、C、D的).•c.一行代表一份问卷,所以有几分问卷,就要有几行的数据.在数据录入完成后, 要做的关键部分就是 问卷的统计分析了.1.读取SPSS格式的数据2.读取Excel等格式的数据3.读取文本数据(Fixed和Delimiter)4.读取数据库格式数据(分如下两步)(1)配置ODBC (2)在SPSS中通过ODBC和数据库进行Rich.sav数据\Rich.xls数据数据录入入(rich.sav):福布斯世界富豪排行榜Rank:排名Name:姓名Citizenship:国籍Region:地区Age:年龄NetWorth:净财富(10亿美元)Residence :居住地问卷调查数据常用的统计分析方法频数分析、描述统计分析和列联表分析频数分析、描述统计分析和列联表分析 这是问卷调查最基本、这是问卷调查最基本、最常用的分析方法。
频数分析是描述统计的初步,分门别类的最常用的分析方法频数分析是描述统计的初步,分门别类的统计有效样本量,计算其比重频数分析可以计算的统计量有:统计有效样本量,计算其比重频数分析可以计算的统计量有:分位数、中位数、众数等,并可以绘制柱状图、直方图、饼图分位数、中位数、众数等,并可以绘制柱状图、直方图、饼图描述统计分析主要是计算一些 基本的统计量,其中比较重要的统计量有均值、方差和标准差、峰度、偏度数据的描述•在在对对数数据据进进行行深深入入加加工工之之前前,,总应该对数据有所印象总应该对数据有所印象•可可以以借借助助于于图图形形和和简简单单的的运运算算,,来了解数据的一些特征来了解数据的一些特征•由由于于数数据据是是从从总总体体中中产产生生的的,,其其特特征征也也反反映映了了总总体体的的特特征征对对数数据据的的描描述述也也是是对对其其总总体体的的一个近似的描述一个近似的描述§1 如何用如何用图来表示数据?来表示数据?定量定量变量的量的图表示表示:1.直方直方图•对于一个定量变量,比如某个地区对于一个定量变量,比如某个地区(地区(地区1)测量了)测量了163个高三男生的身个高三男生的身高高((S3height1.txt))。
•用图形来表示这个数据,使人们能够用图形来表示这个数据,使人们能够看出这个数据的大体分布或看出这个数据的大体分布或“形状形状”的一个办法是画的一个办法是画直方图直方图(histogram)•图图1就是利用这个数据由就是利用这个数据由SPSS软件所画软件所画的直方图的直方图该图的横坐标是身高区间,这里每一格代表该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子的身高范围(格子宽度因不同的数据性质或要求而定,这里的格子宽度为宽度因不同的数据性质或要求而定,这里的格子宽度为5cm),而),而纵坐标为各种身高区间的身高的频数纵坐标为各种身高区间的身高的频数 直方图直方图定量定量变量的量的图表示表示:2.盒型盒型图•简单一些的是简单一些的是盒形图盒形图(boxplot,又称,又称箱图、箱线图、盒子图箱图、箱线图、盒子图)•图图2的左边一个是根据地区的左边一个是根据地区1高三男生高三男生的身高数据所绘的盒形图;其右边的的身高数据所绘的盒形图;其右边的图代表另一个地区(地区图代表另一个地区(地区2)的高三)的高三学生的身高学生的身高((height.txt,,height.sav,,第三章例第三章例.xls))。
盒型图盒型图盒子的中间横线是数据的中位数盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线,封闭盒子的上下两横线(边)为上下四分位数(点);按照(边)为上下四分位数(点);按照SPSS的默认选项,如果所有的默认选项,如果所有样本中的数目都在离四分位点样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为最倍盒子长度之内,则线的端点为最大和最小值,否则线长就是大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四分位倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出间距),在其外面的度量单独点出定量定量变量的量的图表示表示:3.茎叶茎叶图 •在直方图和盒形图中,很难恢复数据在直方图和盒形图中,很难恢复数据的原貌而另一种图:的原貌而另一种图:茎叶图茎叶图(stem-and-leaf plots)可以恢复数据可以恢复数据•以地区以地区1高三男生身高为例(图高三男生身高为例(图3),),茎叶图既展示了分布形状又有原始数茎叶图既展示了分布形状又有原始数据它象一片带有茎的叶子茎为较据它象一片带有茎的叶子茎为较大位数的数字,叶为较小位数的数字大位数的数字,叶为较小位数的数字。
茎叶图茎叶图其中茎叶图中茎的单位为其中茎叶图中茎的单位为10cm,而叶子单位为,而叶子单位为1cm比如,由于比如,由于第一行茎为第一行茎为150cm,因此叶子中的九个数字,因此叶子中的九个数字001223344代表九个数代表九个数目目150、、150、、151、、152、、152、、153、、153、、154、、154cm等每行左边有一个频数(比如第一行有行左边有一个频数(比如第一行有9个数目,第二行有个数目,第二行有17个等等);个等等);可以看出最长的一行为从可以看出最长的一行为从165cm到到169cm的一段(有的一段(有35个数)定量定量变量的量的图表示表示:4.散点散点图 •数据会有两个变量,如美国男士和女数据会有两个变量,如美国男士和女士初婚年限数据(士初婚年限数据(marriage.txt)•该数据描述了自该数据描述了自1900年到年到2019年男女年男女第一次婚姻延续的时间第一次婚姻延续的时间•这里年份是一个变量,婚姻延续时间这里年份是一个变量,婚姻延续时间是第二个变量由于不可能将所有人是第二个变量由于不可能将所有人的婚姻年限都给出来,所以每年就取的婚姻年限都给出来,所以每年就取了一个中间的值了一个中间的值(中位数中位数)作为代表。
作为代表散点图散点图定性定性变量的量的图表示:表示:饼图•定性变量(或属性变量,分类变定性变量(或属性变量,分类变量)不能点出直方图、散点图或量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类茎叶图,但可以描绘出它们各类的比例•下面用下面用SPSS绘的图绘的图5(饼图,(饼图,pie chart))表示了说世界各种主要语表示了说世界各种主要语言人数的比例言人数的比例(language.txt).饼图饼图定性定性变量的量的图表示:条形表示:条形图•而用同样数据画的图而用同样数据画的图6称为称为条形条形图(图(bar chart))•从每一条可以看出讲各种语言从每一条可以看出讲各种语言的实际人数,而且分别给出了的实际人数,而且分别给出了每个语种中母语和日常使用的每个语种中母语和日常使用的人数(在图中并排放置)条人数(在图中并排放置)条形图显示比例不如饼图直观形图显示比例不如饼图直观条形图条形图如何用少量数字来概括数据?如何用少量数字来概括数据?•大量的数字既繁琐又不直观;需大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允要对数据做人们时间和耐心所允许的简化许的简化•我们可以用我们可以用 “平均平均”,,“差距差距”或百分比等来概括大量数字。
或百分比等来概括大量数字•由于定性变量主要是计数,比较由于定性变量主要是计数,比较简单,常用的概括就是比例或百简单,常用的概括就是比例或百分比下面主要介绍关于定量变分比下面主要介绍关于定量变量的数字描述量的数字描述37小小结•例(rich.sav):福布斯世界富豪排行榜–Rank:排名–Name:姓名–Citizenship:国籍–Region:地区–Age:年龄–NetWorth:净财富(10亿美元)–Residence :居住地38定量定量变量的量的图表示表示•直方直方图–Age, NetWorth–SPSS: GraphsInteractiveHistogram39•横坐横坐标–要研究的变量的取值范围–格子的宽度因数据性质而定•纵坐坐标–频数–百分比•数据分布的数据分布的简单描述描述–单峰/双峰–对称/非对称–数据的疏密40•盒型盒型图–不同区域年龄分布–SPSS: GraphsInteractive Boxplot41•中中间横横线–中位数•封封闭盒子的上下两盒子的上下两边–上下四分位点•线段的端点段的端点–最大值,最小值(线长小于1.5倍盒长)•离群点离群点(outlier),极端极端值(extreme)42•茎叶茎叶图–欧洲区域富人的年龄–SPSS: AnalyzeDescriptive Statistics Explore Frequency Stem & Leaf 1.00 Extremes (=<22) 2.00 3 . 44 9.00 3 . 789999999 18.00 4 . 000001112333344444 14.00 4 . 55555677789999 27.00 5 . 000011111112223333333344444 22.00 5 . 5555666666777888889999 27.00 6 . 000111111112222222333444444 23.00 6 . 55555566678888888899999 16.00 7 . 0000000111123333 18.00 7 . 555666677888999999 12.00 8 . 000222233344 7.00 8 . 5566899 2.00 9 . 22 1.00 9 . 5 Stem width: 10.00 Each leaf: 1 case(s)43•茎的茎的单位位:10岁•叶的叶的单位:位:1岁•优点点–还原原始数据–类似直方图显示数据分布•缺点缺点–无法描述大量数据–不常用44•散点散点图–两个定量变量之间的关系:年龄和财富–SPSS: GraphsInteractive Scatterplot45定性定性变量的量的图表示表示•饼图–Region–SPSS: GraphsInteractive Pie–类别不宜过多46•条形条形图–Region–SPSS: GraphsInteractive Bar–不同于直方图§2 如何用少量数字来概括数据?如何用少量数字来概括数据?•可用少量所谓汇总统计量或可用少量所谓汇总统计量或概括概括统计量统计量(summary statistic)来描述定来描述定量变量的数据。
量变量的数据•这些数字是从样本数据得来的,这些数字是从样本数据得来的,因而也是样本的函数,因而也是样本的函数,•任何样本的函数,只要不包含总任何样本的函数,只要不包含总体的未知参数,都称为体的未知参数,都称为统计量统计量(statistic)•样本的随机性决定统计量的随机样本的随机性决定统计量的随机性(统计量也是随机变量)性(统计量也是随机变量)§2 如何用少量数字来概括数据?如何用少量数字来概括数据?•概括统计量经常对应于总体概括统计量经常对应于总体的无法观测到的某些参数的无法观测到的某些参数•这时,统计量可作为这些参这时,统计量可作为这些参数的估计一些统计量还可数的估计一些统计量还可以用来检验样本和假设的总以用来检验样本和假设的总体是否一致体是否一致§2 如何用少量数字来概括数据?如何用少量数字来概括数据?•注:注:一些统计量前面有时加一些统计量前面有时加上上“样本样本”二字,以区别于二字,以区别于总体的同名参数如总体的同名参数如“样本样本均值均值”和和“样本标准差样本标准差”,,以区别于总体均值和总体标以区别于总体均值和总体标准差;但在不会混淆时可以准差;但在不会混淆时可以只说只说“均值均值”和和“标准差标准差”。
数据的数据的“位置位置”数据有位置吗?数据有位置吗?这里三个数据的位置一样吗?这里三个数据的位置一样吗?数据的数据的“位置位置”•“位置位置”一般是关于数据中某变量一般是关于数据中某变量观测值的观测值的“中心位置中心位置”或者数据或者数据分布的中心(分布的中心(center或或center tendency)•和这种和这种“位置位置”有关的统计量就有关的统计量就称为称为位置统计量位置统计量(location statistic)•位置统计量当然不一定都是描述位置统计量当然不一定都是描述“中心中心”了,比如后面要讲的了,比如后面要讲的k百百分位数(或分位数(或k%分位数)%分位数)数据的数据的“位置位置”•最最常常用用的的位位置置统计量量就就是是小小学学时所所学学到到的的算算术平平均均数数,,它它在在统计中中叫叫做做均均值(mean);;严格格地地说叫叫做做样本本均均值(sample mean),以区,以区别于于总体均体均值•如如果果记样本本中中的的观测值为x1,…,xn,,则样本均本均值定定义为•(样本样本)中位数中位数(median) 是数据按照大小排列之是数据按照大小排列之后位于中间的那个数后位于中间的那个数(如如果样本量为奇数果样本量为奇数),或者,或者中间两个数目的平均中间两个数目的平均(如如果样本量为偶数果样本量为偶数)。
•由于中位数不易被极端由于中位数不易被极端值影响,所以中位数比值影响,所以中位数比均值稳健均值稳健(robust)数据的数据的“位置位置”•上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile, third quantile)则分别位于(按大小排列的)数据的上下四分之一的地方数据的数据的“位置位置”数据的数据的“位置位置”•一般地一般地还称上四分位数称上四分位数为75百分位数百分位数((75 pecentile,有,有75%的%的观测值小于小于它),下四分位数它),下四分位数为25百分位数百分位数(有(有25%的%的观测值小于它)小于它)•一般地,一般地,k百分位数百分位数((k-pecentile)意)意味着有味着有k%的%的观测值小于它•如果令如果令a a=k%,,则k百分位数也称百分位数也称为a a分位数分位数(a a-quantile)•样本中出本中出现最多的数目,称最多的数目,称为众数众数(mode)数据的数据的“尺度尺度”•这两个数据“胖瘦”一样吗?数据的数据的“尺度尺度”•数据中数目的分散程度由尺度统计量(scale statistic)来描述。
•尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或variability)的度量数据的数据的“尺度尺度”•从前面两个高三男生身高数据的盒从前面两个高三男生身高数据的盒形图左边的数据平均要高些,但形图左边的数据平均要高些,但右边的数据散布范围要小得多右边的数据散布范围要小得多统计中有许多尺度统计量一般来说,数据越分散,尺度统计量的值越大数据的数据的“尺度尺度”•极差极差(range);就是极大值和极小值之;就是极大值和极小值之间的差•前面两个高三男生身高数据的极差分前面两个高三男生身高数据的极差分别为别为50cm和和32cm•盒形图盒子的长度为两个四分位数之盒形图盒子的长度为两个四分位数之差,称为差,称为四分位数极差或四分位间距四分位数极差或四分位间距(interquantile range);它描述了中间;它描述了中间半数观测值的散布情况极差和四分半数观测值的散布情况极差和四分位极差实际上各自只依赖于两个值,位极差实际上各自只依赖于两个值,信息量太少信息量太少数据的数据的“尺度尺度”•另另一一个个常常用用的的尺尺度度统计量量为((样本本))标准准差差(standard deviation)。
度度量量样本中各数本中各数值到均到均值距离的一种平均距离的一种平均•标准准差差实际上上是是方方差差(variance)的的平平方方根根如如果果记样本本中中的的观测值为x1,…,xn,,则样本方差本方差为数据的数据的“尺度尺度”两个均值一样,但右边的要两个均值一样,但右边的要“胖胖”些,方差为左边的一些,方差为左边的一倍倍数据的数据的标准得分准得分•假假定定两两个个水水平平类类似似的的班班级级((一一班和二班)上同一门课,班和二班)上同一门课,•但但是是由由于于两两个个任任课课老老师师的的评评分分标标准准不不同同,,使使得得两两个个班班成成绩绩的的均均值值和和标标准准差差都都不不一一样样(数数据据::grade.txt)数据的数据的标准得分准得分•一一班班分分数数的的均均值值和和标标准准差差分分别别为为78.53和和9.43,,而而二二班班的的均均值值和标准差分别为和标准差分别为70.19和和7.00•那那么么得得到到90分分的的一一班班的的张张颖颖是是不不是是比比得得到到82分分的的二二班班的的刘刘疏疏成成绩绩更更好好呢呢??怎怎么么比比较较才才能能合合理呢?理呢?数据的数据的标准得分准得分•虽然然这种种均均值和和标准准差差不不同同的的数数据据不不能能够直直接接比比较,,但但是是可可以以把把它它们进行行标准化,再比准化,再比较标准化后的数据。
准化后的数据•一一个个标准准化化的的方方法法是是把把某某样本本原原始始观测值((亦亦称称得得分分,,score))和和该样本本均均值之之差差除除以以该样本本的的标准准差差;;得得到到的的度度量量称称为标准准得得分分(standard score,,又称又称为z-score)数据的数据的标准得分准得分•即,某观测值xi的标准得分定义为数据的数据的标准得分准得分•在在我我们们的的例例子子中中,,张张颖颖的的标标准准得得分分为为(90-78.53)/9.43==1.22,,而而 刘刘 疏疏 的的 标标 准准 得得 分分 为为 (82-70.19)/7==1.69•显显然然如如果果两两个个班班级级平平均均水水平平差差不不多多,,刘刘疏疏的的成成绩绩应应该该优优于于张张颖颖的的成成绩绩;;这这是是在在标标准准化化之之前前的数据中不易看到的的数据中不易看到的可以看出,原始数据是在各自的均值附近,而散布也不一可以看出,原始数据是在各自的均值附近,而散布也不一样但它们的标准得分则在样但它们的标准得分则在0 0周围散布,而且散布也差不周围散布,而且散布也差不多实际上,任何样本经过这样的标准化后,就都变换成多。
实际上,任何样本经过这样的标准化后,就都变换成均值为均值为0 0、方差为、方差为1 1的样本标准化后不同样本观测值的比的样本标准化后不同样本观测值的比较只有相对意义,没有绝对意义较只有相对意义,没有绝对意义68小小结•统计量量:(:(statistic))–样本的函数,不包括总体的未知参数–随机变量(样本的随机性)–作为总体参数的估计69•数据的位置(数据的位置(location))–样本均值(sample mean)–中位数(median):稳健–k百分位数(k-percentile)–众数(mode):定性变量70•SPSS: AnalyzeDescriptive Statistics Explore/Frequencies/Descriptives•例(rich.sav) : Age71•数据的尺度(数据的尺度(scale))–极差(range)–四分位数极差(interquantile range)–方差(variance)–标准差(standard deviation)–标准误差(standard error)72•SPSS: AnalyzeDescriptive Statistics Explore/Frequencies/Descriptives•例(rich.sav) : Age73•数据的数据的标准得分准得分–样本原始观测值与样本均值之差除以样本标准差–新样本:均值0,方差:1–(grade.sav)•数据的数据的变换–指数–对数7475基本背景基本背景调查•样本量:本量:65 (out of 81)•SPSS: AnalyzeDescriptive Statistics Frequencies76777879808182•建建议–统计眼光,统计思想–分析方法,实际应用–软件使用•1 1频频数分析:数分析:数分析:数分析:Frequencies过程可以做单变量的频数分布表;显示数据文件中由用户指定的变量的特定值发生的频数;获得某些描述统计量和描述数值范围的统计量。
适用范围:单选题,排序题,多选题的方法二实现: Descriptive statistics……Frequencies 2 2 描述分析:描述分析:描述分析:描述分析:Descriptives:过程可以计算单变量的描述统计量这些述统计量有平均值、算术和、标准差,最大值、最小值、方差、范围和平均数标准误等适用范围:选择并排序题、开放性数值题实现: Descriptive statistics……Descriptives,需要的统计量点击按钮Statistics…中选择•总结• •3 3 多重反多重反多重反多重反应应下的下的下的下的频频次分析:次分析:次分析:次分析:适用范围:多选题的二分法实现:第一步在Multiple Response……Define Sets把一道多选问题中定义了的所有变量集合在一起,给新的集合变量取名,在Dichotomies Counted value中输入1第二步在Multiple Response……Frequencies中做频数分析4 4 交叉交叉交叉交叉频频数分析:数分析:数分析:数分析:•解决对多变量的各水平组合的频数分析的问题适用范围:,适用于由两个或两个以上变量进行交叉分类形成的列联表,对变量之间的关联性进行分析。
比如要知道不同工作性质的人上班使用交通工具的情况,可以通过交叉分析得到一个二维频数表则一目了然实现:第一步根据分析的目的来确定交叉分析的选项,确定控制变量和解释变量(如上例中不同工作性质的人是控制变量,使用交通工具是解释变量)第二步选择Descriptive statistics……Crosstabs 。





