
第3章-问卷数据的录入与清理.ppt
30页第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理统计数据分析基础教程统计数据分析基础教程――基于基于SPSSSPSS和和ExcelExcel的调查数据分析的调查数据分析第第3 3章章问卷数据的录入与清理问卷数据的录入与清理第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理本章内容本章内容3.1 问卷数据的录入问卷数据的录入3.2 在在Excel中录入数据中录入数据3.3 核对和清理数据核对和清理数据3.4 在在Excel中核对数据中核对数据3.5 在在SPSS中录入数据中录入数据3.6 在在SPSS中核对数据中核对数据附录附录ⅠⅠ Excel数据分析工具数据分析工具附录附录ⅡⅡ 在在Excel中生成随机数中生成随机数第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理问卷数据的录入与清理问卷数据的录入与清理进进行行数数据据统统计计分分析析之之前前,,必必须须先先将将问卷数据录入计算机问卷数据录入计算机为为了了保保证证不不“GIGO,,Garbage In Garbage Out”((垃垃圾圾进进垃垃圾圾出出)),,在在统统计计分分析析之之前前,,需需要要对对录录入入的的数据进行核对和清理数据进行核对和清理。
第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.1 3.1 问卷数据的录入问卷数据的录入数数据据输输入入就就是是将将问问卷卷数数据据所所对对应应的的编编码码通通过过扫扫描描或或用用键键盘盘输输入入计计算算机机,,建建立立数据文件数据文件的过程的过程目前,数据输入的方式主要有三种目前,数据输入的方式主要有三种::Ø人工输入人工输入Ø计算机辅助系统转换计算机辅助系统转换Ø光电输入光电输入第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.13.1 问卷数据的录入问卷数据的录入((人工输入人工输入))人工输入人工输入的注意事项:的注意事项:Ø要要规规定定统统一一的的输输入内容和入内容和输输入格式Ø挑挑选选和培和培训训数据数据输输入人入人员员Ø数据数据输输入入过过程中需要注意:程中需要注意:u第一,第一,统统一一规规定定数据文件名数据文件名u第第二二,,数数据据输输入入时时要要为为每每一一个个输输入入人人员员提提供供一一份份有有关关输输入入内内容容和格式的和格式的手册手册u第第三三,,要要为为每每个个输输入入人人员员提提供供足足够够的的空空间间摆摆放放问问卷卷,,避避免免不不同同输输入入人人员员的的问问卷卷或或者者同同一一输输入入人人员员已已输输入入和和未未输输入入的的问问卷卷发发生生混淆,造成漏混淆,造成漏输输或重复或重复输输入,影响入,影响问问卷的卷的质质量。
量u第第四四,,每每个个输输入入人人员员在在完完成成各各自自负负责责的的问问卷卷的的输输入入任任务务后后,,由由研研究究者者把把他他们们的的数数据据合合并并成成一一个个总总的的数数据据文文件件,,以以供供统统计计分分析析使使用用为为了了避避免免数数据据丢丢失失,,要要把把每每个个输输入入人人员员输输入入的的数数据据单单独独存档,以存档,以备查备查找第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据(中录入数据(单选题单选题))1 1.确定取得.确定取得单一单一答案答案2 2.尽可能使用.尽可能使用单选题单选题3 3.单选题如何.单选题如何编码编码和和输入输入Q1.Q1.请问您现在是否拥有?请问您现在是否拥有?□□1.1.有有 □□2.2.没有(跳至没有(跳至Q12Q12题)题)Ø例例3-1 3-1 在在ExcelExcel中录入单选题中录入单选题Q1Q1的数据的数据ü单选题的编码和输入(用单选题的编码和输入(用文字文字当列名,图当列名,图3-13-1))ü单选题的编码和输入(用单选题的编码和输入(用题号题号当列名,图当列名,图3-23-2))第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据(中录入数据(单选题单选题))例例3-1 在在Excel中录入单选题中录入单选题Q1的数据的数据ü单选题的编码和输入(用单选题的编码和输入(用文字文字当列名,图当列名,图3-1))ü单选题的编码和输入(用单选题的编码和输入(用题号题号当列名,图当列名,图3-2))第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据(中录入数据(多选题多选题))多选题分为多选题分为多项限选题多项限选题、、多项排序题多项排序题、、多项任选题多项任选题。
Q2.请问您当初购买的原因是什么?(可多选,最多请问您当初购买的原因是什么?(可多选,最多3项)项)□1.方便与家人联络方便与家人联络 □2.方便与朋友同学联络方便与朋友同学联络 □3.追求流行追求流行□4.工作需要工作需要 □5.同学间比较的心理同学间比较的心理 □6. 别人赠送别人赠送□7.价格下降价格下降 □8.厂商推出的促销方案厂商推出的促销方案 □9.网内互打较便宜网内互打较便宜 □10.其他其他例例3-2 在在Excel中录入多选题中录入多选题Q2的数据的数据多多选题选题的编码有的编码有2种:种:分类法分类法和和二分法二分法Ø“分类法分类法”编码和输入(图编码和输入(图3-3))Ø“二分法二分法”编码和输入编码和输入Ø有关有关“分类法分类法”和和“二分法二分法”编码,请参见编码,请参见P72~~74冻结窗格冻结窗格(比较图(比较图3-4和图和图3-5))第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据(中录入数据(多选题多选题))例例3-2 在在Excel中录入多选题中录入多选题Q2的数据的数据Ø“分类法分类法”编码和输入(图编码和输入(图3-3))第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据(中录入数据(多选题多选题))例例3-2 在在Excel中录入多选题中录入多选题Q2的数据的数据Ø冻结窗格冻结窗格(比较图(比较图3-4和图和图3-5))第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据(中录入数据(填空题填空题))填空题填空题也称也称开放题开放题,不提示任何答案,要求使用者直接填写,不提示任何答案,要求使用者直接填写。
对对数数值值型型的的数数据据,,为为了了取取得得其其真真正正的的数数字字((如如::55)),,而而非非只只取取得得区区间间((如如::41~~60)),,会会采采用用填填空空题题的的方方式式取取得得数数据据((定定量量数据,数值型数据数据,数值型数据),例如:),例如: 请问您平均每个月的话费约请问您平均每个月的话费约 元?元? 定定量量数数据据可可不不经经任任何何转转换换,,即即可可计计算算各各种种统统计计量量::均均值值、、标标准准差差、、最最大大值值、、最最小小值值等等,,而而且且也也可可以以直直接接进进行行均均值值比比较较与与检检验验,,甚甚至至可以作为回归分析的因变量或自变量可以作为回归分析的因变量或自变量如果为了取得数据的方便,就设计成选择题(如果为了取得数据的方便,就设计成选择题(单选题单选题):):请问您平均每个月的话费约多少钱?请问您平均每个月的话费约多少钱?□□1.201.20元及以下元及以下 □□2.212.21~~4040元元□□3.413.41~~6060元元 □□4.614.61~~8080元元□□5.815.81~~100100元元□□6.1016.101元及以上元及以上例例3-3 在在Excel中录入填空题的数据中录入填空题的数据(图(图3-6))第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据(中录入数据(填空题填空题))例例3-3 在在Excel中录入填空题的数据中录入填空题的数据( (图图3-6)3-6)第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据(中录入数据(量表量表))量量表表其其实实是是一一种种顺顺序序尺尺度度((有有序序变变量量)),,只只有有大大小小先先后后的的关系,无倍数关系。
关系,无倍数关系量量表表有有多多种种编编码码方方式式,,如如P60的的表表3-2是是量量表表常常用用的的三三种种编编码方式例例3-4 在在Excel中录入量表的数据中录入量表的数据(图(图3-7))产品属性产品属性非常重要非常重要重要重要普通普通不重要不重要非常不重要非常不重要((1)大小适中)大小适中□5□4□3□2□1((2)重量轻巧)重量轻巧□5□4□3□2□1((3)颜色炫丽)颜色炫丽□5□4□3□2□1((4)外型大方)外型大方□5□4□3□2□1((5)符合人体工学)符合人体工学□5□4□3□2□1((6)附属功能多)附属功能多□5□4□3□2□1补充:输入数据时,对于补充:输入数据时,对于量表编码,要取得同向,量表编码,要取得同向,如如P34的例的例2-26,反向题,反向题要正向编码后再输入要正向编码后再输入第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据(中录入数据(量表量表))例例3-4 在在Excel中录入量表的数据中录入量表的数据(图(图3-7))第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据(中录入数据(排名题排名题))排名(多项排序)是一种衡量的方式。
如排名(多项排序)是一种衡量的方式如::下列几种的入网方式,请问您认为哪一种的收费最便宜?下列几种的入网方式,请问您认为哪一种的收费最便宜?请依排名顺序,填入请依排名顺序,填入1 1、、2 2、、3 3、、4 4、、5 5::全球通全球通 神州行神州行 如意通如意通 动感地带动感地带 新时空新时空 分分此此种种类类型型的的问问卷卷,,作作为为被被排排名名的的对对象象也也不不宜宜太太多多否否则则,,受受访访者者也也无无法法排排列列好好排排个个5、、6项基本就是上限了项基本就是上限了例例3-5 在在Excel中录入排名题的数据中录入排名题的数据(图(图3-8))可将可将排名题排名题改为改为单选题单选题第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.2 3.2 在在ExcelExcel中录入数据(中录入数据(排名题排名题))例例3-5 在在Excel中录入排名题的数据中录入排名题的数据(图(图3-8))第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.3 3.3 核对和清理数据核对和清理数据数据数据有效范围有效范围的清理的清理Ø对数据中的对数据中的奇异值奇异值进行清理。
进行清理数据数据逻辑一致性逻辑一致性的清理的清理Ø依依据据问问卷卷中中的的问问题题相相互互之之间间所所存存在在的的某某种种内内在在的的逻逻辑辑联联系系,,来来检检查查前前后后数数据据之之间间的的合合理理性,主要针对的是性,主要针对的是相倚问题相倚问题和和多项限选题多项限选题数据数据质量质量的抽查的抽查个案(个案(个案(个案(CaseCase):一份):一份):一份):一份问卷的数据在计算机中问卷的数据在计算机中问卷的数据在计算机中问卷的数据在计算机中的编码值,占一行的编码值,占一行的编码值,占一行的编码值,占一行第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.4 3.4 在在ExcelExcel中核对数据中核对数据筛选出筛选出范围不合理范围不合理的单列的单列Ø例例3-6 在在Excel中核对中核对“大小适中大小适中”的数据的数据用自动筛选找出用自动筛选找出不合理的关联题不合理的关联题Ø例例3-7 在在Excel中中核核对对关关联联题题“是是否否有有手机”与与“平均月费平均月费”的数据的数据用高级筛选找出用高级筛选找出重复的重复的记录记录Ø例例3-8 用用Excel处理重复的记录处理重复的记录第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.4 3.4 在在ExcelExcel中核对数据中核对数据筛选出筛选出范围不合理范围不合理的单列的单列Ø例例3-6 在在Excel中核对中核对“大小适中大小适中”的数据的数据第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.4 3.4 在在ExcelExcel中核对数据中核对数据用自动筛选找出用自动筛选找出不合理的关联题不合理的关联题Ø例例3-7 在在Excel中中核核对对关关联联题题“是是否否有有手机”与与“平均月费平均月费”的数据的数据没有没有但有但有话费话费有手有但机但没有没有话费话费第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.4 3.4 在在ExcelExcel中核对数据中核对数据用高级筛选找出用高级筛选找出重复的重复的记录记录Ø例例3-8 用用Excel处理重复的记录处理重复的记录第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.5 3.5 在在SPSSSPSS中录入数据中录入数据手工建立数据文件手工建立数据文件Ø例例3-9 在在SPSS中,手工建立调查问卷的数据文件中,手工建立调查问卷的数据文件ü1.调查问卷(调查问卷(P68--69))ü2.确定变量的个数确定变量的个数ü3.在在SPSS中定义变量中定义变量ü4.单选题的变量定义单选题的变量定义ü5.多选题的变量定义:多选题的变量定义:二分法二分法和和分类法分类法 从从Excel获取数据文件获取数据文件Ø例例3-10 将将Excel中的数据导入到中的数据导入到SPSS数据文件中数据文件中ü方方法法一一::先先在在SPSS中中定定义义好好变变量量,,然然后后通通过过“复复制制--粘粘贴贴”方式将数据从方式将数据从Excel复制到复制到SPSS中。
中ü方方法法二二::利利用用打打开开数数据据文文件件的的方方法法直直接接把把Excel中中的的数数据据导导入到入到SPSS中,然后再定义变量属性中,然后再定义变量属性第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.5 3.5 在在SPSSSPSS中录入数据中录入数据多选题的变量定义:多选题的变量定义:二分法二分法和和分类法分类法 Ø二二分分法法((Multiple Dichotomies Method))::将将每每个个可可能能的的答答案案设设为为一一个个变变量量,,变变量量的的取取值值最最多多有有两两个个((1和和0)),,分分别别表表示示“选选”或或“不不选选”((在在实实际际应应用用中中,,经经常常只只有有一一个个取取值值1,,表表示示“选选”,,而而用用空空值值表表示示“不不选选”))这这种种方方法法的的缺缺点点是是需需要要的的变变量量个个数数比比较较多多;;优优点点是是比比较较简简单单二二分分法法常常用用于于“不不限限选选” 和和 “限限选选不不排排名名” Ø分分类类法法((Multiple Category Method))::分分类类法法常常用用于于“限限选选”((很很少少用用于于“不不限限选选”)),,包包括括“限限选选不不排排名名” 和和“限限选选排排名名” 。
按按照照限限选选的的最最多多答答案案设设置置变变量量个个数数,,每每个个变变量量的的取取值值为为选选项项值值比比如如,,一一个个多多选选题题,,如如果果最最多多可可选选3个个答答案案,,那那就就设设置置3个个变变量量,,分分别别用用来来存存放放3个个可可能能的的答答案案如如果果某某受受访访者者只只填填答答两两个个,,那那么么第第3个个变变量量的的取取值值为为缺缺失失值值;;如如果果某某受受访访者者只只填填答答一一个个,,那那么么第第2、、3个个变变量量的的取取值值均均为为缺缺失失值值分分类类法法的的优优点点是是需需要要的变量个数比较少的变量个数比较少第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理补充补充: :限选不排序多选题的两种编码三种组合方式限选不排序多选题的两种编码三种组合方式以问题以问题5 5((Q5Q5))限选不排序多选题限选不排序多选题为例为例Ø方式方式1 1::二分法二分法编码:编码:P73P73的表的表3-53-5((4 4个变量,编码为个变量,编码为1 1)) Ø方式方式2 2::分类法分类法编码:编码:P73P73的表的表3-63-6((2 2个变量,编码为个变量,编码为1 1、、2 2、、3 3、、4 4))Ø补补充充方方式式3 3::变变量量个个数数采采用用二二分分法法((4 4个个变变量量)),,编编码码采采用用分分类类法法((1 1、、2 2、、3 3、、4 4),具体如下:),具体如下: NameNameTypeTypeLabelLabelValuesValues例子的取例子的取值值Q5_1Q5_1N N家庭就家庭就业业人数增加人数增加1=家庭就业人数增加,家庭就业人数增加,2=工资工资增加,增加,3=奖金和津贴增加,奖金和津贴增加,4=其他收入来源增加其他收入来源增加Q5_2Q5_2N N工工资资增加增加同上同上2 2Q5_3Q5_3N N奖奖金和津金和津贴贴增加增加同上同上 3 3Q5_4Q5_4N N其他收入其他收入来源增加来源增加同上同上 建议建议:应用案例实验:应用案例实验1 1,如果,如果限选不排序多选题限选不排序多选题的选项的选项超过超过了了2 2项(如:可多选,最多项(如:可多选,最多3 3项),建议采用项),建议采用方式方式3 3,,这样的好处是这样的好处是核对核对容易。
请参见容易请参见““补充:多选题两种编码和核对补充:多选题两种编码和核对.xls.xls””实际应用中,实际应用中,建议建议采用采用方方式式2 2因为因为一般一般只只核对核对单列数单列数据据有效范围有效范围,,很少核对很少核对逻逻辑一致性辑一致性第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理改错:改错:P74P74的表的表3 3--9 9改为改为由由于于采采用用““分分类类法法””编编码码,,所所以以在在SPSSSPSS中中的的ValuesValues也也应应该该是是分类法分类法编码,而不是简单的编码,而不是简单的““选选””或空白修修改改的的目目的的::在在用用SPSSSPSS进进行行多多选选变变量量的的频频率率分分析析时时((具具体体见见第六章),第六章),SPSSSPSS的输出结果的输出结果可读性好可读性好NameName变变量名量名TypeType类类型型LabelLabel变变量名量名标签标签ValuesValues变变量量值标签值标签例子的取例子的取值值Q7_1Q7_1N N银银行理行理财财1=1=银银行理行理财财,,2=2=股票,股票,3=3=债债券,券, 4= 4=股票型基金,股票型基金,5=5=货币货币基金,基金,6=6=外外汇汇,,7=7=其他其他Q7_2Q7_2N N股票股票同上同上2 2Q7_3Q7_3N N债债券券同上同上3 3Q7_4Q7_4N N股票型基金股票型基金同上同上Q7_5Q7_5N N货币货币基金基金同上同上Q7_6Q7_6N N外外汇汇同上同上6 6Q7_7Q7_7N N其他其他同上同上第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.5 3.5 在在SPSSSPSS中录入数据中录入数据从从Excel获取数据文件获取数据文件Ø例例3-10 将将Excel中的数据导入到中的数据导入到SPSS数据文件中数据文件中ü方方法法一一::先先在在SPSS中中定定义义好好变变量量,,然然后后通通过过“复复制制-粘贴-粘贴”方式将方式将数据数据从从Excel复制到复制到SPSS中。
中ü方方法法二二::利利用用打打开开数数据据文文件件的的方方法法直直接接把把Excel中中的的数数据据导导入入到到SPSS中中,,然然后后再再定定义义变变量量属属性性具具体体如如下下 :: ①①在在 SPSS中中 ,, 单单 击击 菜菜 单单 “File”->“Open”->“Data”,,进进入入“Open File”对对话话框框,,在在最最下下面面的的“文文件件类类型型”框框中中选选择择“Excel((*.xls))”,,然然后后选选择择录录入入好好数数据据的的Excel文文件件((要要求求该该文文件件暂暂时时没没有有被被Excel打打开开)),,单单击击“打打开开”,,进进入入“Opening Excel Data Source”对对话话框框,,单单击击“OK” ②② 定定义义变变量量属属性性::对对每每个个变变量量进进行行进进一一步步的的定定义义((如如变变量量名名标标签签、、变变量量值值标签等),以期达到标签等),以期达到SPSS分析所要求的目的分析所要求的目的第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理3.6 3.6 在在SPSSSPSS中核对数据中核对数据利利 用用 SPSS的的 一一 维维 频频 率率 分分 析析Frequencies命命令令可可以以发发现现单单变变量量范范围不合理的数据。
围不合理的数据利利用用SPSS的的交交叉叉表表分分析析Crosstabs命命令令可可以以发发现现两两个个变变量量之之间间的的逻逻辑辑一一致性问题致性问题第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理实践题实践题19991999年关于外商投资企业雇员调查问卷(年关于外商投资企业雇员调查问卷(P80P80~~8181))要求要求: :Ø((1 1)确定问卷中每个问题应该设置的变量的个)确定问卷中每个问题应该设置的变量的个数数,并区分是定性(分类)变量还是定量(数,并区分是定性(分类)变量还是定量(数值型)变量值型)变量Ø((2 2)给每个变量定义变量名、数据类型、变量)给每个变量定义变量名、数据类型、变量名标签Ø((3 3)对于定性(分类)变量,定义相应的变量)对于定性(分类)变量,定义相应的变量值标签(类别编码含义)值标签(类别编码含义)Ø((4 4)自己填写一份问卷,并把有关信息输入数)自己填写一份问卷,并把有关信息输入数据文件中据文件中Ø((5 5)利用)利用ExcelExcel随机数发生器,按照问题的编随机数发生器,按照问题的编码,随机生成码,随机生成900900份问卷数据,并对生成的数据份问卷数据,并对生成的数据进行核对。
进行核对Ø((6 6)保存这)保存这901901份问卷的数据份问卷的数据请参见请参见实验实验3.4随机数随机数生成方法生成方法请参见请参见实验实验3.1实验实验3.2第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理附录附录Ⅰ ExcelⅠ Excel数据分析工具数据分析工具 1. Excel1. Excel数据分析工具及其安装数据分析工具及其安装Ø((1 1)工作表函数与数据分析工具的区别)工作表函数与数据分析工具的区别Ø((2 2)数据分析工具的安装(两种方法))数据分析工具的安装(两种方法)u方法二有方法二有2 2个要求个要求①①ExcelExcel软件的菜单软件的菜单““工具工具””-->“>“宏宏”” -->“>“安全性安全性””为为““中中””;;②②AnalysisAnalysis文件夹下的文件夹下的5 5个文件都要有个文件都要有2. 2. 统计分析工具的内容统计分析工具的内容3. 3. 统计分析工具的使用统计分析工具的使用更详细的安装步更详细的安装步骤请参见骤请参见AnalysisAnalysis文件夹文件夹下的下的““ExcelExcel数据数据分析工具的安装分析工具的安装说明说明.doc.doc””第第3 3章章 问卷数据问卷数据的录入与清理的录入与清理附录附录Ⅱ Ⅱ 在在ExcelExcel中生成随机数中生成随机数1 1.在.在ExcelExcel中生成中生成序号序号2 2.在.在ExcelExcel中生成中生成随机数随机数Ø利用利用““数据分析数据分析””工具工具ü““离散离散””分布分布ü““柏(伯)努利柏(伯)努利””分布分布 Ø利用利用RANDBETWEENRANDBETWEEN随机随机整数函数整数函数ü由于每次计算工作表时都将返回一个新的由于每次计算工作表时都将返回一个新的数值,所以最好能够将其产生的随机整数数值,所以最好能够将其产生的随机整数保存不变,具体做法是先保存不变,具体做法是先““复制复制””再在原再在原处处““粘贴粘贴””为为““值值””。
变量个数变量个数((m):表示要产生):表示要产生m列列随机数个数随机数个数((n):表示要产生):表示要产生n行行一共产生一共产生n行行×m列列的随机数的随机数。












