《市场调查与预测》第九章数据处理
33页1、2018/9/25,1,第9章 数据处理,2018/9/25,2,开篇案例 家庭外出就餐的有关数据,在某城市调查居民当月在外就餐的费用,向1000户家庭发放了调查问卷,回收了768份问卷。统计结果如上表所示。 不响应的户有232户。在响应的768户中,高档住宅户仅占16,而不响应的232户中,高档住宅户占到38。那么,我们应当如何看待这些数据?如何使用这些数据对总体进行推断呢?,2018/9/25,3,9.1 数据处理及其一般程序,广义上讲,数据处理是指在对数据资料进行统计分析之前要做的所有准备工作。 在资料量化和分析计算机化的背景下,狭义的数据处理,是指把调查中收集到的数据转换为适合汇总制表和数据分析形式的过程。主要包括 检查资料中潜存的错误 将数据资料转化为数字形式 录入数据 对不完整的数据进行插补 将数据资料变成计算机数据文件,2018/9/25,4,数据处理的一般程序,以纸制问卷为例,数据处理的过程(如图9-1)。,2018/9/25,5,数据处理的程序,1初步审核及净化 审核问卷填写的完整性和数据质量,目的是确定哪些问卷可以接受,哪些问卷要被剔出。 问卷审核规则:下述情况的问
2、卷一般不能接受: 所回收的问卷明显不完整,如缺页或多页; 问卷从整体上是回答不完全的; 问卷的几个部分是回答不完全的; 回答表明被访者没弄清问题含义或没阅读填答说明; 被访者的回答表现出某种系统偏差,如总选择中性答案; 问卷是由不合要求的被访者回答的。 将原始问卷区分为可以接受、明显要作废、对是否可以接受有疑问三部分,是有益的。,2018/9/25,6,数据处理的程序,3将数据录入计算机 数据录入是将回答转化成可机读的形式。采用纸制式问卷收集数据时,数据录入是在数据收集完毕之后由录入员将问卷上的数据输入计算机。 下面几种方法可以提高数据录入的效率: 采用计算机辅助数据收集方法; 对纸制式问卷进行光电扫描; 对纸制式问卷进行预先编码。,2018/9/25,7,数据处理的程序,6将数据储存在数据库中 两种数据储存格式:数据库和平面文件 平面文件就是计算机化后的二维记录格式和它们相应的值,它容易从一种平台转到另一种平台,并能用不同的表格软件或统计软件读取。 以数据库格式存贮数据,可以方便大多数统计和数据库软件直接处理,而不必重新生成文件,查询操作也方便。但是数据库格式可能会限制软件的选择。
3、因此,较好的选择是对调查结果生成一个平面文件,同时生成几种不同的数据库文件。,8,9.2 数据编码,编码,就是将问卷信息转化为统一设计的、计算机可识别的数值代码的过程,以便于数据录入和作进一步处理与分析。 编码设计就是确定各问卷、问卷中的各问题以及问题的各答案对应的代码的名称、形式、范围以及与原数据的对应关系,以便能够将调查中所得到的各种回答分成若干有意义且有本质差别的类别。,2018/9/25,9,编码设计的内容,编码设计的内容 编码设计的内容包括:问卷代码、变量的定义(名称、类型、位数、对应问题等)以及取值的定义(范围、对应含义等)。将这些内容列成表格,形成编码表。 问卷代码主要包括访员代码、问卷代码以及与抽样或调查对象有关的子总体的代码等。例如: 某问卷代码为“1031102”,从左到右的数字“1” 、“03”、 “11”和“02”,可能分别代表在上海航空的652次航班上 “11”号访员完成的第2份问卷。 通过问卷代码不仅可以方便查找问卷、审核访员的工作,还有助于子总体间的对比分析。,2018/9/25,10,编码设计的分类,1)根据问卷结构分为: 结构式问卷编码设计 非结构式问
4、卷编码设计 2)根据问题类型分为 封闭题编码设计 半封闭题编码设计 开放题编码设计 3)根据编码设计的时间关系分为 前编码设计 后编码设计,2018/9/25,11,前编码设计 封闭式问题的编码,(1) 单选的封闭式问题或量表的编码 无论这种量表或核对表有几项备选答案,被访者只能选择其中的一项。这时只涉及一个变量,变量值即为选项号。例如:4请问您乘坐的舱位是:头等舱 公务舱 经济舱 编码如下: 定义变量名为V2 ,数字型变量,变量占字节数为1,变量取值范围为1,2,3或9,其中1=头等舱,2=公务舱,3=经济舱,9=该题无回答。,2018/9/25,12,前编码设计 封闭式问题的编码,(2) 多选的封闭式问题或量表的编码 这类多选题需要使用多个变量来表示。通常有两种编码方法: 方法一:所设立的变量个数与问卷提供的选项个数相同,即每个选项就是一个变量,每个变量取值都是0或1,如果被访者选择该选项,变量值取1,否则取0。如表9-1。 方法二:所设立的变量个数为最多可以选择的选项个数,变量取值为所选择答案的选项号,变量排列顺序即为选择答案的顺序。仍以上题为例,假设题中规定至多选择3项,则编码
5、设计如表9-2所示。,2018/9/25,13,前编码设计 封闭式问题的编码,(3)等级顺序量表的编码 对等级顺序量表的编码同样需要设立多个变量。顺序量表的编码也有两种方法。 方法一:变量个数即选项个数,按照选项的顺序排列,分别定义各变量为对应选项所排次序号,取值即为次序号。编码设计见表9-3。 方法二:所设立的变量个数为要求排序项数,依照次序号排列顺序,分别定义各变量为各次序号对应的选项项数,取值即为选项号。仍以上题为例,但形式稍作改变,编码设计见表9-4。,2018/9/25,14,前编码设计 数字型开放题编码,对直接回答数字的问题,变量取值即为该数字。 设计编码时变量的测量水平应尽量高一些,这样,后期为不同分析的需要可以再分组。 变量所占字节数可以根据事先预计的数字最大值的位数确定。 例如,直接询问被调查者的年龄,编码设计时取变量名为NL,所占字节为2(因为调查对象要求为20-60岁),小数点位为0,变量取值即为年龄,单位为“岁”,取值范围为20-60或0(0表示该题缺失)。,2018/9/25,15,后编码设计,后编码设计主要适用于事先无法确定答案类别的问题,如结构式问卷中的文
《《市场调查与预测》第九章数据处理》由会员lizhe****0001分享,可在线阅读,更多相关《《市场调查与预测》第九章数据处理》请在金锄头文库上搜索。
亚龙YL-235A光机电一体化实训与考核设备的使用
2016年第三讲比较文学研究对象、种类和范畴
《导游学》第九章导游人员的讲解技能
《施工图识读与会审》3.0.1.1钢结构工程施工图识读与会审
北京嘉利国际商住项目公关活动策划方案
平面解析几何椭圆
植物学第三章第三节叶
财政学第六章财政投资支出和社会保障支出
计算机控制系统(英文版)Chapter1ComputerControlTheoryandDesign
现代物流学第九章电子商务物流
学校管理学第十五章教学媒体的管理
北大《空间探测信息处理技术(IDL)》第7章图像处理(中)
化工基础第二章传热过程
初中英语:上好一堂课的22个关键要素
《田径运动》技术课-跳高2背越式跳高孤线助跑起跳技术
《建筑室内设计》第七章办公空间设计
《城市规划原理》第十章城市历史文化遗传保护与城市更新
《国际金融》Leture4国际金融体系与汇率制度的选择
《中医内科学》第五章肾系病证黄疸
石家庄苹果城商务楼营销策划方案
2023-12-11 28页
2023-12-11 28页
2023-12-11 27页
2023-12-11 31页
2023-12-11 27页
2023-12-11 27页
2023-12-11 33页
2023-12-11 28页
2023-12-11 26页
2023-12-11 29页