电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

《市场调查与预测》第九章数据处理

33页
  • 卖家[上传人]:lizhe****0001
  • 文档编号:55163200
  • 上传时间:2018-09-25
  • 文档格式:PPT
  • 文档大小:1.78MB
  • / 33 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、2018/9/25,1,第9章 数据处理,2018/9/25,2,开篇案例 家庭外出就餐的有关数据,在某城市调查居民当月在外就餐的费用,向1000户家庭发放了调查问卷,回收了768份问卷。统计结果如上表所示。 不响应的户有232户。在响应的768户中,高档住宅户仅占16,而不响应的232户中,高档住宅户占到38。那么,我们应当如何看待这些数据?如何使用这些数据对总体进行推断呢?,2018/9/25,3,9.1 数据处理及其一般程序,广义上讲,数据处理是指在对数据资料进行统计分析之前要做的所有准备工作。 在资料量化和分析计算机化的背景下,狭义的数据处理,是指把调查中收集到的数据转换为适合汇总制表和数据分析形式的过程。主要包括 检查资料中潜存的错误 将数据资料转化为数字形式 录入数据 对不完整的数据进行插补 将数据资料变成计算机数据文件,2018/9/25,4,数据处理的一般程序,以纸制问卷为例,数据处理的过程(如图9-1)。,2018/9/25,5,数据处理的程序,1初步审核及净化 审核问卷填写的完整性和数据质量,目的是确定哪些问卷可以接受,哪些问卷要被剔出。 问卷审核规则:下述情况的问

      2、卷一般不能接受: 所回收的问卷明显不完整,如缺页或多页; 问卷从整体上是回答不完全的; 问卷的几个部分是回答不完全的; 回答表明被访者没弄清问题含义或没阅读填答说明; 被访者的回答表现出某种系统偏差,如总选择中性答案; 问卷是由不合要求的被访者回答的。 将原始问卷区分为可以接受、明显要作废、对是否可以接受有疑问三部分,是有益的。,2018/9/25,6,数据处理的程序,3将数据录入计算机 数据录入是将回答转化成可机读的形式。采用纸制式问卷收集数据时,数据录入是在数据收集完毕之后由录入员将问卷上的数据输入计算机。 下面几种方法可以提高数据录入的效率: 采用计算机辅助数据收集方法; 对纸制式问卷进行光电扫描; 对纸制式问卷进行预先编码。,2018/9/25,7,数据处理的程序,6将数据储存在数据库中 两种数据储存格式:数据库和平面文件 平面文件就是计算机化后的二维记录格式和它们相应的值,它容易从一种平台转到另一种平台,并能用不同的表格软件或统计软件读取。 以数据库格式存贮数据,可以方便大多数统计和数据库软件直接处理,而不必重新生成文件,查询操作也方便。但是数据库格式可能会限制软件的选择。

      3、因此,较好的选择是对调查结果生成一个平面文件,同时生成几种不同的数据库文件。,8,9.2 数据编码,编码,就是将问卷信息转化为统一设计的、计算机可识别的数值代码的过程,以便于数据录入和作进一步处理与分析。 编码设计就是确定各问卷、问卷中的各问题以及问题的各答案对应的代码的名称、形式、范围以及与原数据的对应关系,以便能够将调查中所得到的各种回答分成若干有意义且有本质差别的类别。,2018/9/25,9,编码设计的内容,编码设计的内容 编码设计的内容包括:问卷代码、变量的定义(名称、类型、位数、对应问题等)以及取值的定义(范围、对应含义等)。将这些内容列成表格,形成编码表。 问卷代码主要包括访员代码、问卷代码以及与抽样或调查对象有关的子总体的代码等。例如: 某问卷代码为“1031102”,从左到右的数字“1” 、“03”、 “11”和“02”,可能分别代表在上海航空的652次航班上 “11”号访员完成的第2份问卷。 通过问卷代码不仅可以方便查找问卷、审核访员的工作,还有助于子总体间的对比分析。,2018/9/25,10,编码设计的分类,1)根据问卷结构分为: 结构式问卷编码设计 非结构式问

      4、卷编码设计 2)根据问题类型分为 封闭题编码设计 半封闭题编码设计 开放题编码设计 3)根据编码设计的时间关系分为 前编码设计 后编码设计,2018/9/25,11,前编码设计 封闭式问题的编码,(1) 单选的封闭式问题或量表的编码 无论这种量表或核对表有几项备选答案,被访者只能选择其中的一项。这时只涉及一个变量,变量值即为选项号。例如:4请问您乘坐的舱位是:头等舱 公务舱 经济舱 编码如下: 定义变量名为V2 ,数字型变量,变量占字节数为1,变量取值范围为1,2,3或9,其中1=头等舱,2=公务舱,3=经济舱,9=该题无回答。,2018/9/25,12,前编码设计 封闭式问题的编码,(2) 多选的封闭式问题或量表的编码 这类多选题需要使用多个变量来表示。通常有两种编码方法: 方法一:所设立的变量个数与问卷提供的选项个数相同,即每个选项就是一个变量,每个变量取值都是0或1,如果被访者选择该选项,变量值取1,否则取0。如表9-1。 方法二:所设立的变量个数为最多可以选择的选项个数,变量取值为所选择答案的选项号,变量排列顺序即为选择答案的顺序。仍以上题为例,假设题中规定至多选择3项,则编码

      5、设计如表9-2所示。,2018/9/25,13,前编码设计 封闭式问题的编码,(3)等级顺序量表的编码 对等级顺序量表的编码同样需要设立多个变量。顺序量表的编码也有两种方法。 方法一:变量个数即选项个数,按照选项的顺序排列,分别定义各变量为对应选项所排次序号,取值即为次序号。编码设计见表9-3。 方法二:所设立的变量个数为要求排序项数,依照次序号排列顺序,分别定义各变量为各次序号对应的选项项数,取值即为选项号。仍以上题为例,但形式稍作改变,编码设计见表9-4。,2018/9/25,14,前编码设计 数字型开放题编码,对直接回答数字的问题,变量取值即为该数字。 设计编码时变量的测量水平应尽量高一些,这样,后期为不同分析的需要可以再分组。 变量所占字节数可以根据事先预计的数字最大值的位数确定。 例如,直接询问被调查者的年龄,编码设计时取变量名为NL,所占字节为2(因为调查对象要求为20-60岁),小数点位为0,变量取值即为年龄,单位为“岁”,取值范围为20-60或0(0表示该题缺失)。,2018/9/25,15,后编码设计,后编码设计主要适用于事先无法确定答案类别的问题,如结构式问卷中的文

      6、字型开放题。 对开放题进行定量分析,必须将问题转化为一个或几个变量,将所有可能的答案类别赋予相应代码。在此过程中应注意: 1)对照问题大致翻阅一下可能的回答,甄别出主要变量,然后定义变量名称、类型和含义。 2)根据问题的回答确定各答案类别,注意应尽量获取分布广泛的回答。 3)类似封闭式问题的编码,给每种答案类别确定一个代码,规定其位数。,2018/9/25,16,9.3 详细审核,每份问卷都应该完整且无错误。但是,问题回答不完整、不一致或有明显错误的现象时有发生。 审核就是应用各种检查规则来辨别缺失、无效或不一致的录入,这些录入会导致数据记录的潜在错误。 审核工作贯穿于整个调查过程,从访员在调查现场的简单初步的检查到数据处理阶段数据录入之后由计算机程序进行的复杂校验。,2018/9/25,17,详细审核的规则,通常,审核规则的主要基于以下方面: 关于调查主题的专业知识(涉及对回答合理性的专业判别); 问卷和问题的结构(跳转指令及回答的逻辑流程); 其它相关的调查或数据; 统计理论(如离群值的检测方法)。,2018/9/25,18,详细审核的分类,三类审核:有效性审核、一致性审核、分布审

      7、核 有效性审核,用于检查被访者回答语句的语法是否正确,包括是否在规定填数字的地方填上非数字的字符,以及问卷中的回答是否有缺失等。 一致性审核,用于检查不同问题之间的关系是否正确。审核可以基于问题间的结构关系、逻辑性和合法性来进行,如出生年月和婚姻状况。 分布审核(统计审核或离群值检测)则是对全部问卷或部分问卷的数据一起进行审核。分布审核试图通过数据的分布,来辨识记录是否远远脱离分布的正常范围,即是否为离群值。,有效性审核和一致性审核 都是对单张问卷进行,2018/9/25,19,选择性审核,为避免时间和经费浪费在那些对估计并无太大影响的数据上,通常要求进行选择性审核。 选择性审核包括各种方法: 自上而下法:对于给定的一个估计域,按(加权后)数据对估计影响的大小将数值列表,逐一检查,当下一个影响最大的值对域估计的影响不是很显著时,就停止往下检查和验证。 聚集法:确定可疑的域估计,并分别检查该域中各个记录的权数。如,如某村的平均家庭规模是23,则该村所有被赋予权数的个体记录都要被检查。 画图法:把数据画成图形,确定可疑值。如,画出数据的分布图,找出分布尾部的可疑值。,2018/9/25,2

      8、0,9.4 插补,插补就是解决在审核过程中辨别出来的数据缺失、无效与不一致等问题的过程。 插补要改变一些回答,并对审核过程中所发现的有缺失信息的记录进行补充或替代,确保得出内在一致的记录。,2018/9/25,21,插补方法分类,确定性插补 确定性插补意味着,对于特定被调查者的数据,可能的插补值只有一个。 随机插补 随即插补是在确定性插补值的基础上,加上从某个适宜的分布或模型产出的一个残差,作为最后的插补值。这个插补值包含随机因素。 随机插补能更好地保持数据集的频数结构,保持比确定性插补方法更真实的变异性。,2018/9/25,22,插补方法分类,每一种确定性插补方法都对应一种随机插补方法。 假定采用确定性方法得到用于插补的均值为 ,则随机均值就可以表示为: 式中, 是变量y第i个记录的插补值;是插补类的均值;是从被调查者或某分布随机模型中抽取的残差。 对于某一插补类中的被调查者集合,残差公式是:式中, 是插补类中第i个被调查者提供的y值;是插补类y值的均值。实际上是一个残差集,从中随机选取一个作为 。,2018/9/25,23,插补方法分类,确定性插补方法包括: 推理插补; 均值插补

      9、; 回归插补; 序贯热平台插补; 序贯冷平台插补; 最近邻值插补。,2018/9/25,24,插补方法1:推理插补,在插补中,缺失或不一致的数据通过推断确定。推理通常根据问卷上其它回答项的模式来进行。 例如,已知某问题四项数值之和为100,其中两项分别是60和40,其余两项空着,那么可以推断空着的两项一定是0。 注意,用推理插补得到的插补值不一定是真值。,2018/9/25,25,插补方法2:均值插补,指缺失或不一致的值用插补类(把类似的记录归为一组,这个组称为插补类)的均值来代替。 例如,在一份住房调查问卷中公寓月租金的值缺失,则利用同插补类中正确填报租金的问卷计算其平均值,然后用这个平均值来代替缺失值。 均值插补通常在没有辅助信息可用或只有少量记录需要作插补处理时,才最后被采用。即,当插补不会对数据分布产生实质性影响时,才选择使用均值插补。,2018/9/25,26,插补方法3:回归插补,回归插补是指使用辅助信息及其它记录中的有效回答建立一个回归模型,该模型表明了两个或多个变量之间的关系。,式中, yi是变量y的第i个单元值;xi是与变量y相关的变量x的第i个单元值;R是xi每变动

      10、一个单位,yi平均变动的数值;i是模型的随机误差项,均值为0、方差为2,式中:y是变量y第i个记录的插补值;x是插补类中记录的x值的均值;y是插补类中记录的y值的均值。,假定xi与yi服从近似的线性关系,且观测值yi围绕这条直线上下波动,波动的幅度是随机项i。插补所使用的线性模型为:,yi的插补值按如下公式计算:,2018/9/25,27,插补方法4:热平台插补,热平台插补是使用同一插补类中的供者记录的信息来代替一个相似的受者记录中缺失/不一致数据的插补方法。插补出的数值应该相当准确,且保持数据的原始分布形式。但是热平台插补可能导致一个供者的多次使用。 热平台插补方法 为找到一个相似的供者记录,必须先确定与需要进行插补处理的变量相关的变量,建立插补类。 然后,插补类中通过所有审核的记录集就是供者记录的集合,这些记录可用来插补受者中缺失的数据。 热平台插补的两种类型 序贯热平台插补 随机热平台插补,2018/9/25,28,插补方法5:冷平台插补,冷平台插补与热平台插补类似,不同之处在于热平台插补使用当前调查的供者,而冷平台插补则使用其它资料中的供者。冷平台插补经常使用前期的调查或普查中的历史数据。 如果供者是用随机方式选出的,那么该方法就是随机冷平台插补,否则就是确定性冷平台插补。,

      《《市场调查与预测》第九章数据处理》由会员lizhe****0001分享,可在线阅读,更多相关《《市场调查与预测》第九章数据处理》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.