
Spss的数据预处理.docx
13页Spss 的数据预处理一、 数据预处理的目的:在数据文件建立好后,通常还要对待分析的数据进行必要的预加工处理,这是数据分析过程中不可缺少的一个关键环节数据的预加工处理是服务与数据分析和建模的,需要解决的问题如下:1、缺失值和异常数据的处理2、数据的转换处理 数据的转换处理是在原有数据的基础上, 计算产生一些含有更丰富信息的新数据或对数据原有分布进行转换等3、数据抽样从实际问题、算法或效率等方面考虑,并非收集到的所有数据(个案)在某项分析中都有用途, 有必要按照一定的规则从大量数据中选取部分样本参与分析4、选取变量并非所有数据项(变量)在某项分析中均有意以,选取部分变量参与分析是必要的Spss 提供了一些专门的功能辅助用户实现数据的预加工处理工作,通过预处理还可以使用户对数据的总体分布有所了解二、数据预处理步骤:1、数据的排序:( 1)数据排序的目的:a 、通常数据编辑窗口中个案的前后次序是由数据数录入的先后顺序决定的,数据排序便于数据的浏览,有助于了解数据取值状况、缺失值数量的多少通过数据排序能够快速找到最大值和最小值,进而可以计算出数据的全距,快速把握和比较数据的离散程度c 、通过数据排序能够快速发现数据的异常值。
2)、数据排序的步骤:a 、选择菜单:【Date】→【 Sort Cases 】b 、指定主排序量到【 Sort by 】框中,并选择【 Sort Order 】框中的选项指出精选资料,欢迎下载该变 量按 升序 还是降序 排序排 序 Ascending 】表示升 序,【 Descending】表示降序c 、如果是多重排序, 还要依次指定第二、 第三排序变量及相应的排序规则否则本部可略排序窗口如下图:图 12、变量计算:(1)变量计算的目的:a 、通过数据的转换处理,在原有数据的基础上,计算产生一些含量更丰富的新数据对数据的原有分布状态进行转换, 由于数据分析和建模中某些模型对数据分布有一定的要求,因此可以利用变量计算对原有数据的分布进行转换c 、 spss 变量计算是在原有数据的基础上,根据用户给出的 spss 的算术表达式以及精选资料,欢迎下载函数,对所有个案或满足条件的部分个案, 计算产生一系列新变量2)变量计算的操作步骤:a 、选择菜单:【Transform 】→【 Compute Variable 】出现如图 2 所示窗口:图 2b、在【 Numeric Exepression 】框给出 spss 算术表达式和函数。
可以手工输入也可以按窗口的按钮算数表达式和函数的输入工作c、在【 Target Variable 】框中输入存放结果的变量名如果用户只希望对符合一定条件的个案计算产生变量,则按 if 按钮,出现如图 3 所示的窗口选择【 Include if case satisfies condition 】选项,然 后 输 入 条 件 表 达 式 , 否 则 本 步 略 去 精选资料,欢迎下载图 33、变量的选取:(1)数据选取的目的:a 、提高数据的分析效率b 、检验模型2)数据选取的步骤:a、【 Date】→【 Select Case 】b 、在【 Select 】框中选择选取方法如图 4 所示:精选资料,欢迎下载图 44、计数:(1)计数的目的:把握个案各方面的特征2)计数的步骤:a 、选择菜单:【Transform 】→【 Count Values within Cases 】如图 5所示:b 、选择参与计数的变量到【 Numeric Variables 】框中c 、在【 Target Variable 】框中输入存放技术结果的的变量名, 并在【 Target Label 】框中输入相应的变量名标签。
精选资料,欢迎下载图 5d、按 Define Values 按钮定义计数区间,出现图 6 所示窗口通过 Add、、Remove按钮完成计数区间的增加、修改和删除e 、如果仅希望对满足条件的个案进行计数,则按 if 按钮并输入 spss 相应表达式否则本部可略精选资料,欢迎下载图 65、分类汇总:(1)【 Date】→【 Aggregate 】(2)指定分类变量到【 Break Variables 】框中,指定汇总变量到【aggregatedVariables 】框中,如图 7:(3)按 function 按钮指定对汇总变量计算那些统计量 Spss 默认计算均值4)制定将汇总结果保存到何处5)按 name&Lab按钮重新指定汇总结果中的变量名或变量名标签6)如果希望在结果文件中保存各分类组的个案数则选择 【Numberof cases】.精选资料,欢迎下载6、数据分组:(1)【 Transform 】→【 Recode into Dfferent Variables 】(2)选择分组变量到【 Numeric Variable —>Output 】框中3)在【Numeric Variable 】框中的【 name】后输入存放分组结果的变量名,并按 change按钮确认。
4)按 old and new Values 按钮进行分组区间定义如图 8 所示:(5)如果只对符合条件的个案进行分组, 则按 if 按钮输入 spss 条件表达式7、数据转置:( 1)【Date】→【 transpose 】如图 9 所示:( 2)指定数据转置后保留那些变量,将它们们选入【 Variables 】框中 3)指定数据转置后应保留那些变量名8、加权处理:(1)【 Date】→【 Weight Cases 】(2)选择【 Weight Cases by】选项,并选择某变量作为加权变量到 【 Frequency Variable 】框中如图 10 所示:精选资料,欢迎下载9、数据拆分:(1)数据拆分的目的:根据指定变量对数据进行分组,它将为以后进行的分组统计分析提供便利2)数据分组的步骤:a 、【Date】→【 Split File 】如图 11 所示:b 、选择拆分变量到【 Groups based on 】框中c 、拆分会使后面的分组统计产生两种不同格式的结果d 、如果数据编辑窗口中的数据已经事先安所指定的拆分变量进行了排序,则可以选择【 File is already sorted】项,他可以提高拆分执行的速度,否则选择【 Sortthe file by grouping Variables 】项。
三、 spss 数据预处理应注意的事项:精选资料,欢迎下载1 、数据排序时须注意的事项:(1)数据排序是整行数据排序,而不只是对某列变量进行排序 2)多重排序中指定排序变量的次序很关键3)数据排序以后,原有数据的排列必然别打乱2 、变量计算:(1)如果指定存放计算结果的变量为新变量, spss 会自动创建它,如果指定产生的变量已经存在, spss 会提问用户是否以计算出的新值覆盖原有旧值2)对不满足指定条件的个案, spss 不进行变量值计算对新变量取值为系统缺失值,对已有旧变量,变量值保持不变3 、数据选取:(1 按上述操作步骤完成数据选取后, 以后的 spss 分析操作仅针对那些被选中的个案直到用户再次改变数据选取为止2)采用按指定条件选取和随机选取方法进行数据选取后, spss 将在数据,编辑窗口中自动生成一个名为 filter_$ 的新变量,取值为 1 或 01 表示本条个案被选中, 0 表示为别选中该变量是 spss 产生的中间变量,如果删除它,则自动取消样本选取4 、分类汇总:(1)分类汇。
