您所在位置：网站首页 > 经济/贸易/财会 > 综合/其它 > SPSS数据的预处理

SPSS数据的预处理.ppt

76页

卖家[上传人]：san****glu

文档编号：49475579

上传时间：2018-07-28

文档格式：PPT

文档大小：1.46MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10金贝

下载

/ 76 举报版权申诉马上下载

文本预览

下载提示

常见问题

•第三章 SPSS数据的预处理•为什么要进行数据的预处理§在数据文件建立之后，通常还需要对分析的数据进行必要的预加工处理，这是数据分析过程中必不可少的一个关键步骤§数据的预加工处理服务于数据分析和建模，主要包括以下几个问题：Ø 数据的排序Ø 变量计算Ø 数据选取Ø 计数Ø 分类汇总Ø 数据分组Ø 数据预处理的其他功能：转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集•预处理的内容•3.1 数据的排序§SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列这里的变量也称为排序变量排序变量只有一个时，排序称为单值排序排序变量有多个时，排序称为多重排序多重排序中，第一个指定的排序变量称为主排序变量，其他依次指定的变量分别称为第二排序变量、第三排序变量等•数据排序便于数据的浏览，有助于了解数据的取值状况、缺失值数量的多少等； •通过数据排序能够快捷的找到数据的最大值和最小值，进而可以计算出数据的全距，初步把握和比较数据的离散程度； •通过数据排序能够快捷地发现数据的异常值，为进一步明确它们是否会对分析产生重要影响提供帮助。

•3.1.1数据排序的作用SPSS数据排序的基本操作步骤（1）选择菜单Data－Sort Cases（2）将主排序变量从左边的列表中选到Sort by框中，并在Sort Order框中选择按该变量的升序还是降序排序3）如果是多重排序，还要一次指定第二、第三排序变量及相应的排序规则•3.1.2 数据排序的基本操作在左边的源变量框中选择排序变量进入Sort by框如果选择2个以上的变量，观测量的排序结果与排序变量在Sort by框中的顺序有关列于首位的为第一排序变量在Sort Order 栏内选择排序方式——升序与降序1、数据排序是整行数据排序，而不是只对某列变量排序；2、多重排序中指定排序变量的次序很关键先指定的变量优先于后指定的变量多重排序可以在按某个变量值升序（或降序）排序的同时再按其他变量值降序（或升序）排序；3、数据排序后，原有数据的排序次序必然被打乱，排序后不能撤销•说明•数据排序应用举例§利用居民储蓄调查数据，通过数据排序功能分别找到城镇户口和农村户口储户一次存款金额的最大值和最小值•3.2 变量计算§数据的转换处理是在原有数据的基础上，计算产生一些含有更丰富信息的新数据。

例如根据职工的基本工资、失业保险、奖金等数据，计算实际月收入，这些新变量具有更直观更有效的特点•3.2.1 变量计算的目的§SPSS变量计算是在原有数据的基础上，根据用户给出的SPSS算术表达式以及函数，对所有个案或满足条件的部分个案，计算产生一系列新变量1）变量计算是针对所有个案（或指定的部分个案）的，每个个案都有自己的计算结果2）变量计算的结果应保存到一个指定变量中，该变量的数据类型应与计算结果的数据类型相一致在变量计算过程中涉及到几个概念：SPSS算数表达式、SPSS条件表达式和SPSS函数§指出按照什么方法计算变量；§SPSS算术表达式（Numeric Expression）是由常量、变量、算术运算符、圆括号、函数等组成的式子•字符型常量应当用引号括起来•变量是指那些已存在于数据编辑窗口中的原有变量 •算术运算符主要包括＋、－、*、/、**（乘方）•在同一算术表达式中的常量及变量，数据类型应该一致，否则无法计算 •3.2.2 SPSS算术表达式§在变量计算中通常要求对不同的个案分别按照不同的方法进行计算，于是就需要通过一定的方式来指定个案；§SPSS条件表达式是一个对条件进行判断的式子。

其结果有两种取值：如果判断条件成立，则结果为真；如果判断条件不成立，则结果为假条件表达式包括简单条件表达式和复合条件表达式•3.2.3 SPSS条件表达式（1）简单条件表达式由关系运算符、常量、变量以及算术表达式等组成的式子其中关系运算符包括、＝、＝nl35）（2）复合条件表达式又称逻辑表达式，是由逻辑运算符号、圆括号和简单条件表达式等组成的式子其中，逻辑运算符号包括&或AND（并且）、|或OR（或者）、～或NOT （非）NOT的运算优先级最高，其次是AND，最低是OR可以通过圆括号改变运算的优先级年龄 =35）and not （职称 3）§SPSS函数是事先编好并存储在SPSS软件中，能够实现某些特定计算任务的一段计算机程序这些程序都有各自的名字称为函数名执行这些程序段得到的计算结果称为函数值函数书写的具体形式为：函数名（参数）•3.2.4 SPSS函数其中，函数名是SPSS已经规定好的，参数可以是常量（字符型常量应用引号括起来），也可以是变量或算术表达式参数可能是一个，也可能是多个，各参数之间用逗号分隔SPSS函数大致可以分成八大类：算术函数、统计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其他函数。

§（1）选择菜单Transform－Compute，弹出 Compute Variable对话框如下：•3.2.5 变量计算的基本操作（2）在Target框中输入存放计算结果的变量名该变量可以是一个新变量，也可以是已经存在的变量如果指定存放计算结果的变量为新变量，SPSS会自动创建它；如果指定产生的变量已经存在，SPSS会提问是否以计算结果覆盖原有值新的变量默认为数值型，用户可以根据需要单击Type&Label按钮修改，还可以对新变量加变量名标签3）在Numeric Expression框给出SPSS算术表达式可以手工输入，也可以按窗口的按钮以及函数下拉菜单输入4）如果希望对符合一定条件的个案进行变量计算，则单击If按钮，出现下面的窗口，选择Include if case satisfies condition选项，然后输入条件表达式对不满足条件的个案，将不进行变量值计算，对新变量取值为系统缺失值1、利用职工基本情况数据，依据职称级别计算实发工资假设职称1至4职工的工资分别上调5％，3％，2％，1％•3.2.6 变量计算的应用举例•3.3 数据选取§数据选取就是根据分析的需要，从已收集到的大批量数据（总体）中按照一定的规则抽取部分数据（样本）参与分析的过程，通常也称为抽样。

SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取，这样后面的分析操作就只针对选出的数据，直到用户取消这种选取为止1）选取全部数据（All cases）（2）按指定条件选取（ If condition is satisfied ）SPSS要求用户以条件表达式给出数据选取的条件，SPSS将自动对数据编辑窗口中的所有个案进行条件判断那些满足条件的个案，即条件判断为真的个案将被自动选取出来，而那些条件判断为假的个案则不被选中•3.3.1 数据选取的基本方式（3）随机抽样（ Random sample of cases ），即对数据编辑窗口中的所有个案进行随机筛选，包括如下两种方式：第一，近似抽样（Approximately）近似抽样要求用户给出一个百分比数值，SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案注：由于SPSS在样本抽样方面的技术特点，抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目，会有小的偏差，因而称为近似抽样第二，精确抽样（Exactly）精确抽样要求用户给出两个参数第一个参数是希望选取的个案数，第二个参数是指定在前几个个案中选取。

SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来4）选取某一区域内的样本（ Based on time or case range ），即选取数据编辑窗口中样本号在指定范围内的所有个案，要求给出这个范围的上、下界个案号码这种抽样方法适用于时间序列数据5）通过过滤变量选取样本（ Use filter variable ），即依据过滤变量的取值进行样本选取要求指定一个变量作为过滤变量，变量值为非0或非系统缺失值的个案将被选中这种方法通常用于排除包含系统缺失值的个案说明：（1）完成数据选取后，以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止2）采用指定条件选取和随机抽样方法进行数据选取后，SPSS将在数据编辑窗口中自动生成一个名为 filter_$的新变量，取值为1或01表示本个案被选中，0表示未被选中该变量是SPSS产生的中间变量，如果删除它则自动取消样本抽样1）选择菜单Data—Select cases（2）根据分析需要选择数据选取方法（3）Unselected cases are指定对未选中个案的处理方式 •Filtered表示在未被选中的个案号码上打一个“/”标记； •Deleted表示将未被选中的个案从数据编辑窗口中删除。

•3.3.2 数据选取的基本操作Select Cases对话框利用住房状况调查数据，根据不同的分析要求采用不同的数据选取方法抽样：（1）如果只希望分析本市户口的家庭住房状况，可以通过数据选择功能采用指定条件的抽样方法进行抽样；（2）如果只希望对其中的70％的数据进行分析，可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样•3.3.4 数据选取的应用举例•3.4 计数§3.4.1 计数目的计算若干变量中有几个变量的值落在指定的区间内，并将计数结果存入一个新变量中的过程，即用于计算满足条件的个数例如对大学毕业班学生的成绩进行综合测评时，可以依次计算每个学生的若干门课程中有几门课程得了优，有几门课程得了良，有几门课程不及格SPSS实现计数的关键步骤是：•指定哪些变量参与计数，计数的结果存入哪个新变量中•指定计数区间（尤为关键） SPSS中的计数区间可以有以下几种描述形式： v单个变量值（Value）v系统缺失值（System-missing）v系统缺失值或用户缺失值（ System or user- missing）v给定最大值和最小值的区间（n through m）v小于等于某指定值的区间（Lowest through n）v大于等于某指定值的区间（n through highest）•3.4.2 计数区间上述后三个计数区间很容易理解。

例如评价学生成绩，成绩为优的计数区间可以指定为90 through highest，成绩为良的计数区间指定为80 through 89，不及格的计数区间指定为Lowest through 59前三个计数区间实际上是一些离散的数据点，严格讲并不是区间，但SPSS仍将其归在广义区间的范畴内，目的是方便一些其他的应用1）选择菜单Transform－Count，出现如下窗口：•3.4.3 计数的基本操作（2）将参与计数的变量选到 Numeric Variables 框中（3）在Target Variable框中输入存放计数结果的变量名，并在Target Label框中输入相应的变量名标签4）单击Define Values按钮定义计数区间，出现如下图窗口：通过单击Add、Change、Remove按钮完成计数区间的增加、修改和删除5）如果仅希望对满足某条件的个案进行计数，则单击If按钮并输入相应的SPSS条件表达式否则，本步可略去§利用住房状况调查数据分析被调查家庭中有多少比例的家庭对目前的住房满意切近几年不准备买住房那不满意又准备买房又如何处理呢?)•3.4.4 计数的应用举例•3.5 分类汇总§3.5.1 分类汇总的目的分类汇总是按照某分类变量进行分类汇总计算。

例如：某企业希望了解本企业不同学历职工的基本工资上是否存在较大差距最简单的做法就是分类汇总，即将职工按学历进行分类，分别计算不。

点击阅读更多内容