
数据文件的基本加工和处理.ppt
36页第第2章章 SPSS数据文件的数据文件的建立和管理建立和管理2.1 数据文件的特点和结构数据文件的特点和结构2.2 定义数据文件的结构定义数据文件的结构2.3 数据的录入与编辑数据的录入与编辑2.4 数据的保存数据的保存2.5 读取其他格式的数据文件读取其他格式的数据文件2.6 数据文件的合并数据文件的合并SPSS数据的保存数据的保存1、、File→Save/ Save as2、给出文件存放的地点并要求为文件命名,、给出文件存放的地点并要求为文件命名,还要选择保存的文件类型,其中还要选择保存的文件类型,其中variables选项可以对要保存的变量进行选择选项可以对要保存的变量进行选择3、、若保存为若保存为excel文件,选文件,选Write variables names to spreadsheet 可以指定将变量名写可以指定将变量名写到到excel工作表的第一行,选工作表的第一行,选Save value labels where defined instead of data values可可以用变量值标签代替变量值以用变量值标签代替变量值第第2章章 SPSS数据文件的数据文件的建立和管理建立和管理2.1 数据文件的特点和结构数据文件的特点和结构2.2 定义数据文件的结构定义数据文件的结构2.3 数据的录入与编辑数据的录入与编辑2.4 数据的保存数据的保存2.5 读取其他格式的数据文件读取其他格式的数据文件2.6 数据文件的合并数据文件的合并1、、File→Open → Data2、选择要打开文件的类型,输入名称、选择要打开文件的类型,输入名称选择选择Range可以指定读取工作表某个区域内可以指定读取工作表某个区域内的数据;选择的数据;选择Read variable names可以将可以将Excel表的第一行上的文字信息作为表的第一行上的文字信息作为SPSS的的变量名变量名打开打开Excel数据文件数据文件第第2章章 SPSS数据文件的数据文件的建立和管理建立和管理2.1 数据文件的特点和结构数据文件的特点和结构2.2 定义数据文件的结构定义数据文件的结构2.3 数据的录入与编辑数据的录入与编辑2.4 数据的保存数据的保存2.5 读取其他格式的数据文件读取其他格式的数据文件2.6 数据文件的合并数据文件的合并SPSS数据文件的合并数据文件的合并 将一个(或多个)已存储在磁盘将一个(或多个)已存储在磁盘上的上的SPSSSPSS数据文件分别依次合并到数据文件分别依次合并到SPSSSPSS数据编辑窗口中的数据文件中。
数据编辑窗口中的数据文件中横向合并横向合并 纵向合并纵向合并 纵向合并纵向合并:首尾对接首尾对接 从外部数据文件中增加观测量到当前数据从外部数据文件中增加观测量到当前数据文件中,称为纵向合并或追加观测量文件中,称为纵向合并或追加观测量注意:注意:相互合并的数据文件应该有相同的变量相互合并的数据文件应该有相同的变量步骤:步骤:1.1.打开一个数据文件打开一个数据文件2.2.菜单:菜单:DataData→MergeMerge→FilesFiles→Add CasesAdd Cases3.3.例子:例子:P40P40案例案例2-32-3横向合并横向合并:左右对接左右对接 从外部数据文件增加变量到当前数据从外部数据文件增加变量到当前数据文件,称为横向合并文件,称为横向合并注意:注意:相互合并的数据文件有共同的关键变量问相互合并的数据文件有共同的关键变量问题(且必须先按升序排好,否则合并将失败!)题(且必须先按升序排好,否则合并将失败!)步骤:步骤:1.1.打开一个数据文件打开一个数据文件2.2.菜单:菜单:DataData→MergeMerge→FilesFiles→Add Add Variables3.3.例子:例子:P44P44案例案例2-42-4练习练习::1、对前面录入的课本、对前面录入的课本P40职工基本情况数职工基本情况数据,进行插入、删除、复制、移动等操作,据,进行插入、删除、复制、移动等操作,然后保存为然后保存为.xls格式的文件,在格式的文件,在SPSS中打中打开刚才生成的开刚才生成的Excel文件。
文件2、课本练习题、课本练习题P46第第4题,把合并后的文题,把合并后的文件命名为件命名为“学生成绩学生成绩.sav”第第3章章 SPSS数据的预处理数据的预处理 当数据窗中已经建立或读入了一个数当数据窗中已经建立或读入了一个数据文件后,就可以对该数据文件进行分据文件后,就可以对该数据文件进行分析了但在许多情况下,析了但在许多情况下,SPSS的分析过的分析过程往往对数据的格式有特殊的要求,需程往往对数据的格式有特殊的要求,需要对数据文件进行调整,然后对数据进要对数据文件进行调整,然后对数据进行统计分析行统计分析第第3章章 SPSS数据的预处理数据的预处理3.1 数据排序数据排序3.2 变量计算变量计算3.3 数据选取数据选取3.4 计数计数3.5 分类汇总分类汇总3.6 数据分组数据分组3.7 其他功能其他功能数据的排序数据的排序 根据某些变量值重新排列各观测量根据某些变量值重新排列各观测量CaseCase在数据文件中出现的先后顺序,如:按高在数据文件中出现的先后顺序,如:按高矮排队、按成绩排名等矮排队、按成绩排名等菜单:菜单:DataData → Sort CasesSort Cases a. a. 选择选择Sort bySort by变量变量 b. b. 升序或降序升序或降序 例子:例子:p49-50案例案例3-1,,3-2“职工数据职工数据.sav”第第3章章 SPSS数据的预处理数据的预处理3.1 数据排序数据排序3.2 变量计算变量计算3.3 数据选取数据选取3.4 计数计数3.5 分类汇总分类汇总3.6 数据分组数据分组3.7 其他功能其他功能变量计算变量计算(根据已有变量来建立新变量)(根据已有变量来建立新变量) 1.1.读数据文件读数据文件2.2.选选Transform Transform → computecompute3.3.确定目标变量确定目标变量4.4.确定目标变量的数值表达式确定目标变量的数值表达式((参见参见P52~~53))5.5.按按OKOK例子:例子:P58案例案例3-3 “职工数据职工数据.sav”第第3章章 SPSS数据的预处理数据的预处理3.1 数据排序数据排序3.2 变量计算变量计算3.3 数据选取数据选取3.4 计数计数3.5 分类汇总分类汇总3.6 数据分组数据分组3.7 其他功能其他功能数据的选取数据的选取1.1.按指定条件选取(按指定条件选取(if condition is satistiedif condition is satistied))2.2.随机选取随机选取( (Random sample of casesRandom sample of cases) ) 近似选取近似选取( (ApproximatelyApproximately) ) 精确选取精确选取( (ExactlyExactly) )3.3.选取某一区域内的样本选取某一区域内的样本( (Based on time or case Based on time or case rangerange) )4.4.通过过滤变量选取通过过滤变量选取( (Use filter variableUse filter variable) )数据的选取数据的选取1.1.打开数据文件打开数据文件2.2.选选Data Data → Select CaseSelect Case3.3.确定选择个案的方法确定选择个案的方法4.4.选择落选个案的处理方法选择落选个案的处理方法5.5.按按OKOK键键例子:例子:P62P62案例案例3-4 3-4 ““住房状况调查住房状况调查.sav.sav””第第3章章 SPSS数据的预处理数据的预处理3.1 数据排序数据排序3.2 变量计算变量计算3.3 数据选取数据选取3.4 计数计数3.5 分类汇总分类汇总3.6 数据分组数据分组3.7 其他功能其他功能计数计数对所有个案或满足一定条件的个案,计对所有个案或满足一定条件的个案,计算有多少变量的取值落在指定的范围内,算有多少变量的取值落在指定的范围内,并将计数结果存入一个新变量。
并将计数结果存入一个新变量选选Transform Transform → CountCount例:例:P64P64案例案例3-5 3-5 ““住房状况调查住房状况调查.sav.sav””练习练习::居民储蓄状况调查居民储蓄状况调查.xls.xls课本练习题课本练习题P76第第1、、2、、6题题第第3章章 SPSS数据的预处理数据的预处理3.1 数据排序数据排序3.2 变量计算变量计算3.3 数据选取数据选取3.4 计数计数3.5 分类汇总分类汇总3.6 数据分组数据分组3.7 其他功能其他功能分类汇总分类汇总 按指定的分类变量值对观测量进行分组,对每按指定的分类变量值对观测量进行分组,对每组观测量的各变量求描述统计量例如,了解不同组观测量的各变量求描述统计量例如,了解不同职称的工资是否存在较大差异,就可以将职工按职职称的工资是否存在较大差异,就可以将职工按职称进行分类,分别计算不同职称的平均工资,然后称进行分类,分别计算不同职称的平均工资,然后就可以比较了就可以比较了◆◆菜单:菜单: Data Data → AggregateAggregate a. a.选分类变量选分类变量 b.b.选汇总变量和相应函数选汇总变量和相应函数 c.c.分类汇总结果的选择分类汇总结果的选择◆◆例子:例子: P67P67案例案例3-63-6第第3章章 SPSS数据的预处理数据的预处理3.1 数据排序数据排序3.2 变量计算变量计算3.3 数据选取数据选取3.4 计数计数3.5 分类汇总分类汇总3.6 数据分组数据分组3.7 其他功能其他功能数据分组数据分组 根据需要,将数据按照某种标准重新划根据需要,将数据按照某种标准重新划分为不同的组别,是对原始数据的进一步概分为不同的组别,是对原始数据的进一步概括和总结。
括和总结 根据不同需要,根据不同需要,SPSSSPSS提供以下分组方法:提供以下分组方法: 自动分组(单变量值分组)自动分组(单变量值分组) 手工分组(组距分组)手工分组(组距分组)自动分组(单变量值分组)自动分组(单变量值分组) 每个变量值作为一组,这种分组方法通每个变量值作为一组,这种分组方法通常只适用于离散变量且变量值较少的情况常只适用于离散变量且变量值较少的情况菜单:菜单:Transform → Automatic Recode●选择分组变量选择分组变量●输入存放结果的变量名,并按输入存放结果的变量名,并按New NameNew Name键键●选择组号的升序或者降序排列方法选择组号的升序或者降序排列方法例:对职工按工资和职称分组例:对职工按工资和职称分组手工分组(组距分组)手工分组(组距分组)组距分组的关键:组距分组的关键:●分组数目的确定:分组数目的确定: ●组距的确定:组距的确定:(最大值-最小值)(最大值-最小值)÷÷组数组数 组距组距= =((10441044--827827))÷÷5=44,5=44,近似取为近似取为50 50 注意遵循注意遵循“不重不漏不重不漏”的原则的原则 SPSS SPSS组距分组的两个步骤:组距分组的两个步骤: ●指定分组变量指定分组变量 ●定义分组区间定义分组区间手工分组(组距分组)手工分组(组距分组)分组结果的两种存放方式:分组结果的两种存放方式:●用分组变量值覆盖原变量(用分组变量值覆盖原变量(Into Same Variables Into Same Variables ))●将分组结果存入新变量(将分组结果存入新变量(Into DifferentInto Different Variables Variables ))用分组变量值覆盖原变量(用分组变量值覆盖原变量(Into Same Variables Into Same Variables ))菜单:菜单:Transform → Into Same Variables●选择分组变量选择分组变量●按按 Old and New ValuesOld and New Values键进行分组区间定义键进行分组区间定义●指定分组区间的上下限指定分组区间的上下限例:对职工按工资组距分组;课本例:对职工按工资组距分组;课本P70P70案例案例3-73-7第第3章章 SPSS数据的预处理数据的预处理3.1 数据排序数据排序3.2 变量计算变量计算3.3 数据选取数据选取3.4 计数计数3.5 分类汇总分类汇总3.6 数据分组数据分组3.7 其他功能其他功能数据秩(序)的确定数据秩(序)的确定◆◆如果用户需要对已有的数据变量排秩如果用户需要对已有的数据变量排秩◆◆菜单:菜单:TransformTransformRand CasesRand Cases a.从左边变量名列表框中选择排秩变量进入从左边变量名列表框中选择排秩变量进入Variable(s)框中,选择分类变量进入框中,选择分类变量进入By框中。
则框中则系统排序时将按照进入系统排序时将按照进入By的变量值进行分别排序的变量值进行分别排序 b. 单击单击Ties按纽,选择按纽,选择Ties((Ties是指两个或两个以是指两个或两个以上的数据相等的情况)的处理方式由于秩与数上的数据相等的情况)的处理方式由于秩与数据个数是一一对应的,当数据有相同的时,确定据个数是一一对应的,当数据有相同的时,确定它们相应的秩有三种处理方式:对应秩的它们相应的秩有三种处理方式:对应秩的Mean平平均值、均值、Low最小值和最小值和high最大值数据秩(序)的确定数据秩(序)的确定c. Rank Types按纽提供排秩方式单击按纽提供排秩方式单击Rank Types按纽,打开按纽,打开types对话框,从中选择排秩类型,排对话框,从中选择排秩类型,排秩类型从左到右依次是:秩类型从左到右依次是:Rank普通排序(系统默普通排序(系统默认)认),新变量的值就是秩;新变量的值就是秩;Fractional rank as% 累累计百分数排序;计百分数排序;Savage score以指数分布为基础的以指数分布为基础的原始分排序;原始分排序;Sum of Case weights 以分组例数之以分组例数之和的权重排序;和的权重排序;Fractional rank以秩变量除以分以秩变量除以分组例数之和排序;组例数之和排序;Ntile先给定一个大于先给定一个大于1 的整数,的整数,系统按照此数的范围确定秩。
系统按照此数的范围确定秩例:例:数据数据SY-1SY-1中两个班的数学成绩分别排出名次中两个班的数学成绩分别排出名次 数据文件的转置数据文件的转置◆◆行列互换行列互换数据文件的行数据文件的行-->列,列列,列-->行行◆◆菜单:菜单:DataData→TransposeTranspose a. 选变量,没选的将不转置选变量,没选的将不转置 b.从源变量框中选择要作为从源变量框中选择要作为“名称变量名称变量”的的 变量进入变量进入Name Variable(可缺)(可缺)对观测量加权处理对观测量加权处理计算过程中利用变量对数据进行加权处理,如:计算过程中利用变量对数据进行加权处理,如:●计算加权算术平均数;计算加权算术平均数; 在选择加权变量时应该注意以下三点:在选择加权变量时应该注意以下三点:●加权变量中含有零、负数或缺失值的观测量将被加权变量中含有零、负数或缺失值的观测量将被排除在分析之外排除在分析之外●分数值有效分数值有效●一旦对数据进行了加权处理,一直有效,直到关一旦对数据进行了加权处理,一直有效,直到关闭或改变权重闭或改变权重。
对观测量加权处理对观测量加权处理菜单:菜单: Data Data → Weight CasesWeight Cases●选择是否对观测量进行加权处理计算加权选择是否对观测量进行加权处理计算加权 算术平均数;算术平均数;●选择加权变量选择加权变量例:例:P73P73案例案例3-83-8数据拆分数据拆分菜单:菜单: Data Data → Split FileSplit File●选择拆分变量;选择拆分变量;●选择结果的输出格式选择结果的输出格式例:对职工工资以职称作为拆分变量进行数据例:对职工工资以职称作为拆分变量进行数据拆分 与排序很相似,但不但进行排序,还可与排序很相似,但不但进行排序,还可以进行分组,为分组统计分析提供便利以进行分组,为分组统计分析提供便利●一旦对数据进行了拆分,一直有效,直到取消数一旦对数据进行了拆分,一直有效,直到取消数据拆分(据拆分(Analyze all caseAnalyze all case))变量集的定义和使用变量集的定义和使用 在某个数据文件中如果变量较多,其中有些变量在某个数据文件中如果变量较多,其中有些变量在进行某个统计分析时不使用,在进行某个统计分析时不使用,SPSSSPSS系统可以将不系统可以将不使用的变量使用的变量“遮蔽遮蔽”,而将经常使用的变量定义为,而将经常使用的变量定义为一个变量集,从而方便用户的操作。
一个变量集,从而方便用户的操作◆◆定义变量集:定义变量集:Utilities Utilities → Define SetsDefine Sets◆◆应用已定义的变量集:应用已定义的变量集: Utilities Utilities → Use SetsUse Sets((在统计处理中,系统在统计处理中,系统将只显示定义的变量集中包含的变量将只显示定义的变量集中包含的变量))例:将居民储蓄调查数据中例:将居民储蓄调查数据中a2a2、、a3a3和和a5a5这这3 3个变个变量定义为一个变量集量定义为一个变量集Q Q练习练习::1 1、利用、利用““2-22-2职工基本情况数据职工基本情况数据””,以职,以职称为主分类变量,学历为第二分类变量,称为主分类变量,学历为第二分类变量,比较职工的平均工资比较职工的平均工资2 2、课本、课本P76P76第第5 5题。












