
第7讲 数据的编码、录入与整理PPT课件.ppt
50页第7讲数据的编码 录入与整理 1 SPSS背景介绍 SPSS是世界上最早的统计分析软件 由美国斯坦福大学的三位研究生于1968年研开发成功 同时成立了SPSS公司 并于1975年成立法人组织 在芝加哥组建了SPSS总部 1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS PC 开创了SPSS微机系列产品的开发方向 极大地扩充了它的应用范围 并使其能很快地应用于自然科学 技术科学 社会科学的各个领域 世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图 数据的深入分析 使用方便 功能齐全等方面给予了高度的评价 2009年7月28日 IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司 如今SPSS已出至版本20 0 而且更名为IBMSPSS 它和SAS BMDP并称为国际上最有影响的三大统计软件 在国际学术界有条不成文的规定 即在国际学术交流中 凡是用SPSS软件完成的计算和统计分析 可以不必说明算法 由此可见其影响之大和信誉之高 在我国的社会科学 自然科学的各个领域发挥了巨大作用 该软件还可以应用于经济学 生物学 心理学 地理学 医疗卫生 体育 农业 林业 商业 金融等各个领域 2 调查问卷 一 数据的编码 录入与整理 3 一 数据的编码 录入与整理 原理是研究者利用SPSS进行统计分析的必要前提 就是把通过问卷调查获得的资料转变为SPSS能够识别的数据文件 为各种统计分析做好准备 数据编码概念数据编码是指把需要加工处理的数据库信息 用特定的数字来表示的一种技术 根据一定数据结构和目标的定性特征 将数据转换为代码或编码字符 在数据传输中表示数据的组成 并作为传送 接受和处理的一组规则和约定 编码 调查问卷 数据文件 4 二 数据问卷与编码 举例 问卷编码方案 5 三 编码类型 数值型数据的编码数值型数据的编码就是根据调查问卷的评分标准对变量赋予分值 通常采用三点计分 四点计分和五点计分等方式进行评分如选项A B C计分为1 2 3如选项A B C D计分为1 2 3 4编码示例中的第5 6题就是属于数值型编码 正向数值型 被选项的程度越高 分值越大 反向数值型 被选项的程度越高 分值越小 6 三 编码类型 非数值型数据的编码非数值型数据的编码 首先要确定编码规则 然后根据规则对变量赋予分值 双值型变量的编码多采用 0 1 或 1 2 来赋值 多值型变量的编码采用 1 2 3 来赋值 通常对非数值型数据编码 主要起到分组的作用 不能进行各种算术运算 7 三 编码类型 多项选择题多项选择题就是题目答案的选项是多选项 限定多选项分类法限定了一次最多可以选择项目的个数 不能直接对题目进行编码 必须先确定最多选择 并给每个选项建立一个变量 任意多项二分法表示每一次可以任选几个选项 编码方法把每一个被选项作为一个变量来定义 每个变量只能选择 1或0 8 四 缺失值的处理 概念缺失值是指在数据采集与整理过程中丢失的内容 往往会给统计分析带来一些麻烦和误差 类型用户缺失值在问卷调查中把不回答的选项当作缺失值来处理缺失值可用研究者能识别的数字来表示如 0 9 99 系统缺失值指计算机默认的缺失方式 如输入数据空缺 输入非法字符等通常把缺失值标记为 9 四 缺失值的处理 缺失值处理方法替代法 采用统计命令或在相关统计功能中利用参数替代Transform ReplaceMissingValues剔出法 剔除有缺失值的题目或剔除有缺失值的整份问卷 10 五 数据处理中的操作术语 个案 Cases 一个研究对象就是一个个案 一个个案就是一条记录 在数据表格中表示为 一行 每一个个案记录的是一个研究对象各个属性的具体数值 如学生信息 姓名 性别 年龄等 变量 Variable 是指问卷中每一个问题 数据库里字段 数据表格中表示为 一列 量值 Value 是指问卷中的答案 也称为观测值 在SPSS系统里 单元格中的数值就是变量值样本 Sample 是指具有共同属性的所有研究对象 如某班学生的所有信息样本包含多个个案 在数据表格中表示为 n行 11 五 数据处理中的操作术语 变量 学生表 个案 量值 样本 12 六 界面设置 启动SPSS 13 六 界面设置 英文界面设置 14 六 界面设置 退出SPSS 再重新启动 得到全英文界面的SPSS 15 七 定义变量 启动SPSS后进入数据编辑窗口 显示为一个空文件 输入数据前首先要定义变量 定义变量 输入和查看数据 16 七 定义变量 定义变量所包含的内容 变量名 Name 变量的名称变量类型 Type 变量的类型宽度 Width 存储变量值的最大值对字符型变量 1 可存储1个字节的字符 2 可存储1个汉字 对数值型变量 表示运算宽度 默认为8位 不用改小数位数 Decimals 变量为数值类型时 小数点后的位数变量标签 Label 对变量名的注释 光标在变量名上时 会显示该标签变量值标签 Values 变量标签的取值 可以使用View菜单下的ValueLabels选项显示值缺失值 MissingValues 定义缺失的值 例如 当定义99为缺失值时 当该变量的值为99时 把它认为是缺失值 17 七 定义变量 显示数据的列宽 Colums 与上面 宽度 不同 它只管显示对齐方式 Align 左对齐 右对齐 居中量度类型 Measure 定比变量 Scale 定序变量 Ordinal 定类变量 Nominal 只用于统计制图时坐标轴变量的区分和SPSS决策树模块的变量定义 定比测量 测量的最高水平定序测量 比定比测量的信息量少一些 测量数值代表了一些有序分类 如用1 2 3 4代表优 良 中和差定类测量 测量中的最低水平 其数值仅代表某些分类或属性 比如用1 2 3 4代表不同的血型 A B AB O 18 七 定义变量 单击数据编辑窗口左下方的 VariableView 标签或双击列的题头 Var 打开变量定义窗口 进行变量定义 19 七 定义变量 定义变量名在定义变量窗口中Name下的单元格中输入变量名变量名必须以字母开头 长度不超过8个SPSS保留的关键词不能作为变量名AND OR NOT WITH TO BY GT GE LT LE EQ NE ALL等SPSS中允许使用中文变量名 但尽量不要使用 以免出现兼容性问题 20 七 定义变量 定义变量类型 宽度及小数位数在Type下单击单元格 打开变量类型窗口 选择变量类型常用变量类型有 数值型 Numeric 日期型 Date 货币型 Dollar 字符型 String 在Width Decimal下单元格 选择宽度和小数位数 系统默认为 8 和 2 或者在变量类型窗口中设置 21 七 定义变量 定义变量标签在Label下单击单元格 输入变量标签SPSS允许变量标签长度为255字节定义变量值标签变量值标签是对变量的每一可能取值进一步描述 当变量是定类或定序变量时 非常有用 变量值标签系统默认为None在Values下单击单元格 打开变量值标签窗口 输入变量值标签 22 七 定义变量 定义缺失值在Missing下单击单元格 打开缺失值窗口 输入缺失值Nomissingvalues 没有缺失值Discretemissingvalues 定义1 3个单一数为缺失值Rangeplusoneoptionaldiscretemissingvalues 定义指定范围为缺失值 同时指定另外一个不在这一范围的单一数为缺失值 23 七 定义变量 变量定义的信息复制如果有多个变量的类型相同 可以先定义一个变量 然后把该变量定义的信息复制给新变量操作步骤 先定义一个变量在该变量行号上单击右键 在快捷菜单中选择 Copy 选择同类型新变量所在行 单击右键 在快捷菜单中选择 Paste 24 八 数据的录入 定义完所有变量后 单击 DataView 标签 在数据编辑窗口输入数据 数据录入如果按逐行进行 按Tab键改变行数据录入如果按逐列进行 按Enter键改变列系统默认的数据文件保存类型为 sav 25 九 数据的导入 SPSS具有强大的与其他软件共享数据文件的功能 所以能够导入多种格式的数据能够导入SPSS的数据文件 sys por xls slk w dbf dat syd sas7dbat等导入数据文件的操作步骤 执行菜单命令File Open Data 选择导入数据文件的类型通过复制粘贴导入数据在原系统中打开需要导入的数据文件复制粘贴到SPSS中 26 九 数据的导入 例一 1 把Access中shift MIS mdb中的 学生表 信息导入到SPSS中 a 打开shift MIS mdb文件 选中 表 对象 再选中 学生表 27 九 数据的导入 例一 1 把Access中shift MIS mdb中的 学生表 信息导入到SPSS中 b 菜单上 外部数据 导出 Excel 保存类型 选择 Excel97 Excel2003工作簿 文件名自动为 学生表 确定 28 九 数据的导入 例一 1 把Access中shift MIS mdb中的 学生表 信息导入到SPSS中 c 启动SPSS File Open Data 文件类型 选择 Excel xls 找到 学生表 xls 文件后 打开 d 保存为 学生表 sav 29 九 数据的导入 例一 2 数据的导入将EXCEL文件2 recode xls导入到SPSS中启动SPSS 方法一 File Open Data 数据导入后 查看 VariableView 标签中的字段名 类型 宽度等 方法二 练习通过复制 粘帖的办法把2 recode xls中的数据通过复制 在SPSS中粘帖的办法导入到SPSS中把导入后的数据文件保存为2 recode sav 30 十 数据的整理 概念数据整理是对录入的数据进行转换 检测 量表统分 个案选择 文件拆分与合并等操作 使原始数据生成后续研究所需要的数据 操作SPSS实现数据整理的功能主要集中在 Data 和 Transform 两个菜单 31 十 数据的整理 例二 数据分值的转换数据分值的转换是通过对数据进行重新编码来实现的 在SPSS中主要通过Recode命令来实现 32 十 数据的整理 例二 数据分值的转换IntoSameVariables 编码后数据存放在原变量中 覆盖原数据IntoDifferentVariables 编码后数据存放在新定义的变量中 保留原数据 33 十 数据的整理 例二 数据分值的转换假设一套量表共10题 每题有A B C三个选项 现有10个被试作答 要求根据评分规则 将被试的原始数据选择转换为量表分数注意 1 2 4 7 8 10 正向题3 5 6 9 反向题 34 十 数据的整理 例二 数据分值的转换 原数据 转换后数据 35 十 数据的整理 例二 数据分值的转换数据输入 打开数据文件 2 recode sav Transform Recode IntoDifferentVariables打开 Recode 对话框 定义新变量名打开 OldandNewValue 对话框 定义转换规则 36 十 数据的整理 例三 量表的统分在数据录入过程中 输入的是最原始 最稳定的反应选项 但在后续的统计分析中通常需要对量表的总分进行推断统计 量表的统分工作包括分量表的统分和总量表的统分 SPSS中通常用 Compute 命令实现量表的统分工作 37 十 数据的整理 例三 量表的统分以分值转化后的数据文件2 recode sav为例 假定该量表由2个分量表构成 其中1个量表由第1 2 5 8 9题组成 另一个量表由第3 4 6 7 10题组成 计算出每一个被试的分量表分和总量表分 38 十 数据的整理 例三 量表的统分打开数据文件2 recode sav Transform Compute 计算分量表分flb1 flb2和总量表分zlb 统分结果保存为2 lb sav 39 十 数据的整理 例四 数据的排序在数据统计分析中 通常需要限。
