您所在位置：网站首页 > 办公文档 > 活动策划 > 第三章SSS数据的预处理

第三章SSS数据的预处理.doc

14页

卖家[上传人]：鲁**

文档编号：544857575

上传时间：2023-02-28

文档格式：DOC

文档大小：200.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15金贝

下载

/ 14 举报版权申诉马上下载

文本预览

下载提示

常见问题

第三章 SPSS 数据的预处理为什么查进行预处理在数据文件建立之后，通常还需要对分析的数据进行必要的预加工处理，这是数据分析过程中必不可少的一个关键步骤数据的预加工处理服务于数据分析和建模，主要包括以下几个问题：数据的排序变量计算数据选取计数分类汇总数据分组数据预处理的其他功能：转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集3.1 数据的排序3.1.1 数据排序的作用3.1.2 数据排序的基本操作将观测量按照统计分析的具体要求进行合理的分类整理是数据文件整理的重要工作仍以文件“研究生.sav”来说明，观测量分类整理的基本操作步骤如下：⑴执行Data^Sort Cases （观测量分类）命令，打开 Sort Cases对话框2）从源变量列表框中选择一个或几个分类变量，单击中间的箭头按钮将它们移入 Sortby框中，不妨称移入该框的变量为 By变量选择By变量的意义是将按这个变量对观测量进行分类整理如果选择了几个 By 变量，从上至下依次称为第一 By 变量、第二 By 变量等分类整理将按每一个 By 变量层叠分类整理例如，选择了两个分类变量， sex 为第一 By 变量，score为第二By变量，在sex的每一个分类中观测值将按 score分类。

3）在 Sort Order 栏中选择一种排序方式如对某分类变量选择 Ascending （升序），则在Sort by 框里该变量名之后用连线连接 Ascending ；如选择 Descending （降序），该变量名连接 Desce nding各分类变量的排序方式可以不同4）以上选择确定后，单击 OK ，返回数据窗口，分类排序结果显示于数据窗口内此外，对字符串变量按分类次序大写字母将优先于小写的同一字母在我们引用的数本来有一个 Order （序号）变量，它的值为自然数顺序按照某些 By 变量分类后，要将文件恢复成原来的顺序，可以再用 Order 作为 By 变量执行观测量分类即可如果文件缺少这样一个变量，经过分类的文件将不能恢复原状 SPSS的许多系统数据文件中都包含一个标志观测量序号的“id'（单词ide ntity的头两个字母）变量，它就可以起到这个作用3.2 变量计算3.2.1 变量计算的目的略3.2.2 SPSS 条件表达式条件表达式 (If ．．)及其对话框的使用有时候，仅仅需要对一些符合某些特定条件的自变量的观察值来进行计算例如，在记录某年级 3班和 6班学生成绩的数据文件中，我们只需要了解3班女同学的学习情况，需要计算她们各门功课平均成绩，即需选择满足条件“ sex= 0& class= 3” (即三班女学生)的观测值来计算。

当条件表达式“ sex= 0”和“ class = 3”同时为真时，计算平均成绩对使表达式为假的或缺失的观测量就不计算这个值，对应于这些观测量，新变量的值为系统缺失值在Compute Variable对话框中单击If…按钮，打开If Cases条件对话框对话框上方有两个单选项：• In elude all cases：对所有观测量计算新变量值，相当于不设条件，为系统默认的选项• Include if cases satisfies condition ：对满足条件的观测量计算新变量值此时，源变量清单栏、表达式栏、函数栏同时被激活，将条件表达式输入表达式框单击 Continue 按钮对设定的条件表达式加以确认，返回 Compute Variable 主对话框条件表达式的建立规则是：条件表达式中至少要包括一个关系运算符，也可以使用逻辑运算符，并且可以通过关系(或逻辑)运算符连接多个条件表达式各项选择确认后，单击 OK 系统将根据表达式和条件计算新变量的值，并且将其结果显示到数据窗口的工作文件中3.2.3SPSS算术表达式在 Compute 对话框中定义了计算表达式、目标函数，以及设置了计算条件后，单击主对话框的 Paste 按钮，系统随即打开 Systax 窗口，该窗口显示如下格式的命令语句。

1) 未设置计算条件情况下， COMPUTE 命令语句：COMPUTE 变量名=计算表达式.EXECUTE.其中：• 命令关键字 COMPUTE • 变量名即定义的目标变量名，它既可以是在主对话框 Taget框中新定义的变量名，也可以是当前工作文件中已经存在的变量• 计算表达式，表达式后接一个点“. ”表示语句中止计算表达式中的变量必须是工作文件中存在的变量• “ EXECUTE .”为执行语句例如，假设表达式中的变量都是当前工作文件已经定义过的变量，则下列语句都是合法的 COMPUTE 命令：COMPUTE average = (math 十 physical 十 chemical) /3.COMPUTE average = mean( scorel to score5).COMPUTE age= 2002— birthday .COMPUTE sales=quantity*price.COMPUTE predict=123.55+0.875*x1/(1+0.025*EXP(-x2)).用鼠标将COMPUTE命令和EXECUTE命令选中，单击 Syntax窗口工具条中的箭头按钮或执行RUN tALL菜单命令，计算结果将显示到数据窗口。

掌握 COMPUTE 命令的结构后，需要执行变量计算命令时，可以直接打开 Syntax 窗口自行编写 COMPUTE 命令语句而且允许并列多个 COMPUTE 命令语句，这样可以一次计算多个新变量值，大大地提高计算效率，(2) 设置计算条件情况下， IF 命令语句：IF(关系表达式或逻辑表达式 )新变量=计算表达式.EXECUTE ．表示在关系表达式或逻辑表达式为真的条件下计算新变量值例如，下列语句都是合法的 If 命令：IF(sex= 1) salary = 0. 95*salary 十 125.IF (score >= 90 Or total >450) grade= 1IF (age >= 15 & age <= 20 ) count = age + 3.IF (b ** 2-4 * a * c GE 0 and a NT 0 ) root = age +3.用鼠标将 IF 命令行到 EXECUTE 命令行选中，单击窗口中的箭头按钮或执行 RuntAll菜单命令，计算结果将显示到数据窗口与 (1)相同也允许同时并列多个 IF 命令语句，也可以和 COMPUTE 命令语句并列，执行新变量的计算。

SPSS 的每个统计功能对话框中都设有 Paste 按钮，当对话框内选项设置确定以后，单击该按钮，系统按照设定的选项将需执行的命令以 SPSS语法程序显示在 Syntax窗口，在该窗口可以进一步地编辑，然后执行 RuntAll 菜单命令，或者选择其中部分程序语句，执行RunTSelect菜单命令输出结果或显示于数据窗口，或显示于Output窗口要深入了解SPSS 语法命令，建议同学们在每次运行 SPSS命令时，都遵照上述做法进行即可，本书将不再介绍其他语法命令3.2.4 SPSS 函数SPSS函数是事先编好并存储在 SPSS软件中，能够实现某些特定计算任务的一段计算机程序这些程序都有各自的名字称为函数名执行这些程序段得到的计算结果称为函数值函数书写的具体形式为：函数名(参数)SPSS有约180个内部函数，其中包括数学函数、逻辑函数、缺失值函数、字符串函数、日期函数等函数表达方法是在函数名 (即函数的几个关键字 )后的括号中列出自变量和参数，不同的函数对自变量和参数的要求是不同的，调用之前必须明确对自变量和参数的要求，要给参数赋以恰当的数值我们将 SPSS函数列于书末的附录中供用户参考。

下面仅就其中最大的一类数学函数 (125多个)作简要介绍SPSS的数学函数均为数值型函数各函数的自变量可以是符合取值范围要求的数值表达式数学函数 (设 arg 表示自变量 )中包括：(1) 算术函数，如三角和反三角函数、指数和对数函数、四舍五入函数 RND(arg)、截尾函数TRUNC(arg)、求余函数 MOD(arg , modulus)等设自变量 arg= -5. 6,则四舍五入函数 RND( — 5. 6) = — 5、截尾函数 TRUNC( — 5. 6) = — 4又如 arg=75，贝U MOD(75 , 10)= 52) 统计函数，即数理统计中的统计量， SPSS有7个统计函数，用于计算实变量的均值Mean(argl, arg2,…)、标准差 Sd(argl, arg2,…卜变异系数 CFVAR(argl , arg2,…)等3) 概率函数，SPSS中，给出了概率统计中几乎所有常见的随机变量的分布函数、密度函数、逆分布函数、随机数生成函数、非中心分布函数等 SPSS提供了数量约80个概率函数，它们以函数名的前缀来区分，各种前缀列于表 3. 3中表3. 3概率函数中的前缀.、八刖缀CDF . rv name(q )随机变量的累积分布函数IDF . rv name(p)连续型随机变量的逆分布函数PDF . rv name(p )随机变量的概率（或密度）函数（SPSS ll. 0新增）RV. rv name(a …)随机数生成函数NCDF . rv n ame(q )非中心分布函数NPDF . rv n ame(q )非中心概率密度函数（SPSS ll . 0新增）表中rv_name代表随机变量名， CDF. rv_name（g , a,…）=P（ E

前缀为“ IDF ”的称为逆分布函数，即分布函数的反函数离散型随机变量没有逆分布函数前缀为“ PDF”的称为概率函数（离散型随机变量）或概率密度函数中心的贝塔分布、 X分布、Student t分布和F分布等各种概率函数中都依赖于数目不等的分布参数，不同分布的参数有不同的取值范围，因此在调用分布函数时，必须给它们赋以恰当的数值而且同名的累积分布函数、概率密度函数、逆分布函数的参数取值是完全一致的形如RV.rv_name（a,…）舌号内的“ a,…”为分布参数，其取值与相应的累积分布函数的参数一致，功能是生成服从相应概率分布的独立观察值，即随机数例如，对正态随机生成函数RV.NORMAL（a,b）来说，当指定了参数值以后可以产生一列按数据文件中观测量序号排列的服从正态分布的随机数3.2.5变量计算的基本操作统计中，建立的数据文件中包含的数据可能来自统计调查的原始测量结果，统计分析要通过研究变量之间关系来揭示现象的内在数量规律例如，统计学中大量的相对指标的指标值是不可能通过实际测量得到的，而需要利用有联系的变量的比值计算出来，计算所得的数值就成为新变量的观测值 SPSS提供了强大的 Compute （计算）功能，新变量的计算可以利用 Compute对话框方便地求得。

用Compute命令计算新变量步骤如下：（1）打开数据文件，执行Transform（转换）宀Compute命令，打开Compute Variable（计算变量）对话框⑵输入计算表达式使用计算器板（Colculator Pad。

点击阅读更多内容