
SPSS统计分析基础教程
430页1、统计学实践主讲:李晓军E-mail:第1 1章 数据分析概述与软件入门1.1 SPSS软件概述1.1.1 SPSS简介 SPSS(Statistics Package for Social Science )for Windows是一种运行在Windows系统下的社会科学统计软件软件包。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等,具体内容包括描述统计、列联分析,总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类,每个类中还有多个专项统计方法。 一、功能强大(1)囊括了各种成熟的统计方法与模型,为统计分析用户提供了全方位的统计学算法,为各种研究提供了相应的统计学方法。(2)提供了各种数据准备与数据整理技术。(3)自由灵活的表格功能。(4)各种常用的统计学图形。二、SPSS的实验环境要求(1)系统运行环境SPSS10.0以上版本软件包可以工作在两种模式下,单机模式和作为网络系统的用户界面模式。(2)辅助软件环境三、SPSS的主要界面SPSS的主要界面有数据编辑窗口和结果输出窗口。 四、SPSS的帮助系统SPSS对一些基本模块
2、中的统计提供了帮助,可以通过单击Help菜单中的Statistics Coach命令,选择所需要的统计指导。 SPSS附加模块功能SPSS Advanced一般线性模型、混合线性模型、对数线性模型、生存分析等SPSS Categories对应分析、感知图、Proxscal等SPSS Complex Sample多阶段复杂抽样技术等SPSS Conjoint正交设计、联合分析等,适用于市场研究SPSS Exact Test精确P值计算、随机抽样P值计算等SPSS Maps在地图上展示数据等SPSS Missing Value Analysis缺失数据的报告与填补等SPSS RegressionLogistic回归、非线性回归、Probit回归等SPSS Tables交互式创建各种表格(如堆积表、嵌套表、分层表等)SPSS TrendsArima模型、指数平滑、自回归等五、五、SPSS的运行方式的运行方式SPSS提供了3种基本运行方式:完全窗口菜单方式,程序运行方式、混合运行方式。程序运行方式和混合运行方式是使用者从特殊的分析需要出发,编写自己的SPSS命令程序,通过语句直接运行。 SPS
3、S中使用的对话框主要有两类,一类是文件操作对话框,文件操作对话窗口操作与Windows应用软件操作风格一致。另一类是统计分析对话框,统计分析对话框可以分为主窗口和下级窗口,在该类对话框中,选择参与分析的各类变量及统计方法是对话框的主要任务。 1.1.2 spss的安装一、启动Windows 后,把SPSS 系统安装软盘(或光盘)插入软驱(或光驱),并找到SPSS的安装程序的可执行文件Setup.exe。二、双击 Setup.exe 文件,安装程序向导将给出每一步操作的提示。在出现Welcome(欢迎)窗口后,选择Next进入下一步。三、安装程序显示Software License Agreement对话框时,选择Yes接受显示的协议条款。1.2 spss操作入门1.2.1 spss软件的启动与退出单击Windows 的开始按钮,在程序菜单项SPSS for Windows中找到SPSS 10.0 for Windows并单击。1.2.2 SPSS的5个窗口(1)数据编辑窗口(SPSS Data Editor)Spss处理数据的工作全在此窗口进行。(2)结果管理窗口(SPSS Outpu
4、t viewer)此窗口用于存放分析结果。左边是目录区,右边是内容区。(3)草稿结果窗口(SPSS Draft Viewer)草稿结果是结果的一种简化文本格式。实际上就是WORD所兼容的rtf超文本格式,因此可以在没有安装SPSS的PC机上使用文字编辑软件打开。(4)语法编辑窗口(SPSS Syntax Editor)(5)脚本窗口(SPSS Script Editor)1.2.3 SPSS的四种运行方式一、菜单对话方式首先打开SPSS软件,然后选择菜单File Open file。然后,利用菜单Analyze Descriptive Statistics Frequencies, 二、程序方式在Syntax编辑窗口中键入以下程序:Get file=c:program filesspssemployee data.sav.Frequencies variables = jobcat/order = analysis。只需要选择菜单Run All,运行该程序也一样会出现相同的分析结果。三、Include命令方式当编写Syntax程序时,如果发现将要编写的程序语句正好是另一个Syntax文
5、件的内容;或者发现所需要的程序语句其实是几个Syntax文件的总和是,除了可以通过“Copy”、“Paste”的方法利用资源,生产一个新的Syntax文件外,还可以利用Include命令。Include c:sytaxsample.sps.四、spss Production Faccility 方式在Windows的程序菜单中,spss菜单组除了有“spss for windows”项之外,还有一个“spss production facility”。(1)单击Syntax框下的“Add”按钮,到C盘根目录下打开“syntaxsample”。(2)单击Syntax框下的“Edit”按钮,对程序进行编辑。(3)单击右下角的“uesr prompts”按钮,添加对程序的交互分析界面。(4)单击“Browse”按钮制定结果保存路径,单击“export options”按钮还可以制定结果保存格式。1.2.4 spss的四种输出结果1、表格格式2、文本格式3、标准图与交互图4、结果的保存和导出第2章 数据录入与数据获取本章主要解决两个问题:第一个问题,根据问题类型的不同,将会从开放题、单选题和多
6、选题的录入方式为例进行介绍。第二个问题,重点介绍如何用SPSS直接读取Excel类型和文本格式的数据,以及如何用ODBC接口读取数据库文件。2.1.1 统计软件中数据的录入格式(1)不同观测对象的数据不能在同一记录中出现,即同一观测数据应当独占一行。(2)每一个观测量指标或影响因素只能占据一列的位置,即同一指标的数量观测值都应当录入到同一个变量中去。2.1 数据格式概述数据格式概述即:一个观测占一行,一个变量占一列在录入数据时,归纳为以下三步:第一步:定义变量名;第一步:指定每个变量的各种属性;第一步:录入数据。变量名不能与spss保留字相同,spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。2.1.2 变量属性介绍变量属性介绍一、变量的储存类型SPSS中,变量有三种的基本类型:数值型、字符型和日期型。标准数值型逗号数值型圆点数值型科学技术法数值型美元数值型用户自定义型数值型:数值型的数据是0-9的阿拉伯数字和其他符号,如美元符号、逗号或圆点组成的。字符型:字符型数据的默认显示宽度为8个字符位,系统不区分变量名中的大小写字母,并且
7、不能进行数学运算。注意:在输入数据时不应输入引号,否则双引号将会作为字符型数据的一部分。日期型:日期型数据是用来表示日期或时间的。日期型数据的显示格式有很多,SPSS以菜单方式列出日期型数据的显示格式以供用户选择。事实上,SPSS存储中的日期型变量是该实践与1582年10月14日零点相差的秒数。关于日期型格式的几点说明:“m”在年与日(字母y与d)之间表示月份;在时与秒(字母h与s)之间表示“分”钟。“mmm”表示要求书写英文月份单词的前三个字母组成的缩写。“ddd”三个字母d表示要求用从元月一日算起的日数表示日期。指定了日期变量的格式,不一定在输入时就使用指定的格式。可以输入用“/”或“”作分隔符的具体日期,回车后,系统将自动将输入的格式转化为指定的格式,显示在单元各种。二、变量的测量尺度在SPSS中使用Measure属性对变量的测量尺度进行定义。(1)定类尺度(Nominal Measurement):定类尺度是对事物的类别或属性的一种测度,按照事物的某种属性对其进行分类或分组。特点:其值仅代表了事物的类别和属性,即能测度类别差异,不能比较各类之间的大小,所以各类之间没有顺序和等级
8、。对定类尺度的变量只能计算频数和频率。在spss中,能适用定类尺度的数据可以是数值型,也可以是字符型变量。使用定类变量对事物进行分类时,必须符合穷尽原则和互斥原则。(2)定序尺度(Ordinal Measurement):定序尺度是对事物之间的等级或顺序差别的一种测度,可比较优劣或排序。特点:由于定序变量只能侧度类别之间的顺序,无法测出类别之间的准确差值,即测量数值不代表绝对的数量大小,所以其测量结果只能排序,不能进行运算。(3)定矩尺度(Interval Measurement):定矩尺度是对事物类别或次序之间间距的测度。特点:不仅能将事物区分为不同类型并进行排序,而且可能准确指出类别之间的差距是多少;定居变量通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值,所以计量结果可以进行加减运算。(4)定比尺度(Scale Measurement):定比尺度是能够测算两个测度值之间比值的一种计量尺度,它的测量结果同定距变量一样表现为数值。特点:定必变量是测量尺度的最高水平,它除了具有其他三种测量尺度的全部特点外,还具有可计算两个侧度至之间笔直的特点,因此它可以进行加、减、乘、除运算
9、,而定居变量值可进行加减运算。三、变量名与变量标签值Label:定义变量名标签Value:定义变量值标签四、缺失值四、缺失值Spss中缺失值有用户自定义缺失值和系统缺失值两大类。在SPSS中,对字符型变量,默认的缺失值为空格;对数值型变量,默认的缺失值为零。2.2 数据的直接录入2.1.1 操作界面说明标尺栏菜单栏工具栏数据输入区数据编辑区窗口标签标题栏状态栏当前数据栏显示区滚动条Data View表可以直接输入观测数据值或存放数据,表的左端列边框显示观测个体的序号,最上端行边框显示变量名。 Variable View表用来定义和修改变量的名称、类型及其他属性,如图所示。如果输入变量名后回车,将给出变量的默认属性。如果不定义变量的属性,直接输入数据,系统将默认变量Var00001,Var00002等。在Variable View表中,每一行描述一个变量,依次是:Name:变量名。变量名必须以字母、汉字及开头,总长度不超过8个字符,共容纳4个汉字或8个英文字母,英文字母不区别大小写,最后一个字符不能是句号。Type:变量类型。变量类型有8 种,最常用的是Numeric数值型变量。其它常用
10、的类型有:String字符型,Date日期型,Comma逗号型(隔3位数加一个逗号)等。Width:变量所占的宽度。Decimals:小数点后位数。Label:变量标签。关于变量涵义的详细说明。Values:变量值标签。关于变量各个取值的涵义说明。Missing:缺失值的处理方式。Columns:变量在Date View 中所显示的列宽(默认列宽为8)。Align:数据对齐格式(默认为右对齐)。Measure:数据的测度方式。系统给出名义尺度、定序尺度和等间距尺度三种(默认为等间距尺度)。为了在统计分析过程中能有效的利用其它软件产生的数据,SPSS软件编辑窗口除可以使用*.sav扩展名数据文件,还可以直接打开和保存下述类型的文件:SPSS DOS版本产生的数据文件*.sys;Excel 报表程序产生的数据文件*.xls;DBASE 数据库格式文件*.dbf;SAS统计软件产生的数据文件。2.2.2 开放题和简单单选题的录入开放题和简单单选题的录入一、在一、在spss中定义变量中定义变量录入数据的第一步是定义变量属性,随后才能进行数据录入。二、开放题的录入二、开放题的录入三、单选题的录入
11、三、单选题的录入单选题的录入可以采用字符直接录入、字符代码+值标签、数值代码+值标签三种方式。2.2.3多选题的录入一、多重二分法(Multiple Dichotomy Method)所谓多重二分法,是在编码的时候,对应每一个选项都要定义一个变量,有几个选项就有几个变量,这些变量均为二分类,他们各自代表对一个选项的选择结果。二、多重分类法(Multiple Category Method)多重分类法,也是利用多个变量对一个多选题的答案进行定义,应该用多少个变量,由被访者实际可能给出的最多答案数而定。三、多选题录入在三、多选题录入在spss中的实现中的实现2.3 外部数据的获取SPSS读入非SPSS类型的文件数据,有三种主要方式:直接打开,利用文本导向读入文本数据以及利用数据库OBDC接口读入数据。2.3.1 电子表格数据如何导入电子表格数据如何导入spss中中SPSS中可以直接读入许多常用格式的数据文件,选择菜单File Open Data或直接单击快捷键工具栏上的 快捷按钮,系统就会弹出Open File 对话框,单击“文件类型”列表框,在里面能够看到可以直接打开的数据文件格式。2.
12、3.2 文本数据如何导入文本数据如何导入spss中中第一步:首先,在Open File 文件框中选中文件,单击“打开”,系统会自动启动文本倒入向导对话框。第二步:选择“NO”并单击“下一步”按钮。用某种字符区分固定宽度第三步:分别选择“Delimited”和“yes”,然后单击“下一步”按钮。第四步第四步第五步第五步第六步第七步2.4 数据的保存2.4.1 存为spss格式2.4.2 存为其他数据格式第3章 数据管理3.1 变量级别的数据管理对变量进行操作的内容主要集中于Transform菜单中,包括新变量的生成、记录的排序、对变量进行计数等。计算新变量:就是用Compute过程。变量转换:包括Recode、Visual Bander、Count、Rank Case、Automatic Recode这五个过程。专用过程:包括建立时间序列、缺失值代替和设定随机种子三个过程。Run Pending Transforming:用于执行编程中被挂起的数据整理操作。计算产生新变量变量值自动编码设定随机数种子创建代替缺失值变量创建时间序列变量运行其它转换程序变量值重新编码创建计数变量观测量排秩连续
13、变量进行分段3.1.1 计算新变量计算新变量的功能就是在原有spss数据文件的基础上,根据用户的要求,使用spss算术表达式及函数,对所有记录或满足SPSS条件表达式的记录,计算出一个新结果,并将结果存入一个用户指定的变量中。一、常用基本概念 (1)spss算术表达式 spss算术表达式是由常量、spss变量名、spss的算术运算符、圆括号等组成的式子。(2)spss函数 spss提供了多达70多种函数,分为八大类:算术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其它函数。(3)spss条件表达式 通过spss的算术表达式和函数可以对所有记录计算一个结果,如果仅希望对部分记录进行计算,则应当利用spss的条件表达式指定对那些记录进行计算。二、compute过程的分析实例例3.1 统计英语成绩在60分以上的学生的数学和语文的平均成绩。例3.2 计算工人工资的所得税。学生自己练习。3.1.2 对变量值进行分组合并对变量值进行分组合并一、对连续变量进行分组一、对连续变量进行分组在SPSS中可以将连续变量转换为离散(等级或定序)变量,按照某种一一对应的关系生成新变
14、量值,可以将新值赋给原变量。Recode过程和Visual Bander过程都可以完成这一任务,但前者给为简单和常用。例3.3 当学生英语成绩小于60时取值为“不及格”,大于等于60且小于70为“及格”,大于等于70且小于80为“较好”,大于等于80为“优秀”。二、分类变量类别的合并二、分类变量类别的合并Recode过程也常用于合并某个分类变量的几个水平为一个水平。将上例grade中优秀、良好和及格三个等级合并为一个等级“PASS”,将grade的等级“不及格”转换为“NOPASS”。3.1.3 连续变量的可视化分段VISUAL Bander 用于将连续变量进行分段,该过程使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段,并采用图形化操作的方式。例3.4 对数学成绩进行分段,假设现在希望按变量math将学生分为5组,60分以下为第一组,60分以上的按照等间距的方式分为4组。3.1.4 将字符变量转换为数值变量用automatic recode将字符变量转换为数值变量。3.1.5 变量的编秩所谓编秩,就是对记录按照某个变量值大小来排序。Rank case过程就是用来排序的一
15、个专用过程。例:根据性别分组计算数学成绩的秩次。3.1.6 Transform菜单中的其它功能(1)count过程 如果用户需要对满足某项条件的数据进行计数,可以使用Count命令。 先在Target Variable中指定一个变量(可以是已经存在的变量或新变量),并定义变量标签,然后指定要统计的变量加到Numeric Variables框中,再单击Define Values按纽,打开Value to Count对话框。 Value:输入某个值为清点对象;System-missing:以系统的缺失值为清点对象;System-or user missing:以系统或用户指定的缺失值为清点对象;Range:指定数值的计数区域:其中包括: ( )through( )在框内指定下限和上限lowest through( ): 在框内只指定上限;( )highest through: 在框内只指定下限。(2)random Number Seed过程:过程: 用于设定伪随机函数的随机种子。用于设定伪随机函数的随机种子。3.2 文件级别的数据管理(一)文件级别的数据管理(一)数据编辑窗口的Data菜单
16、为用户创建和定义数据提供了方便的功能。这个菜单是SPSS统计软件数据整理的特有功能菜单。它的功能包括:对变量、观测量的编辑处理;对变量数据的变换;对观察量数据整理。(1)简单命令:包括插入变量、插入记录和到达某条记录,他们的功能实际上都可以用鼠标在数据表界面上直接完成,很少会使用菜单来调用。(2)常用的简单过程:包括排序、拆分文件、选择记录和加权记录。(3)变量与数据文件属性导向:用于定义数据字典,或者将于定义的数据字典直接引入当前数据文件。 (4)数重构过导向:用于进行数据转置,或者对重复测量数据表进行长型、宽型记录间的转换。(5)文件合并过程:将几个数据文件合并为一个大的spss数据文件,含横向合并和纵向合并两种情况。(6)正交设计过程:实际上是联合分析模块的一部分,用于生成实施联合分析所需要的设计。(7)其他过程:包括定义日期变量过程、数据汇总过程和查找重复记录导向。定义变量属性定义变量日期插入观测量拷贝数据属性插入一个变量定位观测量观测量排序重构数据结构分类或不分类汇总正交设计数据文件转置合并数据文件标识重复观测量拆分数据文件选择观测量观测量加权3.2.1 记录排序记录排序一、
17、排序的两种方法:(1)在数据表格的变量名处单击右键,弹出的右键菜单最后两项就是“sort Ascending”和“Sort Descending”。(2)对于多变量排序,则需要使用Sort Cases过程来进行。二、多变量排序需要注意的三点:(1)在多重排序中,制定排序变量名是很关键的,先指定的变量在排序时必然优先于后制订的变量。(2)可以指定按某变量值升序排序的同时按另一变量值降序排序,或相反。(3)排序以后,原来记录数据的排列次序将被打乱。3.2.2 记录拆分记录拆分Split File 分割文件的功能是把当前工作分割成两个或两个以上的组,随后的分析将对每个组进行。3.2.3 记录筛选Select Cases:当用户不需要分析全部的数据,而是按要求分析其中的一部分,使用该选择。All case:选择所有数据;If condition is satisfied: 按指定条件选择数据。Random Sample of cases:对观察值进行随机抽样。 Use filter variable:用指定变量作过滤。先选择一个变量,系统自动在数据管理器中将该变量值为0的观测单位标上删除记号,
18、系统对标有删除记号的观测单位不作分析。Based on time or case range:顺序抽样。单击Range按纽,打开Select Case: Range对话框,用户自行定义从第几个观察值开始抽到第几个观察值结束。3.2.4 加权记录Weight Cases:设定某变量为频数变量。:设定某变量为频数变量。3.2.5 数据汇总数据汇总所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。一、汇总的概念一、汇总的概念二、进行分类二、进行分类汇总的方法汇总的方法1、打开“data”菜单,选择“Aggregate”,展开aggregate data”对话框。2、在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量(Break Variables)框中。3、在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量(Aggregate Variables)框中,即要求这些变量的值进行分类汇总。4、“name& label” (名称与标签):单击此按钮可以修改组合后所生成新变量名称以及标签:
19、可以在name后面的矩形框中输入新变量名。在Label后面的矩形框中输入新变量标签。单击“continue”按钮继续。5、“Function”(函数) 选择此项可以确定汇总变量的描述内容;系统默认函数为平均数。3.3文件级别的数据管理(二)3.3.1 数据字典的定义与应用在大型的数据分析项目中,数据管理是非常重要的一个环节,为了保证工作质量,数据处理人员往往会事先定义好一个非常详细的数据格式,包括变量格式、变量标签、标签值、缺失值定义等,这被称为数据字典。一、变量属性定义导向:Define Variable Properties 具体说来,可以列出所选变量的所有值;分辨没有值标签的值,并且提供自动给出值标签的功能;可以将另一个变量的属性拷贝到所选变量,也可以将所选变量的属性拷贝到其他变量。二、复制数据文件属性导向Copy Data Properties 过程用于将定义好的数据字典直接应用到当前文件中。操作时不仅可以将一个外部数据文件相关属性拷贝到当前数据文件中,还可以进行自行定义,只选择某些变量,或者某些属性进行拷贝,这无疑大大提高了连续性项目对原有资源的利用程度。3.3.2 查找重复
20、记录Identifying Duplicate Cases:用于查找重复记录。运行结束后,结果窗口会给出本次操作的信息汇总:3.3.3 数据文件的重新排列与转置数据文件的重新排列与转置一、数据的长型与宽型格式:长型格式和宽型格式指的是重复测量数据的两种不同的排列方式。由于重复测量模型可以使用不同的统计模型加以分析,因此根据模型的要求进行长型格式和宽型格式之间的互转换是数据分析中经常要遇到的问题。二、长型格式转换为宽型格式:二、长型格式转换为宽型格式:Restructure。选择Data Restructure,系统就会弹出下图导向。三、数据转置Transpose:用于对数进行行列转置,数据文件的转置就是将数据编辑窗口中数据的行列互换,即将记录转为变量,将变量转为记录后,重新显示在数据编辑窗口中。Variable(s):放入将要行列转置的变量名。在数据文件中,未放入栏中的变量会遗失。字符串变量不能转换,如强迫转换,变量值转变为系统缺失值。Name variable:变量命名栏,在左侧源变量栏中选择一个变量,放入name variable栏,技改变量的数据作为转置后的变量名。3.3.4 多
21、个数据文件的合并多个数据文件的合并纵向连接:几个数据集中的数据相加,组成一个新的数据集,新数据集中的记录是原来几个数据集中记录数的总和。横向连接:指的是按照记录的次序,或者某个关键变量的数值,将不同数据集中的不同变量合并为一个数据集,新数据集中的变量数是所有原数据集中不重名变量的总和。一、数据文件的纵向连接一、数据文件的纵向连接纵向合并实质就是将两个数据文件的变量列,按照各个变量名的含义,一一对应的进行首尾相接。纵向合并必须遵循两个条件:第一,两个合并的spss数据文件,其内容合并是有实际意义的。第二,为方便spss数据文件的合并,在不同的数据文件中,最好起相同的名字,变量类型和变量长度也要尽量相同。Unpaired variable:不匹配变量栏。指变量名相同而变量定义不同的变量,或变量名不同的变量。Variable in new working data:新工作数据变量栏。Indicate case source as variable:指示记录来源的变量选项/二、数据文件的横向合并二、数据文件的横向合并横向合并的实质是将两个数据文件的记录,按照记录对应,一一进行左右对接。横向合并
22、遵循三个条件:第一,如果不是按照记录号对应的规律进行合并,则两个数据文件必须至少有一个变量名相同的公共变量,这个变量是两个数据文件横向合并的依据,成为关键变量。第二,如果是使用关键变量进行合并的对应,则两个数据文件都必须事先按关键变量进行升序排列。第三,为方便SPSS文件的合并,在不同的数据文件中,数据含义不相同的列,变量名不应取相同的名称。Excluded Variables:拒绝变量名。外部文件与当前数据的同变量,拒绝加到新工作区中。New Working Data:新工作数据变量栏。Match Case on Key Variable in sort:排序文件中按关键变量匹配记录选项。Both files provide case:由外部文件和当前数据量两者提供记录。External file is keyed table:外部文件为关键表,以当前数据为基准,外部文件匹配当前数据的关键变量值,如匹配成功,外部文件的新变量值加入到当前数据的新变量中,匹配不成功则不加入。Working Data File is keyed table:当前数据为关键表。Key Variables:关
23、键变量栏,在拒绝变量选择某变量作为关键变量。Indicate case source as variable:指示记录来源的变量选项。第4章 连续性变量的统计描述与参数估计4.1 连续变量的统计描述概述4.1.1 统计描述中的可用工具(1)各种初步汇总描述方法频数、百分位数。(2)各种统计描述指标均值、标准差、四分位数间距。(3)统计表(4)统计图4.1.2 连续变量的统计描述指标体系(1)集中趋势(Central Trend):均数(Mean)中位数(Median)众数(Mode)总合(Sum)(4)其他趋势百分位数指标(Percentile)、M统计量(M-Estimators)、极端值(Outlier)。(2)离散趋势(Dispersion Trend)标准差(Std. Deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E. Mean)(3)分布特征(Distribution Tendency)偏度系数(Skewness)和峰度系数(Kurtosis)4.1.3 spss中的相应功能1、Spss的用
24、于连续变量统计描述的过程,均集中在Descriptive Statistics子菜单中。(1)Frequencies:产生原始数据的频数表,并能计算各种百分位数。控制频数表输出范围类型的最大数目(2)Descriptive过程该过程用于一般性的统计描述,相对于Frequencies过程而言,它不能绘制统计图。(3)Explore 过程该过程用于对连续性资料分布状况不清楚时的探索性分析,它可以计算许多描述统计量,给出各种统计图,并进行简单的参数估计。(4)Ratio 过程用于对两个连续性变量计算相对比指标。2、Compares means 均值比较means过程:means过程的优势在于各组的描述指标被放在一起便于相互比较,并且如果需要,可以直接输出结果,无须再次调用其它过程。4.2集中趋势的的描述指标4.2.1 算术平均算术平均(Arithmetic Mean)是最常用的描述输送距分布的集中趋势的统计良。总体均数(Population Mean)用希腊字母 表示,样本均数常用 表示。 一、算术平均数的定义和性质二、均数的意义二、均数的意义任何一个平均数值首先是同类现象的平均数。任何一个
25、平均数总是一个平衡点。但平均数在高度概括观测数据从而使问题简化的同时,却丢失了某些有用的信息,一方面它把各个观测数据之间的差异性掩盖了起来,另一方面由于平均数对于个别极端值反应比较灵敏,因而平均数在某些情况下可能具有一定的欺骗性。三、均数的适用范围三、均数的适用范围严格的讲平均数指示用于定距变量。但有时对于定序变量,求平均等级也可以使用平均数。4.2.2 中位数中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间位置的那个标志。一、中位数的定义对于未分组的原始资料,首先必须将标志值按大小顺序。设排序结果为:则中位数就可以按下列方式确定:二、中位数的适用范围4.2.3其他集中趋势指标一、截尾均数由于均数较易受极端之的影响,因此可以考虑将数据排序后,按照一定的比例去掉最两端的数据,只是用中部的数据来求均数。如果截尾均数河源均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消;反之,则说明数据中有极端值,此时截为均数更好地反映数据的集中趋势。常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。二、几何均数二、几何均数几何均数适用于原始数据分布不对称,但经过对数
26、转换后称对称分布的资料。几何均数世纪上就是对数转换后的数据lgX的算术平均数的反对数。四、调和均数它实际上是观察值X倒数之均数的倒数。三、众数(Mode)众数指的是样本数据中出现频次最多的那个数。众数适用于任何层次的变量,特别适用于单峰对称的情况,是比较两个分布是否接近首先要考虑的参数。在SPSS中,众数可以在Report子菜单和Tables子菜单的全部报表过程和制表过程中计算出来。在SPSS中,调和均数可以在Report子菜单的4个报表过程过程中计算出来。4.3 离散趋势的描述指标4.3.1全距(Range)又称为极差,是一组数据中最大值(Maximun)与最小值(Minimum)之差。极差反映的是变量分布的差异范围或离散程度,在总体中,任何两个标志值之差都不可能超过极差。极差存在两点不足:一是它仅仅取决于两个极端之的水平,不能反映其间的变量分布情况,提供的信息太少。二是它容易受个别极端值的影响,不符合稳健型的要求。4.3.2 方差和标准差一、方差(Variance)和标准差(Standard Deviation)的定义将离均差平方和(Sum of Squares of Deviat
27、ion from Mean,SS)除以观察例数N,就得到方差:方差越大,数据分布离散程度越大。对于样本数据而言,方差的计算公式为:将方差开方,就得到标准差。对于同性质的数据来说,标准差越小,表明数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越大,表明数据的变异程度越大,即数据越参差不齐,分布越分散。二、方差和标准差的适用范围:方差和标准差的适用范围应当是正态分布。4.3.3 百分位数、四分位数与四分位数间距分位差是对极差指标的一种改进,是从变量数列中剔除了一部分极端值后重新计算的类似于极差的指标。常用的分位差有四分位差、十分位差、百分位差。一、分位数一、分位数分位数:是一种位置指标,用PX表示。一个百分位数PX将一组观测之分为两部分,理论上有x%的观测值比它小,(100-x)%的观测值比它大。四 分 位 数 ( quartile) 、 十 分 位 数 ( decile) 、 百 分 位 数(percentile),他们分别是用3个点、9个点、99个点将数据4等分、10等分和100等分后各分位点上的值。二、四分位数二、四分位数四分位数:实际上是三个数值的总称,分别是P25
28、、P50、P75分位数。很显然,中间的分位数是中位数,因此通常所说的四分位数是指第一个四分位数(下四分位数)和第三个四分位数(上四分位数)。上下四分位数的差值称为四分位数间距:QR=Q3-Q14.3.4 变异系数当需要比较两组数据离散程度大小的时候,往往直接使用标准差来进行比较并不合适。这可以被分为两种情况:(1)测量尺度相差太大;(2)数据量纲不同。在以上情形中,就应当消除测量尺度和量纲的影响,而变异系数(Coefficient of Variance),它是标准差和其平均数的比率。4.4 连续变量统计描述实例4.4.1 数据背景介绍4.4.2 使用Explore过程进行分析探索分析是对数据进行初步的观察分析,主要的分析项目有:观察数据的分布特征:可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性,包括考察数据中是否存在异常值等。 正态分布检验:检验数据是否服从正态分布。方差齐性的检验:用Levene检验比较各组的方差是否相等。1、单击Analyze-Descriptive statistics-Explore,打开Explore主对话框: 一、分析操作一、分析操
29、作(3)在Display栏中选择输出项,依次是Both选择项,输出图形与描述统计量(系统默认),只输出描述统计量和只输出图形。本例中选择默认项。(1)从左侧的变量列表中选出变量”身高”,送入Dependent List栏。(2)选择”性别”作为 因 子 变 量 , 送 入Factor List栏。有了因子变量,SPSS会把所有的观测个体按照因子变量的取值分成若干各组 , 再 分 组 考 察Dependent List中的各个变量,如果不选择因子变量,SPSS会对全部观测来做探索分析。2、单击Statistics统计量按钮,打开Statistics对话框,选择统计输出量。(1)Descriptives基本统计描述。同时指定均值的置信区间的置信度,系统默认为95。 (2)M-估计(M估计在计算时对所有观测量赋予权重,随观测量距分布中心的远近而变化)。(3)Outliers输出分析数据中五个最大值和五个最小值。(4)Percentiles输出百分数。 3、单击Plots 图形按钮,打开Plots对话框。 (1)Boxplot 箱图选择栏 Factor levels together因变量按因
30、素水平分组(系统默认);Dependents together 所有因变量生成一个并列箱图(本例中选择项);None不显示箱图。(2)Descriptive 描述图形栏Stem-and-leaf 茎叶图Histogram 直方图(3)Normality plots with test(复选项),正态分布检验并输出Q-Q图。 None:不产生回归直线的斜率和方差齐性检验;Power Estimation转换幂值估计(对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图)选项;Transformed 变换原始数据选择项;Untransformed不变换变换原始数据选择项。(4)Spread vs level with Levene Test栏,对所有的散布层次图,同时输出回归直线的斜率以及方差齐性的Levenes检验。4、单击Option按纽,打开Option对话框如图所示。可选择缺失值的处理方式,SPSS提供三种处理方式:(1)Exclude cases listwies 剔除带缺失值的观测量(系统默认)。(2)Exclude cases pairwise 剔除带缺失值的观测量
31、时还一并剔除与缺失值有成对关系的观测量。(3)Report values 输出频数表时同时输出缺失值。5、单击OK,得到相应的输出结果如表所示。 二、基本的分析结果二、基本的分析结果三、输出百分位数和极端值列表身高 Stem-and-Leaf Plot forsex= 男 Frequency Stem & Leaf 1.00 15 . 9 .00 16 . 9.00 16 . 555778999 20.00 17 . 00000000011112334444 24.00 17 . 555555555556677777788889 12.00 18 . 000000122234 3.00 18 . 668 Stem width: 10 Each leaf: 1 case(s)箱图中,最底部的水平线段是数据的最小值(奇异点除外),顶部的水平线段是数据的最大值(奇异点除外),中间矩形箱子的底所在位置是数据的第一个四分位数(即25分位数),箱子顶部所在位置是数据的第三个四分位数据(即75分位数)。箱子中间的水平线段刻画的是数据的中位数(即50分位数)。 4.4.3使用其他过程过程进行分析一、D
32、escriptive过程的结果二、Frequencies过程的结果4.5 连续性变量的参数估计根据样本数据对总体的客观规律性作出合理估计的过程被称为统计推断(Statistical Inference),它可以被分为参数估计和假设检验两大类。4.5.1 正态分布一、正态分布的定义若连续性随即变量X的概率分布密度函数为则称随机变量X服从正态分布(Normal Distribution)二、正态分布的特征(1)正态分布是一条对称曲线,关于均数对称,因此均数被称为正态分布的位置参数。(2)曲线是单峰,在均值出达到最高点。(3)正态分布曲线的尖削与标准差有关。因此标准差被称为正态分布曲线的尺度参数。(4)曲线无论向左或向右延伸,都越来越接近横轴,但不会与横轴相交,以横轴为渐近线。(5)约68%的个体的取值与平均数在距离一个标准差之内。(6)约95%的个体取值与平均数的距离在1.96个标准差之内。(7)99%个体的取值与平均数的距离在2.58个标准差。三、标准正态分布(Standard Normal Distribution)将原来的正态分布转换为标准正态分布。在SPSS中的Descriptiv
33、e过程可以将原变量转换为标准正态分布的得分,只需要选中主对话框左下角的Save standardized values as variables 复选框即可。四、偏度和峰度(1)偏度(Skewness):偏度是用来描述变量取值分布形态的统计量,只分布不对称的方向和程度。样本偏度系数:偏态的方向指的应当是长尾的方向,而不是高峰的位置。(2)峰度(Kurtosis):峰度用来描述变量取值分布形态陡缓的统计量,是指分布图形的的尖削程度或峰凸程度。样本的峰度系数:4.5.2 参数的点估计参数的点估计就是选定一个适当的样本统计量作为参数的估计量,并计算出估计值。对于所选统计量是否适于作参数估计量,有无偏性、一致性和有效性三个评选标准。无偏性是指虽然估计量的值不全等于参数,但应在真实值附近摆动。一致性是指样本容量越大,估计值离真实值的差异应当越小。有效性是指如果两个统计量都符合上述要求,则应当选取误差更小的一个作为估计值。在许多种情况下,样本统计量本身往往就是相应的总体参数的最佳估计,此时就可以直接取相应的样本统计量作为总体参数的点估计。一、矩法一、矩法二、极大似然估计法该方法的原理是在已知总体的
34、分布,但未知其参数值时,在待估参数的可能取值范围内进行搜索,使似然函数值最大的那个数值为极大似然估计值。三、稳健估计值稳健估计值的是该统计量具有稳健性,当数据存在异常值时受影响较小,而且对大部分的分布而言都很好。文件估计有M估计、R估计等不同方法。SPSS中数出的M估计量有4种,它们分别是Huber、Andrews、Hampel和Tukey所提出的,实际上就是所用的函数不同。一般而言,Huber适用于数据接近正态分布的情况,另外三种则适用于数据中许多异常值的情况。如果M估计量里平均数和中位数较远,则数据中可能存在异常值。此时,应该用M估计量替代平均数以反映集中趋势。4.5.3 参数的区间估计一、标准误标准误就是用来描述参数估计值可能离真实值究竟有多远的统计量。二、区间估计的计算结合样本统计量和标准误可以确定一个具有较大的可信度包含总体参数的区间,该区间称为总体参数的1-a可信区间或置信区间(Confidence Interval)。对于任意可信度的区间情况,总体均值在100(1-a)%可信区间为:第第5 5章章 分类变量的统计描述与参数估计分类变量的统计描述与参数估计5.1分类变量的统
35、计描述概述5.1.1分类变量的统计描述指标体系一、频数分布情况描述各个类别的样本数和所占比例分别称为频数(绝对频数)和百分比(构成比)。累计频数是指本类别及较低类别出现的次数之和,累计百分比则是指本类别及较低类别出现的次数之和占总次数的百分比。根据类别的有序性,分类变量可以分为有序分类变量(Ordinal Variable)和无序分类变量(Nominal Variable)。当集中趋势显著时,用众数(Mode)作为总体的代表值。二、集中趋势的描述二、集中趋势的描述所谓众数,使之出现次数最多的那个数。如果只有一个众数称为单众数,多于一个的称为复众数。(1)比(Ratio):比指的是两个有关指标之比A/B,用于反映两个指标在数量/频数上的大小关系。三、使用相对数进行深入描述三、使用相对数进行深入描述(2)构成比()构成比(Proportion)率是一个时间概念,或者说具有速度、强度含义的指标,用于说明某个时间发生的频率或强度。分观察对象为K部分(A1、A2、Ak),其中某一个/多个部分的例数占总例的比例未构成比,它描述某个事物内部各构成部分所占的比重。(3)率()率(Rate)5.1.2
36、分类变量的联合描述当一共有两个分类变量时,这汇总因分类变量的各类别交叉而成的复合频数表被称为行*列表,也称列联表。当观察的现象与两个因素有关时,如某种服装的销量受价格和居民收入影响;某种产品的生产成本受原材料价格和产量的影响等等,交叉列联表分析可以比较好的反映出两个因素之间有无关联性,两因素与现象之间的相关关系。因此,数据交叉列联表分析主要包括两个基本任务:1、根据收集的样本数据,产生二维或多维交叉列联表;2、在交叉列联表的基础上,对两两变量间是否存在关联性进行检验。5.2分类变量的统计描述实例5.2.1使用Frequencies过程输出频数表具体操作:Analysis Descriptive Statistics Frequencies1、打开数据,单击AnalyzeDescriptive Statistics Crosstabs对话框。 2、如果是二维列联表分析,可以将行变量选择进入Row(s)中,将列变量选择进入Column(s)框中。如进行三维以上的列联表,可以将其它变量作为控制变量选到Layer框中。多控制变量可以是同层次的也可以是逐层叠加的。5.2.2 使用使用Crosst
37、abs过程输出列联表过程输出列联表3、Display clustered bar chart选择项,可以指定绘制各变量交叉频数分布柱形图。Suppress table表示不输出列联表,只有在分析行列变量间关系时选择此项。此例中不选择这一项。4、单击Cell按纽,打开Crosstabs:Cell Display对话框,如图所示。从对话框中指定列联表单元格中的输 出 内 容 。 在 Counts框 中 选 择Observed 观察值(系统默认)或Expected期望频数。在Percentages框内选择Row行百分比、Column列百分比及Total总百分比。在Residuals框中选择输出残差。其中Standardize为标准化残差。 Adj. standardize 为修正的标准化残差。 5.3 多选题的统计描述多选题的统计描述5.3.1 多选题的描述指标体系在多选题分析中比较特别的描述指标有:(1)应答人数:是指选择了本项人数。(2)应答人数百分比(Percent of Cases):选择该项的人占总人数的比例。(3)应答人次:选择本选项的人次。(4)应答次数百分比(Percent
38、of Responses):在作出的选择中,选择该项的人数占总次数的比例。5.3.2 分析实例分析实例操作步骤:Analyze Multiple Response Frequencies1、Define Sets过程该过程指定变量组成一个多重响应或多重两分数集,并应用于频数表和交叉列表。2、Frequencies过程该过程对定义的多重响应或多重两分数提供一个频数表。3、Crosstabs过程该过程提供带有另一种变量的,已定义的多重或多重两分数据集交叉表。5.4 分类变量的参数估计分类变量的参数估计5.4.1 二项分布的参数估计一、二项分布二项分布又称为贝努里(Bernoulli)分布,是一种具有广泛应用的离散型随机变量的概率分布。二项分布研究的是试验仅有两种结果的分布(这种试验称为贝努里试验),如某产品质量合格与不合格等。其定义为:设有n 次试验,各次试验是相互独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是1-p,记为q,则对于某事件出现k(k=0,1,2,n)次的概率分布为: 二、二项分布检验(Binomial Test)当研究对象属于二项总体时,可以用二项分布来检验
39、假设,判断所抽取的样本是否来自具有既定值的总体。其检验步骤如下: 1、提出假设2、计算统计量值和p 值3、根据p 值作出统计判断。例掷一枚球类比赛用的挑边器40 次,出现A 面和B 面在上的次数。如表所示,试问这枚挑边器是否均匀?解:(1)在SPSS 中输入表中的数据(变量名为Y)。选择主菜单的Analyze= Nonparametric Tests= Binomial Test。(2)显示如图所示的Binomial Test(二项检验)主对话框,把Y选入Test Variable,其它选项采用默认值。(3)单击主对话框中的OK按钮,输出结果如下:从结果可以看出,p=0.017=0.05,认为该挑边器不是均匀的。第6章 数据报表的呈现6.1 spss报表概述6.1.1 spss中的报表功能1、base模块2、original模块3、Custom Tables模块6.1.2 报表的基本绘制步骤6.2表格入门6.2.1 表格基本框架行(Row)指的是形成表格的横行元素;列(Column)指的是形成表格纵列的元素;行、列元素相交就会形成一个最简单的二维表,行、列元素不同取值的组合就确定了一个
40、单元格(Cell)。层(Layer)指的是表格中的第三个维度。6.2.3单元格的数据类型1、分类变量.包括了名义型和有序尺度两大类。2、连续变量包括间距尺度和比率尺度两大类。(1)集中趋势指标:均数、中位数、众数、最大值、最小值。(2)离散趋势指标:全距、标准误、标准差、方差。(3)百分位数:第5、25、75、95、99百分位数其任一指定的百分位数。(4)百分比:按相应合计方向当前变量的行、列、层、表格合计百分比。(5)其他:例数、有效例数、综合等。3、汇总项6.2.4 集中基本表格类型1、叠加表(Stacking)叠加表指的是在同一张表格中对两个变量进行描述,或者说表格中有一个维度的元素是由两个以上的变量构成。2、交叉表(Crosstabulation)它的两个维度都是由两个分类变量的各类别构成。3、嵌套表(Nesting)两个变量被放置在同一个表格维度中,即该维度是由两个变量的各种类别组合而成。4、多层表(Layers)如果制定了层元素,表格就由二维扩展到三维,即多层表。5、复合表格6.3 用Original Tables模块制表6.3.1 功能简介(1)Multiple Resp
41、onse Sets(2)Basic Tables(3)General Tables(4)Multiple Response Tables(5)Tables of Frequencies6.3.2 Basic Tables过程例2:请将数据文件Cars.sav中的汽车数据分为不同的产地和气缸数计算其引擎功率、引擎重量的频数和均数,用适当的报表形式给出,并要求给出类别合计。1、表格框架的设定2、统计量的添加与格式的设置3、添加汇总项4、空单元格的设置5、添加标题与说明文字、添加标题与说明文字6、标签排列格式的调整、标签排列格式的调整7、最终完成表格绘制、最终完成表格绘制6.3.3 General Tables 过程1、表格框架的设定、表格框架的设定2、添加汇总项、添加汇总项6.4用Custom Tables模块自由制作6.4.1操作主界面6.4.2 简单实例分析1、表格框架的绘制:选中左侧列表中变量的图标,按下左键不放,移动鼠标,此时鼠标携带着变量图标一起移动。将其拖入画布内,当鼠标接近行/列边框时,相应地边框会变红,表明该变量已经找到位置。2、连续变量统计量的设置(1)选中画布上的Hor
42、sepower图标,此时界面左下方Define框组中的Summary Statistics 浮动钮已经可以用,单击该钮后即弹出连续变量汇总统计量设定的对话框图。(2)如果计算某一个统计量,使用连接两框的统计按钮将其移入右侧。例如如果希望先计算频数,则在用最右侧的上下移动钮将其移动到均数上方即可。3、分类变量汇总项的设置选择分类变量Cylinder,则Define框组中的该浮动按钮可用,单击后弹出如下界面:Totals and Subtotals Appear框组:用于设定汇总和子项汇总的标签是在左上部显示还是在右下部显示。Show框组:用于设定某项是否显示,Ttotal选项用于要求计算汇总栏,Missing选项要求将用户定义的的缺失值按缺失值处理方式处理,该选择不影响系统缺失。Empty选项用于控制是否在表格中输出无案例的类别。而最右侧的Other选项则控制是否显示未提供值标签的类别。Exclude框:用于指定部显示某些类别。Display框组:直观的显示该分类变量各类的显示方式、顺序、汇总等。4、显示标签的调整将表格画布切换为正常视图,然后在Cylingder的变量名标签出单击右键,
43、则弹出相应的右键菜单。6.4.3 其他选项卡功能1、Test Statistics功能2、Titles 选项卡3、Options选项卡6.5 表格的编辑6.5.1 基本编辑操作1、两种不同的编辑窗口(1)嵌套窗口编辑模式选中相应表格使用右键菜单上的SPSS Pivot table Object Edit,或者双击鼠标左键。(2)单独窗口编辑模式选中相应表格使用右键菜单上的SPSS Pivot table Object Ope。,2、表格元素的选择方式3、单元格内容编辑6.5.2主要编辑菜单功能介绍1、Edit菜单2、format菜单对单元格的字体、阴影、颜色等属性修改对表格进行各个选项的精细设置对单元格的字体、阴影、颜色等属性修改对表格进行各个选项的精细设置选用新的表格模版表格的行、列自动按内容多少调整为最小。将列标题纵向显示3、View菜单和Insert菜单4、Pivot菜单6.5.3 表格属性的详细设置单击菜单Format到Table Properties即可弹出表格属性对话框。(1)general选项卡(2)Footnotes选项卡(3)Cell Formats选项卡(4)Bor
44、ders选项卡6.6参数估计参数估计6.6 .1参数估计的一般问题一、估计量与估计值所谓参数估计(Parameter estimation)就是用样本统计量去估计总体的参数。如果我们将总体参数笼统地用一个符号 来表示,参数估计也就是如何用样本统计量来估计总体参数 。用于估计 的样本统计量用符号 表示,我们把 称为统计量(estimator)。估计值(estimated value)就是用来估计总体参数时计算出来的估计量的具体数值。二、点估计与区间估计参数的估计方法有点估计(point estimate)和区间估计(interval estimate)两种。(一)点估计所谓点估计就是由样本x1,x2,xn确定一个统计量 用它来估计总体的未知参数,称为总体参数的估计量。当具体的样本抽出后,可求出样本统计量的值。用它作为总体参数的估计值,称作总体参数的点估计。 某连续生产线上生产的灯泡的使用寿命X服从正态分布N(,2),其中和2是未知总体参数。从中随机抽取5只灯泡,测得使用寿命分别为1529小时、1513小时、1600小时、1527小时、1111小时。试估计和2。从总体中抽取一个样本,构造适
45、当的统计量 ,来估计对应的总体参数 。评价点估计量优劣的标准 :1、无偏性(unbiasedness)无偏性是指估计量的抽样分布的数学期望等于被估计的总体参数。参数不等于抽样分布的均值(有偏估计量)参数等于抽样分布的均值(无偏估计量)偏差2、有效性(Efficiency)参数的抽样分布的抽样分布 自正态总体抽样时,总体均值与总体中位数相同,而中位数的标准误差大约比均值的标准误差大25%。因此,样本均值更有效。的抽样分布的抽样分布3、一致性(consistency)两个不同容量样本的点估计量的抽样分布(二)区间估计的样本的样本使得使得置信度置信度1-1-区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常是由样本统计量加减抽样误差得到的。6.6.2 一个总体参数的区间估计(一)总体方差已知时总体均值的区间估计一、总体均值的区间估计一、总体均值的区间估计当总体服从正态分布且方差已知时,或者总体不是正态分布但大样本时,样本均值的抽样分布均为正态分布,期数学期望为总体均值,方差为 。而样本均值经过标准化以后的随机变量则服从标准正态分布。显著性水平置信度显著性水平下,在1- 置
46、信水平下的置信区间:例题: 一批零件的长度服从正态分布,从中随机抽取9件,测得其平均长度为21.4毫米。已知该批零件长度的标准差为0.15毫米,试以95%的把握程度,估计该批零件平均长度的存在区间。例题: 某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36)。例题:一家保险公司收集到36个投保人组成的随机样本,得到每个投保人的年龄如表:233539273644364246433133425345544724342839364440394938344850343945484532试建立投保人年龄的90%置信区间。(二)总体方差未知时总体均值的区间估计(二)总体方差未知时总体均值的区间估计如果总体服从正态分布,则无论样本容量如何,样本均值的抽样分布都服从正态分布。这时,只要总体方差已知,即使在小样本的情况下,也可以建立总体均值的置信区间。但是,如果总体方差未知,而且是在小样本的情况下,则需要用样本方差替代总体方差,这时样本均值经过标准化以后的随机变量则服从自由度为(n-1)的t分
47、布。-3-2-101230.00.10.20.30.4标准正态分布自由度为20的t-分布自由度为10的t-分布显著性水平下,的1- 置信区间:例题:已知某灯泡的寿命副总正态分布,现从一批灯泡中随机例题:已知某灯泡的寿命副总正态分布,现从一批灯泡中随机抽取抽取16只,测得其寿命如下:只,测得其寿命如下:1510145014801460152014801490146014801510153014701500152015101470试建立该批灯泡使用寿命95%的置信区间。是否为大样本n30值是否已知值是否已知总体是否近似正态分布用样本标准差s估计用样本标准差s估计将样本容量增加到n30以便进行区间估计是是是是否否否否总体均值区间估计程序二、总体比例的区间估计二、总体比例的区间估计显著性水平下,P在1- 置信水平下的置信区间: 某企业在一项关于职工流动原因的研究中,从企业前职工的总体中随机抽选了200人组成一个样本。在对其进行访问时,有140说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开企业的人员的真正比率构造95%的置信区间。三、总体方差的区间估计三、总体方差的区间估计
48、自由度为50自由度为2自由度为10显著性水平下,2 的置信区间0=2.7044=19.02280.0250.025自由度为9的2分布 对某种金属的10个样品所组成的一个随机样本作抗拉强度试验。从试验数据算出的方差为4,试求2 的95%值信区间。四、样本容量的确定四、样本容量的确定允许误差(permissible) 用历史数据代替。若有若干个历史数据,应以较大者代替。 一家广告公司想估计某类商店去年所花的平均广告费有多少。经验表明,总体方差为1800000。如置信度取95%,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本? 一家市场调研公司想估计某地区有彩色电视机的家庭所占的比率。该公司希望对 P 的估计误差不超过0.05,要求可靠程度为 95%,应取多大容量的样本?总体方差最大值为0.50.5=0.25关键术语无放回抽样(无放回抽样(sampling without replacement)一个元素一旦选入样本,就从总体中剔除,不能再次被选入放回抽抽样(放回抽抽样(sampling with replacement)一个元素一旦被选入样本,仍被放回总体中。先
49、前被选入的元素可能再次被抽到,并且在本样中可能出现多次抽样分布(抽样分布(sampling distribution)样本统计量所有可能值构成的概率分布点估计(点估计(point estimate)用做总体参数估计量的值。它是点估计量的具体的取值点估计量(点估计量(point estimator)提供总体参数点估计的样本统计量标准误差(标准误差(standard error)点估计量的标准差中心极限定理(中心极限定理(central limit theorem)当样本容量大的时候,用正态分布近似样本均值的分布和样本比率的抽样分布区间估计(区间估计(interval estimate)总体参数估计值的一个范围,确信该范围包括参数的值在内抽样误差(抽样误差(sample error)无偏估计值(如样本均值)与所估计的总体值(如总体均值)之差的绝对值置信水平(置信水平(confidence level)与区间估计相联系的置信度边际误差(边际误差(margin error)置信区间中从点估计值中所加上或减去的值t分布(分布(t distribution) 概率分布的一族,当总体是正态或者近似正
50、态概率分布,并且总体标准差未知情况下,对总体均值进行区间估计时常用到该分布自由度(自由度(degrees of freedom)t 分布的参数,计算总体均值的区间估计中所用的t 分布的自由度为n-1,其中n是简单单随机样本的样本容量第7章 均值比较与方差检验本章主要内容:本章主要内容:1、单个总体均值的 t 检验(One-Sample T Test);2、两个独立总体样本均值的 t 检验(Independent-Sample T Test);3、两个有联系总体均值均值的 t 检验(Paired-Sample T Test);4、单因素方差分析(One-Way ANOVA);5、双因素方差分析(General Linear ModelUnivariate)。假设条件:假设条件:研究的数据服从正态分布或近似地服从正态分布。在Analyze菜单中,均值比较检验可以从菜单Compare Means,和General Linear Model得出。 7.1假设检验的基本问题一、假设检验的基本思想一、假设检验的基本思想假设检验是除参数估计之外的另一类重要的统计推断问题。它的基本思想可以用小概率原理
51、来解释。所谓小概率原理,就是认为小概率事件在一次试验中几乎不可能发生。也就是说,如果对总体的某个假设是真实的,那么不利于或不能支持这一假设的小概率事件A在一次试验中是几乎不可能发生的;要是在一次试验中事件A竟然发生了,我们就有理由怀疑这一假设的真实性,拒绝这一假设。假设检验的基本思想假设检验的基本思想 前提:前提:承认承认原假设原假设小概率小概率事件发生事件发生大概率大概率事件发生事件发生拒绝拒绝原假设原假设接受接受原假设原假设进行一次实验进行一次实验根据样本观测值来判断一个有关总体的假设是否成立的问题,就是假设检验问题根据样本观测值来判断一个有关总体的假设是否成立的问题,就是假设检验问题(hypothesis testing)。)。 某厂生产一种供出口的罐头,经验表明罐头的净重服从正态分布。标准规格是每罐净重250克,标准差是3克。现从生产线上随机抽取100罐进行检查,称得其平均净重251克。问这批罐头是否合乎规格净重?则样本均值服从均值为250,标准差0.3的正态分布250250假设总体服从均值为250,标准差3的正态分布0250.6249.4样本均值服从均值为250,标准差0.3
52、的正态分布2510.95450样本均值服从均值为250,标准差0.3的正态分布2.00-2.003.330接受域拒绝域拒绝域临界值临界值Z统计量显著性水平假设检验是对我们所关心的却又是未知的总体参数先作出假设,然后抽取样本,利用样本提供的信息,根据小概率原理对假设的正确性进行判断的一种统计推断方法。二、假设的表达式二、假设的表达式例:由统计资料得知,1989年某地新生儿的平均体重3190千克,现从1990年的新生儿中随机抽取100个,测得其平均体重为3210千克,问1990年的新生儿与1989年相比,体重有无显著差异。原假设(null hypothesis)采用等式的方式,即如果原假设不成立,就要拒绝原假设。在需要的另一个假设中做出选择,这个假设称为备择假设(alternative hypothesis)。备择假设表达式为:假设基本形式假设基本形式 H H0 0: :原假设,原假设,H H1 1: :备择假设备择假设 假设检验:运用统计理论对上述假设进行检假设检验:运用统计理论对上述假设进行检验,在原假设与备择假设中选择其一。验,在原假设与备择假设中选择其一。 提出原假设和备择假设某厂
53、生产一种供出口的罐头,经验表明罐头的净重服从正态分布。标准规格是每罐净重250克,标准差是3克。现从生产线上随机抽取100罐进行检查,称得其平均净重251克。问这批罐头是否合乎规格净重?确定检验统计量规定显著性水平显著性水平对应犯拒真错误的概率,通常取=0.05或=0.01或=0.0455 计算检验统计量的值作出统计决策拒绝原假设,即这批罐头不符合规格净重。假设检验的另一种方法:假设检验的另一种方法: p-值的应用值的应用 p-值是一个概率值,它是用于确定是否拒绝H0的另一种方法。如果假定原假设为真,则p-值是所获得的样本结果至少与实测结果不同的概率值。 例题:某商品标签上标明其重量至少为3公斤以上,现抽取36瓶该产品组成的一个简单随机样本,得其样本均值2.92公斤,已知总体标准差为0.18时,在显著性水平0.01的情况下检验其商品标签所标内容是否真实? 求解过程:求解过程: (1 1)原假设)原假设H H0 0:33,备择假设,备择假设H H1 1:3 3 (2 2)检验统计量为:)检验统计量为:代入数据得:代入数据得:(4 4)0.00380.00380.0100.010,所以拒绝
54、,所以拒绝H H0 0。 (3 3)z=z=2.672.67所对应的所对应的p p值为值为0.0038 0.0038 三、假设检验的两类错误假设检验的两类错误 接受或拒绝H0,都可能犯错误 I类错误弃真错误,发生的概率为( error) II类错误取伪错误,发生的概率为( error)7.2 正态总体参数的假设检验正态总体参数的假设检验正态总体参数假设检验的步骤正态总体参数假设检验的步骤第一步:建立原假设第一步:建立原假设H H0 0和备择假设和备择假设H H1 1。原假设应该是希望犯第。原假设应该是希望犯第类错误概率小的假设。类错误概率小的假设。 常用的假设形式常用的假设形式 :第二步:选择检验用的统计量。第二步:选择检验用的统计量。z 检验t 检验F检验 常用常用统计量统计量第三步:确定显著水平第三步:确定显著水平的值,查相应的分布表得的值,查相应的分布表得其临界值以及拒绝域。其临界值以及拒绝域。第四步:进行显著性判别。第四步:进行显著性判别。 7.2.1一个正态总体的参数检验一个正态总体的参数检验在一个正态总体的参数检验中,用到的检验统计量主要有三个:Z统计量,t统计量, 统计量
55、。Z统计量和t统计量常用于均值和比例的检验, 统计量则用于方差检验。选择什么统计量进行检验需要考虑一些因素,这些因素主要有:总体的标准差是否已知,样本量的大小。(一)总体标准差是否已知(一)总体标准差是否已知总体方差检 验统计量 =0 时检验统计量的分布假 设 拒绝域2已知2未知(二)样本量(二)样本量总体标准差已知未知Z统计量样本容量Z统计量t统计量大小二、总体均值的检验例题: 某厂加工一种零件,根据经验知道,该厂加工的零件的椭圆度渐近服从正态分布,其总体均值为0.081mm,总体标准差为0.025mm。今另换一种新机床进行加工,取200个零件进行检验,得到椭圆度均值为0.076mm。问新机床加工零件的椭圆度总体均值与以前有无显著差别。(=0.05)接受域拒绝域拒绝域例题: 某批发商欲从厂家购进一批灯泡,根据合同规定,灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布,标准差为20小时。在总体中随机抽取了100个灯泡,得其均值为960小时,批发商是否应该购进这批灯泡。解一:接受域拒绝域解二:接受域拒绝域 例题:电视机显像管批量生产的质量标准为平均使用寿命1200小时
56、,标准差为300小时。某电视机厂宣称其生产的显像管质量大大超过规定标准。为了进行验证,随机抽取100件为样本,测得平均使用寿命为1245小时。能否说该厂的显像管质量显著地高于规定标准。解一:接受域拒绝域解二:接受域拒绝域 某机器制造出的肥皂的标准厚度为5cm,今欲了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均厚度为5.3cm,标准差为0.3cm,试以0.01的显著性水平检验机器性能良好的假设。接受域拒绝域拒绝域 一个汽车轮胎制造商声称,某一等级轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000km,对一个由120个轮胎组成的随机样本作了试验,测得平均值和标准差分别为41000km和5000km。已知轮胎寿命的公里数近似服从正态分布。能否根据这些数据作出该制造商的产品同他所说的标准相符的结论。接受域拒绝域例题:例题: 某高尔夫球场在过去几个月里高尔夫运动者有某高尔夫球场在过去几个月里高尔夫运动者有20%是女性,为增加女性运动者比率,球场以特价方式吸是女性,为增加女性运动者比率,球场以特价方式吸引女性运动者,一周以后,一个引女性运动者,一周以后,一个400名运动者所组成
《SPSS统计分析基础教程》由会员hs****ma分享,可在线阅读,更多相关《SPSS统计分析基础教程》请在金锄头文库上搜索。