SAS软件与统计应用教程 教学课件 ppt 作者 汪远征 徐雅静 ch9
46页1、第九章 属性(分类)数据分析,9.1 属性数据及其分析 9.2 SAS中的属性数据分析,9.1 属性数据及其分析 9.1.1 属性数据分析与列联表 9.1.2 属性变量关联性分析 9.1.3 属性变量关联度计算 9.1.4 有序变量关联性分析,9.1.1 属性数据分析与列联表 1. 属性变量与属性数据分析 从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。 对属性数据进行分析,将达到以下几方面的目的: 1) 产生汇总分类数据列联表; 2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量; 4) 对高维数据进行分层分析和建模。,2. 列联表 列联表(contingency table)是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420个样本单位,了解职工对此项改革的看法,调查结果如表9-1所示。,表9-1 关于改革方案的调查结果(单位:人)
2、 表中的行(row)是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列(column)是单位变量,这里划分为四类,即四个分公司。表9-1所示的列联表称为24表。,交叉表的基本形式如图9-1所示。 这是一张具有r行和c列的一般列联表,称它为rc表。其中,第i行第j列的单元表示为单元ij。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观测个数用n表示,在单元ij中的观测个数表示为nij,称为单元频数。,9.1.2 属性变量关联性分析 对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。 属性变量关联性检验的假设为 H0:变量之间无关联性; H1:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为: H0:变量之间独立; H1:变量之间不独立,1. 2检验 在双向表的情形下,如果行变量与列变量无关联性的原假设H0成立,则列联表中各行的相对分布应近似相等,即 (j = 1,2,c)
3、或 (j = 1,2,c) 其中mij称为列联表中单元ij在无关联性假设下的期望频数,而nij是单元ij的观测频数。,为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是2检验。2统计量为: 在H0成立的条件下,当观测数据较大时,2统计量的分布近似服从自由度为(r - 1)(c 1)的2分布。,由于2分布是一种连续性分布,而属性数据是不连续的,故上式只是一个近似计算公式。计算出来的2值往往偏大,相应的p值偏小,从而人为地增加了犯第一类错误的机会。为纠正这种偏性,可采用校正2,用C2表示。 注:通常要求2检验应满足的条件是:n40且所有单元的期望频数均不小于5。 2校正的条件:n40但有单元的期望频数小于5。,2. Fisher精确检验 Fisher精确检验建立在概率论中超几何分布的基础上,对于单元频数小的列联表来说,它是特别合适的。 Fisher精确检验计算在H0成立的条件下,当总频数和边缘频数固定时,各种可能的表的超几何概率p之和 对于双边检验,A是具有概率p小于或等于观测表概率的表的集合;对于左(右)边检验,A是这样一些表的集合,其中
4、每个表的单元ij中频数小于(大于)或等于观测表中相应的频数。,9.1.3 属性变量关联度计算 1. 系数 系数是描述22表数据关联程度最常用的一种相关系数。其计算公式为: 其中,2即2统计量。 |的取值范围是在0 1之间,的绝对值越大,说明行变量与列变量的关联程度越高。 = 0,表示变量之间相互独立;| = 1,表示变量之间完全相关,此时列联表某个方向对角线上的值全为0。 当列联表r c中的行数r或列数c大于2时,系数将随着r或c变大而变大,且无上界。此时可用列联系数。,2. 列联系数 列联系数(Contingency coefficient)简称为c系数,主要用于大于22表的情况。c系数的计算公式为: c系数的取值范围:1 c 1,特别当r c表中两个变量相互独立时,c = 0。c系数的最大值依赖于列联表的行数和列数,且随着r或c变大而变大。例如,对于22表,c = 0.7071;对于33表,c = 0.8165;对于44表,c = 0.87,等等。 c系数的缺点是,根据不同行列的列联表计算出来的c系数不便比较。,3. V系数 鉴于系数无上界、c系数小于1的不便,克莱默提出了V系数(
《SAS软件与统计应用教程 教学课件 ppt 作者 汪远征 徐雅静 ch9》由会员E****分享,可在线阅读,更多相关《SAS软件与统计应用教程 教学课件 ppt 作者 汪远征 徐雅静 ch9》请在金锄头文库上搜索。
逍遥游复习 知识点整理
近现代法德关系史 高三展示课3稿
当代大学生人生信仰及追求的调查研究
长相思 纳兰性德-ppt课件
课件:危机意识 一
英语ppt演讲关于阿甘正传
发达国家基础教育改革的动向与趋势 修改版
中国民间美术 课件.ppt
生物质发电技术与系统 课程ppt 第1章 生物质发电技术现状及发展趋势 2学时 -----2016
现代信号处理思考题 含答案
执业药师继续教育 抑郁症的药物治疗 100分
小学生的成长档案模板不用修改 万能型
增订六版 现代汉语 上册 第二章文字 思考与练习答案
国家财政ppt课件
加拿大英语介绍
六年级统计图的选择课件
中学生成长档案ppt
中国现代文学史期末复习整理
lohi和hihilo训练对女子赛艇运动员运动能力影响的比较研究
风雨贾平凹阅读答案
2024-04-11 25页
2024-04-11 37页
2024-04-11 28页
2024-04-11 31页
2024-04-11 36页
2024-04-11 29页
2024-04-11 22页
2024-04-11 27页
2024-04-11 34页
2024-04-11 32页