
同济医学院-《SAS》课件-SAS的卡方检验(正式)
39页单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,卡方检验,SAS,应用,蒋红卫,Email:JHWCCC21CN.COM,学习目标,掌握四格表普通卡方检验和配对卡方检验方法以及相应的,SAS,程序;,了解,FREQ,过程语句格式;,熟悉,R,C,表资料的分类类型以及相应的统计检验方法;,掌握双向无序,R,C,表资料检验,以及,SAS,程序;,掌握单向有序,R,C,表资料检验以及,SAS,程序;,掌握趋势卡方检验方法以及,SAS,程序;,掌握分层,R,C,表,的分析以及,SAS,程序,;,概述,前面已介绍了两个率比较的检验,在观察例数不够大或拟对多个率进行比较时,检验就不适宜了,因为直接对多个样本率作两两间的检验有可能增加第一类误差2,检验可解决此类问题卡方检验是用途很广的一种假设检验方法,这里我们主要学习它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等四格表资料,定性指标分为有序的(如:疗效分为,“,治愈、显效、好转、无效、死亡,”,)和名义的(如:血型分为,“,O,、,A,、,B,、,AB,”,型)类,对于每个受试者来说,有序指标的观测结果只能是该有序指标若干等级中的级(如某人的疗效为,“,显效,”,);名义指标的观测结果只能是该名义指标若干标志中的个(如某人的血型为型),显然,无法像处理定量指标那样去直接分析定性指标,故这类资料常被整理成列联表的形式后再进行分析。
当表中只有个定性指标时,称为维列联表;有个或个以上定性指标时,称为多维列联表常用,R,、,C,表示维列联表的行数和列数,并称为,R,C,表;当,R=C=,时,称为,表(或四格表)表看起来很简单,但根据资料所具备的条件有许多不同的处理方法四格表卡方检验的,SAS,程序,在,SAS/STAT,模块中,FREQ,、,TABULATE,和,SUMMARY,等过程可用于分类资料的统计描述,其中,FREQ,过程兼具统计描述和统计推断的功能,对分类变量计算频数分布,产生从一维到,n,维的频数表和列联表;对于二维表,可进行,2,检验,对于三维表,可作,Mentel-Hanszel,分层分析FREQ,过程是,SAS,用于分析分类资料的一个常用过程本节将先向大家介绍,FREQ,过程的语句及其格式FREQ,过程的语句基本格式如下:,Proc freq data=order=;,Table,分类变量*分类变量,/;,Weight,变量,;,Run;,四格表卡方检验的,SAS,程序,DATA,数据集:规定,PROC FREQ,语句使用的数据集;,ORDER,FREQ,,按频数递减顺序排列;,ORDER,DATA,,按数据集中出现的顺序排列;,ORDER,INTERNAL,,按内部值排列,(,缺省,),;,ORDER,FORMATTED,,按外部格式值排列;,Table,语句指定构成表格的变量和表格结构。
表格的结构由变量个数和变量排列顺序决定,一个,table,语句允许列出多个表格结构PROC FREQ,过程中可有多条,TABLES,语句,,TABLES,语句后可接多个表格请求式,每个请求式可包含任何数量的变量,从而得到所需的表格四格表卡方检验的,SAS,程序,如果,TABLES,语句缺省,则,FREQ,过程对数据集中的所有变量都给出相应的一维频数表不规定任何选项时,若需某变量的一维频数,,FREQ,给出该变量每一水平的频数、累积频数、频数的百分比和累积百分比;若需二维频数表,,FREQ,产生交叉分组列表,即包括各格的频数、总频数的格百分数、行频数的格百分数和列频数的格百分数请求式由一个或多个用,“,*,”,连接起来的变量名组成几个变量可放在括号中,如:,TABLES A*(B C),;等价于,TABLES A*B A*C,;,TABLES(A-C)*D,;等价于,TABLES A*D B*D C*D,;,四格表卡方检验的,SAS,程序,下列选项可用于,TABLES,语句中,“,/,”,的后面:,OUT,数据集:建立一个包含变量值和频数计数的输出数据集如果,TABLES,语句中不止一个请求式,数据集的内容相应于,TABLES,语句中最后一个请求。
CHISQ,对每层作,c2,检验,包括,Pearson c2,、似然比,c2,和,Mantel-Haenszel c2,此外还给出与,c2,检验有关的关联指标包括,Phi,系数、列联系数和,Cramer,s V,对于,2,2,表,给出,Fisher,精确概率AGREE,进行配对,c 2,检验EXACT,对大于,2,2,的列联表计算,Fisher,精确概率同时也给出,CHISQ,选项的全部统计量四格表卡方检验的,SAS,程序,MEASURES,对每层的二维表计算一系列关联指标及相应的标准误,包括,Pearson,和,Spearman,相关系数,以及,Gamma,和,Kendall,系数等对于,2,2,表,还给出常用的危险度指标及其标准误CMH,给出,Cochran-Mantel-Haenszel,统计量,可检验在调整了,TABLES,语句中其它变量后,行变量与列变量之间的关联程度对于,2,2,表,,FREQ,过程给出相对危险度估计及其可信区间,还给出各层关联度指标是否齐性的,Breslow,检验ALL,给出,CHISQ,、,MEASURES,、,CMH,所请求的全部统计量ALPHA,p,给出检验水准。
缺省为,0.05,四格表卡方检验的,SAS,程序,EXPECTED,给出期望频数DEVIATION,给出每格的实际频数与期望频数的差值CELLCHISQ,给出每格对总,c2,的贡献,即计算每格的,(,实际频数,-,期望频数,)2/,期望频数CUMCOL,给出累积列百分数NOFREQ,不给出列联表中的格频数NOPERCENT,不给出列联表中的格百分数四格表卡方检验的,SAS,程序,NOROW,不给出列联表中各格的行百分数NOCOL,不给出列联表中各格的列百分数NOCUM,不给出频数表的累积频数和累积百分数NOPRINT,不给出表格,但给出,CHISQ,、,MEASURES,或,CMH,等语句所指定的统计量Trend,指令系统对,2,C,频数表的,C,个百分率进行,Cochran-Armitage,趋势检验;,WEIGHT,语句:通常每个观察值提供数值,1,给频数计数,当,WEIGHT,语句出现时,每个观察值提供的是该观察值的加权变量值该值必须非负,但可不必为整数只能使用一个,WEIGHT,语句,且该语句作用于所有的表四格表卡方检验,理论,频数,,记,为,T,理论,数的计算公式为:,四格表卡方检验,卡方检验的统计量是,2,值,它是每个格子实际频数,A,与理论频数,T,差值平方与理论频数之比的累计和。
每个格子中的理论频数,T,是在假定两组的,发病率相等的,情况下计算出来的,故,2,值越大,说明实际频数与理论频数的差别越明显,两组,发病率,不同的可能性越大例题,某医院欲比较异梨醇口服液(试验组)和氢氯噻嗪,+,地塞米松(对照组)降低颅内压的疗效将,200,例颅内压增高症患者随机分为两组问两组降低颅内压的总体有效率有无差别?,连续性校正公式,2,分布是正态变量的一种分布设 是,k,个独立的标准正态变量,则 2,界值表就是根据这种连续性分布计算出来的2,统计量计算公式实质上是正态近似法分类资料是间断性的,由此计算的,2,值不连续,尤其自由度为,1,的四格表,求出的概率可能偏小,此时需要对,2,值进行连续性校正,公式为,2,检验的应用条件,连续性校正主要针对四格表资料,尤其理论数较小时,连续性校正不可忽略四格表,2,检验的应用条件为:,当,n40,且所有,T5,时,用普通的,2,检验,若所得,改用确切概率法;,当,n40,但有,1T5,时,用校正的,2,检验;,当,n40,或有,T1,时,不能用,2,检验,改用确切概率法例题,某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将,78,例脑血管疾病患者随机分为两组。
问两种药物治疗脑血管疾病的有效率是否有差别?,配对计数资料的卡方检验,把每一份样本平均分成两份,分别用两种方法进行化验,比较此两种化验方法的结果(两类计数资料)是否有本质的不同;或者分别采用甲、乙两种方法对同一批病人进行检查,比较此两种检查方法的结果(两类计数资料)是否有本质的不同,此时要用配对卡方检验配对计数资料的卡方检验,比较两法结果有无差别,要着眼于两法结果不一致的部分表中观察变量是对子中两法的差值或差别,由,b,和,c,两格数据来反映,总体中与,b,和,c,对应的数据可用,B,和,C,表示(,a,格和,d,格表示两法差值为,0,,不予考虑)当,40,时,,当,40,时,需作连续性校正:,例题,某实验室分别用乳胶凝集法和免疫荧光法对,58,名可疑系统红斑狼疮患者血清中抗核抗体进行测定问两种方法的检测结果有无差别?,行,列表资料的,2,检验,前面介绍了两个样本率比较的,2,检验方法,其基本数据有,2,行,2,列,称为,2,2,表或四格表资料本节介绍的行,列表资料的,2,检验,用于多个样本率的比较、两个或多个构成比的比较以及双向有序或无序分类资料的检验等R,C,表可以分为双向无序、单向有序、双向有序属性相同和双向有序属性不同,4,类。
双向无序,RC,表,R,C,表中两个分类变量皆为无序分类变量,对于该类资料:若研究目的为多个样本率(或构成比)的比较,可用行,列表资料的,2,检验;若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可以用行,列表资料的,2,检验以及,Pearson,列联系数进行分析例题,1,某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效问三种疗法的有效率有无差别?,例题,2,测得某地,5801,人的,ABO,血型和,MN,血型结果,问两种血型系统之间是否有关联?,单向有序,RC,表,有两种形式一种是,R,C,表中的分组变量是有序的,而指标变量是无序的此种单向有序,R,C,表资料可用行,列表资料的,2,检验进行分析另一种情况是,R,C,表中的分组变量是无序的,而指标变量是有序的,此种单向有序,R,C,表资料宜用秩和检验进行分析例题,某地城市与农村高血压患者严重程度情况,试比较该地城市和农村高血压患者高血压严重程度是否有差别?,双向有序,RC,表,双向有序属性相同的,R,C,表,R,C,表中的两分类变量皆为有序且属性相同实际上是,2,2,配对设计的扩展,此时宜用一致性检验(或称,Kappa,检验)。
双向有序属性不同的,R,C,表,R,C,表中的两分类变量皆为有序且属性不相同对于该类资料,需要分析两有序分类变量间是否存性变化趋势,宜用有序分组资料的线性趋势检验行列均为顺序变量的相关检验,变量虽然是有序的,但毕竟还不是定量的,需要给有序变量的各等级赋值方可进行相关分析最简单的赋值法是按顺序赋给秩次,(,即得分,),,即给行变量的等级赋值,1,,,2,,,,,R,和给列变量的等级赋值,1,,,2,,,,,C,这样,(X,Y),的不同取值就有,R,C,对,表中的,R,C,个频数就是这,R,C,对取值所对应的频数,然后计算,Spearman,秩相关系数,并作显著性检验,这是比较粗糙的分析方法行列均为顺序变量的相关检验,Spearman,秩相关分析比较粗糙,这是因为它给有序变量的等级赋值过于简单,不能最大限度地获得有序变量之间的相关信息而典型相关分析是在使有序变量的相关达到极大的前提下给有序变量的各等级赋值,就是对于表的边缘(指,“,行合计,”,与,“,列合计,”,)设法产生一双变量正态,从而进行相关分析因产生各等级的得分值的计算过程中涉及矩阵运算,故手工。