
定性数据的分析——卡方检验.ppt
103页Qualitative Data Analysis 定性数据的分析,,名人格言,谬误的好处是一时的,真理的好处是永久的,真理有弊病时,这些弊病会很快被消灭,而谬误的弊病则与谬误始终相随 狄德罗(法国思想家,1713—1784),案例1:评价方法的讨论,怎样评价男女生在德、智、体的差异?怎样评价A、B、C三种降压药物疗效的差别?,什么是定性数据?,定性数据(qualitative data)或称为分类数据(categorical data),其观察值是定性的,表现为互不相容的类别或属性例如患者服药后结局为治愈和未治愈,生存和死亡、阴性和阳性等定性数据的统计分析主要是如何估计总体的率及如何推断两个及两个以上总体率或构成比是否有差异、两个分类变量间有无相关关系等第一节 率的估计,一、率的点估计与总体均数的估计相似,从总体中随机抽取一个样本,从样本计算得到的率是总体率的点估计值例 132例美国冠心病黑人在进行心脏搭桥手术后,有5人死亡, 试估计美国冠心病黑人心脏搭桥手术后死亡率为多少? 解:P=5/132 *100%=3.8%,二、 率的抽样误差与标准误,从总体中随机抽取一个样本,样本率与总体率之间存在差别,差别的大小可以估计。
由抽样而引起的样本率与总体率的差异称为率的抽样误差即率的标准误率的标准误计算公式式中,σp为率的标准误;π为总体率;n为样本量当总体率π未知时,以样本率p作为π的估计值,相应地此时率的标准误估计值按下式计算:式中,Sp为率的标准误的估计值;p为样本率二、率的区间估计,总体率的点估计是计算样本的率,很简单,但计算得到的样本率不等于总体率,它们间存在差异因此,我们还需要知道总体率大概会在一个什么样的区间范围,即所谓总体率的可信区间估计总体率的可信区间可以用正态分布法估计当n足够大,且p 和1-p均不太小,如np 和n(1- p)均大于5时,p的抽样分布逼近正态分布此时,可根据正态分布的特性计算总体率的(1-a)%可信区间:双侧:( p-uα/2·Sp , p+uα/2·Sp ) 单侧:大于p-uα·Sp 或小于 p+uα·Sp,正态分布法,例10-1 采用某药治疗高血压病人200例,服药一月后160人有效,试估计该药的有效率及其双侧95%可信区间解 该药总体有效率:p=160/200=80%, Sp =0.02828 u0.05/2=1.96,总体有效率的95%CI为:(0.8-1.96×0.02828,0.8+1.96×0.02828) =(0.7446,0.8554) 即估计该药的有效率为80%, 该药的有效率的95%可信区间为(0.7446,0.8554)。
练习 随机抽取某市小学400名儿童,查出患有牙疼200名,患有牙周炎240名,患有龋齿320名试估计儿童牙疼、牙周炎、龋齿的患病率及其95%可信区间为多少?━━━━━━━━━━━━━━━━━━━━━━━━ 指 标 例数 阳性数 阳性率 95%CI正态近似法────────────────────────牙疼 400 200 0.5000 0.4510~0.5490牙周炎 400 240 0.6000 0.5520~0.6480龋齿 400 320 0.8000 0.7608~0.8392━━━━━━━━━━━━━━━━━━━━━━━━,CHISS软件实现,1.进入数据模块 点击 数据→文件→建立数据库表2.进入统计模块 进行统计计算 点击 统计→统计推断→可信区间→率的可信区间反应变量:→确认,率的置信区间CHISS数据库,1二行数据: 1)第一行总例数; 2) 第二行阳性数(分子)2 每个指标(组)各一列,第二节 2×2表资料的χ2检验,一、2×2四格表的数据,A、B两个定性变量各分两类,交叉分类计数所得的表称为2×2列联表。
表中产生四个格子四个数a,b,c,d,亦称为四格表(fourfold table),如下表所示案例1 治疗肺炎新药临床试验 用某新药治疗肺炎病,并选取另一常规药作为对照药,治疗结果如下:采用新药治100例,有效 60例;采用对照药治40例,有效 30例试问:1) 列表描述临床试验结果; 2)两种药物疗效有无差别?—————————————— 组别 有效 无效—————————————— 新药 60 40 对照药 30 10——————————————,χ2检验(chi-square test)是由英国统计学家K. Pearson于1900年提出的,其广泛地应用于分类数据的统计分析,推断两个及两个以上总体率或构成比差异是否有统计学意义、两个分类变量间有无相关关系等 设计类型的不同χ2检验不同,四个表χ2检验可以分为完全随机设计的两样本率比较的χ2检验和配对设计的χ2检验χ2检验,(一) 完全随机设计,随机抽取n个个体,按照A属性分为两组,进行试验,然后按试验效应B属性分为两类。
由A、B两属性组合分成四格,得到相应的2×2频数表 这类2×2表主要进行两个样本率之间差异的显著性检验和两属性A、B之间是否存在相关关系二、χ2检验 χ2检验的统计量是χ2值,它是每个格子实际频数A(actual frequency)与理论频数T(theoretical frequency)差值的平方与理论频数T之比的累计和计算公式为: χ2检验是由统计学家K.Pearson(1899)提出,故也称为Pearsonχ2检验实际数和理论频数,实际频数 是通过科学试验观察得到的数据,记为A理论频数 根据在两总体率相同的假设推算出的频数称为理论频数或希望数,记为T 为了便于理解,我们以实际例子来说明χ2检验的假设理论数计算,某班100名学生,其中女生40名,男生60名,现在评选优秀学生20名,问1)假设如果男女优秀生相同,男女生优秀生和非优秀生各多少名?2)现在男女优秀生各10人,问男女生优秀生率有无差别?解:女生优秀数为T11=女生非优秀数为T12=男生优秀数为T21=男生非优秀数为T22=,实际数与理论数,χ2检验的基本思想,χ2值反映了实际频数A与理论频数T吻合的程度。
实际频数A与理论频数T相差越大,则χ2值越大,χ2值越大,P值越小,越有理由认为两组总体率不相同TRC表示列联表中第R行第C列交叉格子的理论频数;nR表示该格子所在的第R行的合计数;nC表示该格子所在的第C列的合计数;n表示总例数2 ) 理论频数计算公式,,例10-1 用磁场疗法治疗腰部扭挫伤患者708人,其中有效673例用同样疗法治疗腰肌劳损患者347人,有效312例观察结果如表10-6所示问磁场疗法对两种疾病患者治疗效果有无差异?,解题分析,扭伤有效率95.06 %,腰肌劳损有效率89.92 %,造成这种差别的原因是什么呢?可能有两种:其一病的不同(本质上的差异);其二抽样误差差别到底是本质上的差异还是纯粹的抽样误差,需进行假设检验解题步骤:,1.建立假设: H0:磁场疗法对腰部扭伤和腰肌劳损治疗的总体有效率相同,即π1=π2 H1:磁场疗法对腰部扭伤和腰肌劳损治疗的总体有效率不同,即π1≠π2 确定显著水平α=0.05,3)χ2值 计算公式 服从自由度ν =(R-1) (C-1)的χ2分布R表示列联表中行标识的分组数;C表示列联表中列标识的分组数。
本例实际数与理论数 ━━━━━━━━━━━━━━━━━━━━━━━ 有效(理论数) 无效( 理论数) 小计 ─────────────────────── 扭伤 673( 661.0) 35( 47.0) 708 腰肌劳损 312( 324.0) 35( 23.0) 347 ─────────────────────── 合计 985 70 1055 ━━━━━━━━━━━━━━━━━━━━━━━,本例的χ2值:υ=(2-1)(2-1)=1由χ2界值表得χ20.05,1=3.84,本例χ2检验=9.9427>3.84,所以,P<0.05χ2分布曲线,3.判断与决策,按照α=0.05的检验水准,拒绝H0,接受H1,两个总体有效率的差异有统计学意义专业结论 磁场疗法治疗腰部扭伤和腰肌劳损的治疗效果不相同4.CHISS软件实现,步骤如下:点击 数据→文件→打开数据库表→找到文件名:b10-1.DBF→确认。
2)进入统计模块:进行相应的统计计算,具体操作为点击 统计→统计推断→pearson卡方反应变量:有效、无效→期望频数→确认3)进入结果模块:点击 结果设计的讨论,治疗方法: 磁场疗法、针灸疗法、推拿按摩…疾病类型: 腰部扭伤、腰肌劳损、腰疼…观察结果:有效,无效,四格表χ2检验专用公式*,为了简化计算,可以由χ2检验的基本公式和一些相关公式推导出四格表专用公式式中a,b,c,d是指表10-1中所示,n为样本总例数四格表χ2检验应用条件,四格表χ2检验应根据实际频数和理论频数选取计算χ2统计量的公式,四格表χ2检验专用公式应用条件是样本总例数n≥40,且四个格子中的每个理论数Tij≥5三)χ2检验的连续性校正公式,在四格表中n≥40,但是有一个格子的理论数1≤Tij<5时,利用四格表χ2检验的专用公式计算出来的χ2统计量偏大,必须加以校正英国统计学家Yates 提出将实际频数与理论频数之差的绝对值减去0.5作连续性校正(correction for continuity),故连续性校正公式又称Yates校正(Yates’s correction)。
χ2检验连续性校正公式为,,四格表χ2检验连续性校正公式*,,,,例10-4 某医生用复合氨基酸胶囊治疗肝硬化病人,观察其对改善某实验室指标的效果,见表10-7问两组病人的改善及恢复正常率有无差别解 由于n=42>40,且有格子的理论数1












