
张文彤-SPSS-第12节-卡方分析.doc
7页卡方检验•-两个定性变U:之间的关系 成组的x 2检验是用途很广的一种假设检验方法,主要用于分类资料统计推断,包括:两个率或两个构成 比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等 它最基本的无效假设是:H0:观察频数与期望频数没有差别其原理为考察基于H0的理论频数分布和实际频数分布间的差异大小,据此求出相应的P值例在CCSS的分析报告中,所有受访家庭会按照家庭年收入被分为低收入家庭和中岛收入家庭 两类,现希望考察不同收入级别的家庭其轿车拥有率是否相同方法原理Trc理论频数基于HO成立,两样本所在总体无差别的前提下计算出各单元格的理论频数来在该例中,我们做出描述统计分析,发现低收入家庭中335户中有32户拥有轿车,所占比 为9.6%;高收入家庭中654户中有255户拥有轿车所占比为34.5%那么问题来了,这种差 距是抽样误差造成的呢?还是这两群体所拥有的轿车确是不一样的?为了解决这一问题,我们通过卡方检验來验证H0:造成两个群体轿车拥有率的不同是抽样误差(观察频数与期望频数没有差异)首先,先假设H0成立一一然后检验相应的“单元格”的频数方法原理 残差没A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差被称为残差 残差可以表示某一个类别观察值和理论伉的偏离程度,但残差有正有负,相加后会彼此抵消, 总和仍然为0。
为此可以将残差平方后求和,以表示样本总的偏离无效假设的程度 另一方面,残差大小是一个相对的概念,相对于期望频数力10时,20的残差非常大;可相 对于期望频数为1000时20就很小了因此又将残差平方除以期望频数再求和,以标准化观 察频数与期望频数的差别这就是我们所说的卡方统计量,在1900年由英国统计学家Pearson首次提出,其公式为:y2 (^-)乂 EE:女(八-np)2i=i "A(i=l,2,3,…k)方法原理 从卡方的计算公式可见,当观察频数与期望频数完全一致吋,卡方值为0; 观察频数与期望频数越按近,两者之间的差异越小,卡方值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,卡方值越大 当然,卡方值的大小也和自巾度有关卡方分布chi-squareSpss中的操作操作:分析一一描述性统计一一交叉表一一(将分类变量选入行,将因变量选入列在单元 格中选择“观察值、期望值、残差中的为标准化”:在统计量中选择卡方)表格解读:*交叉表格个本姑塊俩要个窠有效总计字:tt字•i家確收人2级*01.有家用轿98986.2%15813.8%1147100.0%家庇收人2级• 01.焐否湘/丫家用交叉我01. L : :: •总计有没有孓好收人2级Below 48.000计败32303335ffl期计tt87.1247.9335.0-55.155.1Over 48,000计败225429654預期计教169.9484.1654.0残差55.1-55.1总计计教257732989r257.0732.0989.0第二张表格,低收入组中轿车拥有的期望值为87.1 (与实际存在差异),髙收入组中轿车拥 有的期望值为169.9 (与实际存在差异)期望值怎么来?低收入家庭的轿车拥有期望值=低收入家庭总数x总的轿车拥有率(实际值或叫观察值=32, 期望值=87.1)同理低收入家庭的轿车拥有期望值=高收入家庭总数x总的轿车拥有率期望值一实际值=残差(残差可表示一个类别观察值和理论值得偏离程度)卡方检验供自由KI!,• …(双向)(单向)皮衣逊k 171.134*1.000it餓正b69.8481.000W然比(L)80.1461.000Fisher MMtfttt.000.000汝1关联71.0621.000GA个案tt989a 0 :• •; (0.0%) UO:棚期计败少于5 • 小測H什教为87.05b.仗为2x2表格计算(个人收获:当只是知道描述统计吋我们不能轻易下结论,要通过推断统计来得山结论 也就是说,当只看到表明现象时不要轻易下结论,下结论要有根据,科学研宄的严谨在此体 现)输出结果分析第1行:Pearson卡方卡方伉为71.134自巾度为l,p值为0.000巾卡方检验表的p值推断,拒绝H0接受H1,认为在两类家庭中轿车拥有率是存在显著差异, 又由描述统计得出,高收入家庭的轿车拥有率更高。
第2行:连续校正四格表卡方值的校正上图中上标a: 0个单元格(0.00%)具有的预期计数少于5,最小预期计数为87.05对上标a的解读:此为卡方检验的适用条件分析统计学家Yates认为,卡方分布是一种连续型分布,而四格表资料是分类资料,属离散型分 布,由此计算的卡方值英国的抽样分布也应当是不连续的,当样本S较小时,两者间的差异 不可忽略,应进行连续性校正(在每个单元格的残差中都减去0.5)需要校正的条件若n>40 ,此时有1
实际的做法一律向下看齐(直接看确切概率法)配对卡方检验分析实例某公司期望扩展业务,增开儿家分店,但对开店地址不太确定于是选了 20个地址,请两 位资深顾问分别对20个地址作了一个评价,把它们评为好、中、差三个等级,以便确定应 对哪些地址进行更进一步凋查,那么这两位资深顾问的评价结果是否一致?如果不一致我们 需要进一步询问他们各用什么标准一致性分析:Kappa统计量(解决的问题:两者评价之间有没有关联?)使用的是Kappa统il•量,表中:后一列为P值 该指标的H0:两者没有任何一致性H1:两者是存在关联的(关联强弱看Kappa值)偵上次谈取的1*1.欠夂 蒼注嗖 5R Kappa(K)有效个案.42920.1313.333.001a没有空《设•b.使用渐近什准定空•此例中,Kappa值为0.429,p值为0.001,因此我们需要拒绝H0接受H1,由此说明,两者 评价是存在关联的,但一致性程度较小,关联不强巾此,下一步的工作需要进一步询问, 评价者的评价标准,然后选择合适的评价标准)第二问题,这两者的关联程度较小,这就需要看他们各自的评价到底是怎.么样的,是否其 中一个是往差了评,而另一个往好了评。
方法原理显然,本例对同一个个体有两次不同的测景,从设计的角度上讲可以被理解为ft身配对设计 按照配对设计的思路进行分析,则首先应当求出各对的差值,然后考察样本中差值的分布是 否按照H0假设的情况对称分布按此分析思路,最终可整理出如前所列的配对交叉表注意主对角线上两种检验方法的结论相同,对问题的解答不会有任何贡献非主对角线上的单元格才代表了检验方法间的差异假设检验步骤如下(以四格表为例):HO: B = CHl: B #C睐网一的i利介《仰二的i播交又农(b - c)2b + cittt棚闷二的评价总计好W问一的评价差6006中5229好1045总计122620根据得b、c两格的理论数均为rb=re=(b+c)/2,对应的配对检验统计呈为:一般在b + c<40时,需用确切概率法进行检验,或者进行校正配对卡方统计量:McNemar (M)(解决的问题:有没有存在评价偏向?)卡方检验自由度(3 向)McNemar-Bowker 松骀有效个窠tt8.000203.046H0:两专家评价的倾向性都是一致的(没有谁会往好里评)卡方值为8, p值为0.046,由此拒绝HO选择H1,两者还是有差异的,从“顾问一的评价* 顾问二的评价交叉制表”中可以看出来,顾问一更倾向于往好里评。
分层卡方检验进一步控制城市的影响,在控制城市影响的前提下得到更准确的家庭收入分级和轿车拥有情 况的关联程度测量指标各个城市拥有轿车的基础是不一样的,是否在城市和城市之间存 在差别呢?)层间差异的检验条件独立性的检验比ffl比齐tfe的捡验卡方自由度(3K 向)Breslow-Day6.1652.046raronefs6.1612.046条件独ft性的松骀卡方自由n渐近S皆注 (双向)Cochran’s72.3971.000Uantel-Haenszel70.8791.000f条件独立性假定卜• •只有在层败因::• f: Mantel- Haenszel 汗: ☆终漸: 1 df •; > ;竹卜 Cochran J 渐近 1 df & . i 叫•價期之叫的期i合计为0 BJ •枓认Mantel-Haenszel nit息中卸F连级校正*Mantel-Haenszel公共比ffi比仿母fA算.195In (ftW)-1.636政隹In的《误(佐算).206近显羚注(双向).000析近95%賞估K问公:值比下限ffi.130上限.292m(公共比(fi比)下限ffi•2.040上限-1.232Mantel-Haenszel iJMt值比估算以渐近 J: • "i f1.000假定的公共比值比之下算也是如此,第1张表:P值大于0.05才看下一张表H03个城市的轿车拥有率的(分层)差异是一致的第2张表:校正掉基础的水平区别之后得到一个校正的卡方检验结果,在考虑了分层因素之 后,看是否还有关联。
H0:去掉分层因素之后无关联 第3张表:风险性0.195,考虑分层因素之后,可知高收入组的轿车拥有率是低收入组的5倍(0.195的倒数)。









![2019版 人教版 高中语文 必修 上册《第一单元》大单元整体教学设计[2020课标]](http://img.jinchutou.com/static_www/Images/s.gif)


