您所在位置：网站首页 > 建筑/环境 > 建筑资料 > 卡方检验法

卡方检验法.docx

9页

卖家[上传人]：M****1

文档编号：555752787

上传时间：2024-02-21

文档格式：DOCX

文档大小：33.42KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15金贝

下载

/ 9 举报版权申诉马上下载

文本预览

下载提示

常见问题

第八章记数数据统计法一卡方检验法知识引入在各个研究领域中，有些研究问题只能划分为不同性质的类别，各类别没有量的联系例如，性别分男女，职业分为公务员、教师、工人、……，教师职称又分为教授、副教授、…… 有时虽有量的关系，因研究需要将其按一定的标准分为不同的类别，例如，学习成绩、能力水平、态度等都是连续数据，只是研究者依一定标准将其划分为优良中差，喜欢与不喜欢等少数几个等级对这些非连续等距性数据，要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法卡方检验是专用于解决计数数据统计分析的假设检验法本章主要介绍卡方检验的两个应用：拟合性检验和独立性检验拟合性检验是用于分析实际次数与理论次数是否相同，适用于单个因素分类的计数数据独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题在计数数据进行统计分析时要特别注意取样的代表性我们知道，统计分析就是依据样本所提供的信息，正确推论总体的情况在这一过程中，最根本的一环是确保样本的代表性及对实验的良好控制在心理与教育研究中，所搜集到的有些数据属于定性资料，它们常常是通过调查、访问或问卷获得，除了少数实验可以事先计划外，大部分收集数据的过程是难于控制的。

例如，某研究者关于某项教育措施的问卷调查，由于有一部分教师和学生对该项措施存有意见，或对问卷本身有偏见，根本就不填写问卷这样该研究所能收回的问卷只能代表一部分观点，所以它是一个有偏样本，若据此对总体进行推论，就会产生一定的偏差, 势必不能真实地反映出教师与学生对这项教育措施的意见因此应用计数资料进行统计推断时，要特别小心谨慎，防止样本的偏倚性，只有具有代表性的样本才能作出正确的推论第一节卡方拟合性检验一、卡方检验的一般问题卡方检验应用于计数数据的分析，对于总体的分布不作任何假设，因此它又是非参数检验法中的一种它由统计学家皮尔逊推导理论证明，实际观察次数（f°）与理论次数（fe），又称期望次数）之差的平方再除以理论次数所得的统计量，近似服从卡方分布，可表示为:这是卡方检验的原始公式，其中当fe越大（fe>5），近似得越好显然fo与fe相差越大，卡方值就越大；f与f相差越小，卡方值就越小；因此它能够用来表示f与f相差的程度 o e o e根据这个公式，可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异它主要应用于两种情况：卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题，这里的观测次数是根据样本数据得多的实计数，理论次数则是根据理论或经验得到的期望次数。

这一类检验称为拟合性检验拟合性检验的零假设是观测次数与理论次数之间无差异其中理论次数的计算一般是根据某种理论，按一定的概率通过样本即实际观测次数来计算这里所说的某种理论，可能是经验规律，也可能是理论分布确定理论次数是卡方检验的关键拟合性检验自由度的确定与两个因素有关：一是分类的项数，二是在计算理论次数时, 所用统计量或约束条件的个数，这两者之差即为自由度由于一般情况下，计算理论次数时只用到“总数”这一统计量，所以自由度一般是分类的项数减1但在对连续数据分布的配合度检验中，常常会用数据个数、平均数、标准差等统计量来计算理论次数，所以此时的自由度应从总分类项中减去更多的个数按照检验中理论次数的定义不同，拟合性检验有以下集中应用二、检验无差假设所谓无差假设，是指各项分类的实计数之间没有差异，也就是说各项分类之间的概率相等（均匀分布），因此理论次数完全按概率相等的条件来计算即任一项的理论次数都等于总数/分类项数因此自由度也就等于分类项数减1例1】随机地将麻将色子抛掷300次，检验该色子的六个面是否均匀结果1-6点向上的次数依次是，43, 49，56，45，66，41解：每个类的理论次数是300/6 = 50,代入公式：(43-50)3 | (49-50)3 〔 (56 - 50)3__5050 50__(45-50)2 (66-50)2 (41-50)2亠 5050+ 50因此，在0.05的显著性水平下，可以说这个色子的六面是均匀的。

例2】随机抽取60名高一学生，问他们文理要不要分科，回答赞成的39人，反对的21人，问对分科的意见是否有显著的差异解：如果没有显著的差异，则赞成与反对的各占一半，因此是一个无差假设的检验，于是理论次数为60/2=30，代入公式：(39-30)2__30__^(21-30) =所以对于文理分科，学生们的态度是有显著的差异的三、检验假设分布的概率这里的假设分布可以是经验性的，也可以是某理论分布公式中所需的理论次数则按照这里假设的分布进行计算例3】国际色觉障碍讨论会宣布，每12个男子中，有一个是先天性色盲从某校抽取的132名男生中有4人是色盲，问该校男子色盲比率与上述比例是否有显著差异？解：按国际色觉障碍讨论会的统计结果，132人应该有132/12=11人是色盲，剩下的121 人非色盲，代入公式有：因此，在0.05和显著性水平下，该校男子色盲比率与国际色觉障碍讨论会的统计结果有显著差异，显然根据比例可知该校的色盲率小于国际色觉障碍讨论会的统计结果例4】在英语四级考试中，某学生做对了 80个四择一选择题中的28题，现在要判断该生是否是完全凭猜测做题解:假如该生完全凭猜测做题，那么平均而言每道题做对的可能性是1/4,因此80个题中平均而能做对80/4=20题，代入公式有：因此，该生可能会做一些题。

四、连续变量分布的拟合性检验对于一组连续数据，经常需要对其次数分布究竟服从哪种理论分布进行探讨，这一方面的主要应用就是在前面经常所提到的总体正态性检验首先要将测量数据整理成次数分布表和画出次分布图，并据此选择恰当的理论分布这些理论分布是多种多样的，例如有正态分布、均匀分布等然后根据选择的理论分布计算出理论次数，就可以计算卡方统计量并进行显著性检验了若差异显著，说明所选择的理论分布不合适，可以再选一个理论分布进行检验，直至完全拟合当然有时也只需检验是否与某确定的理论分布相符，如正态性检验（参见教材有关内容）对连续随机变量分布的吻合性检验，关键的步骤是计算理论次数与确定自由度理论次数的计算是按所选理论分布规律，并利用观测数据的有关统计量来计算各分组（次数分布表中）理论次数自由度则是用分组数减去计算理论次数时所用统计量的数目这种拟合性检验计算较为繁琐，不做要求五、小理论次数时的连续性校正卡方检验中，当某分类理论次数小于5时，卡方统计量不能很好地满足卡方分布，此时需要对卡方统计量进行校正，称为卡方的连续性校正，其公式如下：z ；尽管采用此方法校正后，卡方统计量能较为接近卡方分布，不过我们仍然建议在实际中最好增大样本的容量，尽量减少出现这种不大服从理论分布的情况。

第二节独立性检验卡方检验还可以用于检验两个或两个以上因素（各有两项或以上的分类）之间是否相互影响的问题，这种检验称为独立性检验例如要讨论血型与性格的关系，血型有A、B、AB、 O四类，性格采用心理学上的A型性格来划分，即有A型和B型两种，每个人可能是它们之间交叉所形成的8种类型中的一种，那么倒底它们之间有不有关系，就可以用卡方独立性检验卡方独立性检验用于检验两个或两个以上因素（各有两项或以上的分类）之间是否相互影响的问题所谓独立，即无关联，互不影响，就意味着一个因素各个分类之间的比例关系, 在另一个因素的各项分类下都是相同的，比如在血型与性格关系中，如果A型性格人群中各血型的比例关系，与B型性格人群中各血型的比例关系相同，就可能说血型与性格相互独立，当然这里的“两者比例相同”在统计的意义下，应表述为“两比例差异不超过误差范围”，因为就算总体之间相互独立，收集到两个比例完全相同的样本的可能是很小很小的，甚至是不可能的相反，若一个因素各个分类之间的比例关系，在另一个因素的各项分类下是不同的，则它们之间相关假如A型性格中A型血的比例高于B型性格中A型血的比例，而且达到显著水平，那么就可以说血型与性格之间相关，不相互独立。

卡方独立性检验的零假设是各因素之间相互独立因此理论次数的计算也是基于这一假设，具体计算时，采用列联表的方式，后面将举例说明率働讲爾:【例1】某校对学生课外活动内容进行调查，结果整理成下表，表中彩色格子里的数是原始数据的汇总数，括号内的数是理论次数（是按下面将要介绍的原理计算得来的），此外的是原始数据性别（因素2）课外活动内容（因素1）小计和（fx）体育文娱阅读男生21(15.3)11(10.2)23(29.5)55女生6(11.7)7(7.8)29(22.5)42小计和（fy）27185297由于所有学生参加三项活动的比例是27:18:52,因此如果课外活动的选择与性别没有关系的话，男女生参加这三项活动的比例也应是这同一比例，而男女各自的人数可以计算，所以每格内的理论次数的计算方法如下：男生中参加体育活动的理论人数：55x27/97=15.3参加文娱活动的理论人数：55x18/97=10.2参加阅读活动的理论人数：55x52/97=29.5女生中参加体育活动的理论人数：42x27/97=11.7参加文娱活动的理论人数：42x18/97= 7.8参加阅读活动的理论人数：42x52/97=22.5我们将行列的小计和分别用fx和fy来表示，总人数用N来表示时，上述计算理论x y 次数的方法可以表示为：fe.. = fx.x fy./N ij i 〕所以，卡方独立性检验的公式可以表示如下，其中最后一个式子比较便于计算,fxy表示每格的原始数据。

由于在计算理论次数时，用了按每个因素分类的小计和（X和fy,其个数分别记为R 个和C个），和总和N，而总和又可由按每个因素分类的小计和计算得来，因此若从总分类个数RxC中减去R+C,贝9将总和重复减去了，因此要补1个自由度回来，所以最终独立性检验的自由度表示为：= + 〔氏一1）（护一1）上述例题最终计算得:(21-15.303 (11-10.2)' C23-29.5)3= -I- + 15.3 10.2 29.5(6-11.7)2 (7-7.S)2 (29-2S.5)3iT?78=8.3552或者:1 =23217Z 2f 1? 2^ 住 72 29s瓦厉十亦茂十莎亘十亦N十亦茂十亦反这两个公式的计算结果有一点点差异，这完全是计算误差即四舍五入引起的df = （3-1）（2-1） = 2,而X0o5（2） = 5.99，所以在0.05的显著性水平下，拒绝零假设，即可以认为性别与课外活动内容有关联，或者说男女生在选择课外活动上存在显著的差异四格表独立性检验对于两个都只作两项分类的因素，它们的数据整理成的是一个2x2的表格，一般称为四格表，对于四格表教材里给出了一个更简洁的公式：2 _ ”（盟_ bd）2"（a +b\c + 出）® + 上）@ + d）公式中，a、b、c、d的规定要求是a和d必须呈对角线。

该公式的含义非常明确，即当对角线单元格中的次数差异越大时，卡方检验越容易显著，自然也就意味着两变量间的关联越密切掌握了一般的R*C表计算后，四格表计算相对简单地多这里不再展开注意，在独立性检验中，同样存在某格的理论次数小于等于5的问题，如同。

点击阅读更多内容