8.3 分类变量与列联表 导学案.docx
17页8.3 分类变量与列联表 1.通过对典型案例的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.2.通过对数据的收集、整理和分析,增强学生的社会实践能力,培养学生分析问题、解决问题的能力.重点:了解独立性检验(只要求2×2列联表)的应用. 难点:独立性检验(只要求2×2列联表)的基本思想、方法1. 分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.2. 2×2列联表表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的频数;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个数a,b,c,d是事件{X=x,Y=y}(x, y=0,1)的频数;右下角格中的数n是样本容量XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d3.两个分类变量之间关联关系的定性分析的方法:(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中aa+b与cc+d值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变 量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.4.独立性检验公式及定义: 提出零假设(原假设)H0:分类变量X和Y独立,假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,在列联表中,如果零假设H0成立,则应满足aa+b≈cc+d,即ad-bc≈0.因此|ad−bc|越小,说明两个分类变量之间关系越弱;|ad−bc|越大,说明两个分类变量之间关系越强.为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d5.临界值的定义:对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准,概率值α越小,临界值xα越大.基于小概率值α的检验规则:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2 这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.χ2独立性检验中几个常用的小概率值和相应的临界值α0.10.050.010.0050.001xα2.7063.8416.6357.87910.858一、 问题探究 前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义. 在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案 在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于{0,1}的分类变量的关联性问题.问题1. 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。 你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?二、典例解析例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788问题2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的? 问题3:如何基于②中的四个等式及列联表中的数据,构造适当的统计量,对成对分类变量X和Y是否相互独立作出推断?问题4:那么,究竟χ2大到什么程度,可以推断H0不成立呢?或者说,怎样确定判断χ2大小的标准呢? 例2:依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?问题5.例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?例3.某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.问题6.若对调两种疗法的位置或对调两种疗效的位置,这样做会影响χ2取值的计算结果吗?例4.为了调查吸烟是否对肺癌有影响,某肿瘤研究所采取有放回简单随机抽样,调查了9965人,得到如下结果(单位:人)依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险。 吸烟肺癌合计非肺癌患者肺癌患者非吸烟者7775427817吸烟者2099492148合计9874919965应用独立性检验解决实际问题大致应包括以下几个主要环节:(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.注意:上述几个环节的内容可以根据不同情况进行调整,例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.P(χ2≥x0)0.500.400.250.150.100.050.0250.0100.0050.001x00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828归纳总结跟踪训练1.某校对学生的课外活动进行调查,结果整理成下表:体育文娱总计男生212344女生62935总计275279试用你所学过的知识分析:能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?1.给出下列实际问题:①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有( )A.①②③ B.②④⑤ C.②③④⑤ D.①②③④⑤2.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:下列叙述中,正确的是( ) 认为作业多认为作业不多总数喜欢玩电脑游戏18927不喜欢玩电脑游戏81523总数262450A.有99%的把握认为“喜欢玩电脑游戏与认为作业量的多少有关系”B.有95%的把握认为“喜欢玩电脑游戏与认为作业量的多少无关系”C.有99%的把握认为“喜欢玩电脑游戏与认为作业量的多少无关系”D.有95%的把握认为“喜欢玩电脑游戏与认为作业量的多少有关系”3.某高校《统计》课程的教师随机调查了选该课的一些学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到 专业性别 非统计专业统计专业男1310女720因为4.844>3.841,所以有 的把握判定主修统计专业与性别有关系. 4.在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示。 问:该种血清能否起到预防感冒的作用?未感冒感冒合计使用血清258242500未使用血清216284500合计47452610005.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康情况,得到2×2列联表如下: 室外工作室内工作总计有呼吸系统疾病150 无呼吸系统疾病 100 总 计200 (1)补全2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为感染呼吸系统疾病与工作场所有关?(3)现采用分层抽样从室内工作的居民中抽取一个容量为6的样本,将该样本看成一个总体,从中随机地抽取两人,求两人都有呼吸系统疾病的概率.参考答案:知识梳理学习过程一、 问题探究问题1. 这是一个简单的统计问题,最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,为了方便,我们设f0=经常锻炼的女生数女生总数, f1=经常锻炼的男生数男生总数那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到f0=331523≈0.633, f1=473601≈0.787.由f1-f0 ≈ 0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.所以该校的女生和男生在体育锻等的经常性方面有差异,而且男生更经常锻炼. 用n表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以n为样本空间。

卡西欧5800p使用说明书资料.ppt
锂金属电池界面稳定化-全面剖析.docx
SG3525斩控式单相交流调压电路设计要点.doc
话剧《枕头人》剧本.docx
重视家风建设全面从严治党治家应成为领导干部必修课PPT模板.pptx
黄渤海区拖网渔具综合调查分析.docx
2024年一级造价工程师考试《建设工程技术与计量(交通运输工程)-公路篇》真题及答案.docx
【课件】Unit+3+Reading+and+Thinking公开课课件人教版(2019)必修第一册.pptx
嵌入式软件开发流程566841551.doc
生命密码PPT课件.ppt
爱与责任-师德之魂.ppt
制冷空调装置自动控制技术讲义.ppt


