
高考数学 文二轮复习教师用书:第1部分 重点强化专题 专题3 突破点8 独立性检验与回归分析 Word版含答案.doc
14页突破点8 独立性检验与回归分析[核心知识提炼]提炼1 变量的相关性(1)正相关:在散点图中,点散布在从左下角到右上角的区域.(2)负相关:在散点图中,点散布在从左上角到右下角的区域.(3)相关系数r:当r>0时,两变量正相关;当r<0时,两变量负相关;当|r|≤1且|r|越接近于1,相关程度越高,当|r|≤1且|r|越接近于0,相关程度越低.提炼2 线性回归方程方程=x+称为线性回归方程,其中=,=-.回归直线恒过样本中心(,).提炼3 独立性检验(1)确定分类变量,获取样本频数,得到2×2列联表.(2)求观测值:k=.(3)根据临界值表,作出正确判断.如果k≥kα,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”.[高考真题回访]回访1 变量的相关性1.(20xx·全国卷Ⅱ)根据下面给出的2004年至我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图81A.逐年比较,减少二氧化硫排放量的效果最显著B.我国治理二氧化硫排放显现成效C.以来我国二氧化硫年排放量呈减少趋势D.以来我国二氧化硫年排放量与年份正相关D [对于A选项,由图知从到二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由到矩形高度明显下降,因此B正确.对于C选项,由图知从以后除稍有上升外,其余年份都是逐年下降的,所以C正确.由图知以来我国二氧化硫年排放量与年份负相关,故选D.]2.(20xx·全国卷)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )A.-1 B.0 C. D.1D [样本点都在直线上时,其数据的估计值与真实值是相等的,即yi=i,代入相关系数公式r==1.]3.(20xx·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(xi,yi)(i=1,2,…,n)的相关系数r=[解] (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数r=≈≈-0.18. 2分由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小. 4分(2)(ⅰ)由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查. 6分(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02. 8分x≈16×0.2122+16×9.972≈1 591.134, 10分剔除第13个数据,剩下数据的样本方差为(1 591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09. 12分回访2 独立性检验4.(20xx·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下: 图82(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:P(K2≥k0)0.0500.0100.001k03.8416.63510.828K2=.[解] (1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62. 3分(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg旧养殖法6238新养殖法34665分K2的观测值k=≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. 8分(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法. 12分热点题型1 回归分析题型分析:高考命题常以实际生活为背景,重在考查回归分析中散点图的作用、回归方程的求法和应用,难度中等.【例1】 在一次抽样调查中测得样本的5组数据,得到一个变量y关于x的回归方程模型,其对应的数值如下表:x0.250.5124y1612521(1)试作出散点图,根据散点图判断,y=a+bx与y=+m哪一个适宜作为变量y关于x的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立变量y关于x的回归方程;(3)根据(2)中所求的变量y关于x的回归方程预测:当x=3时,对应的y值为多少?(保留四位有效数字)[解] (1)作出变量y与x之间的散点图,如图所示,2分由图可知变量y与x近似地呈反比例函数关系,那么y=+m适宜作为变量y关于x的回归方程模型. 4分(2)由(1)知y=+m适宜作为变量y关于x的回归方程模型,令t=,则y=kt+m,由y与x的数据表可得y与t的数据表如下:t4210.50.25y16125216分作出y与t的散点图,如图所示.8分由图可知y与t近似地呈线性相关关系.又=1.55,=7.2,iyi=94.25,=21.312 5,所以k==≈4.134 4,m=-k=7.2-4.134 4×1.55≈0.8,所以y=4.134 4t+0.8,所以y关于x的回归方程为y=+0.8. 10分(3)由(2)得y关于x的回归方程是y=+0.8,当x=3时,可得y=+0.8≈2.178. 12分[方法指津]1.正确理解计算,的公式和准确的计算,是求线性回归方程的关键.其中回归直线必过样本中心(,).2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.[变式训练1] 二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:使用年数x234567售价y201286.44.43z=ln y3.002.482.081.861.481.10下面是z关于x的折线图:图83(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;(2)求y关于x的回归方程,并预测某辆A型号二手车当使用年数为9年时售价约为多少;(,小数点后保留两位数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.参考公式:==,=- ,r=.参考数据:xiyi=187.4,xizi=47.64,x=139,=4.18,=13.96,=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34. 【导学号:04024080】[解] (1)由题意,知=×(2+3+4+5+6+7)=4.5, 1分=×(3.00+2.48+2.08+1.86+1.48+1.10)=2, 2分又xizi=47.64,=4.18,=1.53,∴r==-≈-0.99,∴z与x的相关系数大约为-0.99,说明z与x的线性相关程度很高. 4分(2)==-≈-0.36, 5分∴=- =2+0.36×4.5=3.62,∴z与x的线性回归方程是=-0.36x+3.62, 6分又z=ln y,∴y关于x的回归方程是=e-0.36x+3.62. 7分令x=9,得=e-0.36×9+3.62=e0.38,∵ln 1.46≈0.38,∴=1.46,即预测某辆A型号二手车当使用年数为9年时售价约为1.46万元. 8分(3)当≥0.711 8,即e-0.36x+3.62≥0.711 8=eln 0.711 8=e-0.34时,则有-0.36x+3.62≥-0.34,解得x≤11,因此,预测在收购该型号二手车时车辆的使用年数不得超过11年. 12分热点题型2 独立性检验题型分析:尽管全国卷Ⅰ在近几年未在该点命题,但其极易与分层抽样、古典概型等知识交汇,是潜在的命题点之一,需引起足够的重视.【例2】 (20xx·长沙二模)某学校的特长班有50名学生,其中有体育生20名,艺术生30名,在学校组织的一次体检中,该班所有学生进行了心率测试,心率全部介于50次/分到75次/分之间,现将数据分成五组,第一组[50,55),第二组[55,60),……,第五组[70,75],按上述分组方法得到的频率分布直方图如图84所示,已知图中从左到右的前三组的频率之比为a∶4∶10.图84(1)求a的值,并求这50名学生心率的平均值;(2)因为学习专业的原因,体育生常年进行系统的身体锻炼,艺术生则很少进行系统的身体锻炼,若从第一组和第二组的学生中随机抽取1名,该学生是体育生的概率为0.8,请将下面的列联表补充完整,并判断是否有99.5%的把握认为心率小于60次/分与常年进行系统的身体锻炼有关?说明你的理由.心率小于60次/分心率不小于60次/分合计体育生20艺术生30合计50参考数据:P(K2≥k0。












