好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

2024年新高考数学一轮复习专题18 统计与成对数据的统计分析(解析版).docx

25页
  • 卖家[上传人]:刚**
  • 文档编号:371491912
  • 上传时间:2023-12-06
  • 文档格式:DOCX
  • 文档大小:1.31MB
  • / 25 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 专题18 统计与成对数据的统计分析一、知识速览二、考点速览知识点1 随机抽样1、抽样调查(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.(2)个体:构成总体的每一个元素叫做个体.(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.2、简单随机抽样(1)定义:一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.(2)两种常用的简单随机抽样方法①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.适用于总体个数较少的情况②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.适用于总体个数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.(3)简单随机抽样的特征(只有四个特点都满足的抽样才是简单随机抽样)①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.3、分层抽样(1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.分层抽样适用于已知总体是由差异明显的几部分组成的.(2)分层抽样问题类型及解题思路①求某层应抽个体数量:按该层所占总体的比例计算.②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==”【注意】分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取()个个体(其中是层数,是抽取的样本容量,是第层中个体的个数,是总体容量).知识点2 用样本估计总体1、频率分布直方图(1)频率、频数、样本容量的计算方法①×组距=频率.②=频率,=样本容量,样本容量×频率=频数.③频率分布直方图中各个小方形的面积总和等于.(2)频率分布直方图中数字特征的计算①最高的小长方形底边中点的横坐标即是众数.②中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出.③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积.2、百分位数(1)定义:一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.(2)计算一组个数据的的第百分位数的步骤①按从小到大排列原始数据.②计算.③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.(3)四分位数:我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.3、样本的数字特征(1)众数、中位数、平均数①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.③平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.(2)标准差和方差①标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差.②方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.【注意】标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.③平均数、方差的性质:如果数据的平均数为,方差为,那么一组新数据的平均数为,方差是.一新数据的平均数为,方差是.一组新数据的平均数为,方差是.知识点3 成对数据的统计分析1、两个变量的线性相关(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2、回归分析与回归方程(1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(3)回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为其中,,,(,)称为样本点的中心.(3)相关系数若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.①当时,表示两个变量正相关;当时,表示两个变量负相关.②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存性相关关系.当时,所有数据点都在一条直线上.③通常当时,认为两个变量具有很强的线性相关关系.3、残差分析对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数:用相关指数来刻画回归的效果,其计算公式是:.越接近于,说明残差的平方和越小,也表示回归的效果越好.4、独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表:假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表总计总计(3)独立性检验:计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.0.100.050.0100.0050.0012.7063.8416.6357.87910.828一、应用随机数法的两个关键点1、确定以表中的哪个数(哪行哪列)为起点,以哪个方向为读数的方向;2、读数时注意结合编号特点进行读取.若编号为两位数字,则两位两位地读取;若编号为三位数字,则三位三位地读取,有超过总体号码或出现重复号码的数字舍去,这样继续下去,直到获取整个样本.【典例1】(2023·宁夏银川·银川一中校考一模)对件样品进行编号,,,,在如下随机数表中,指定从第行第列开始,从左往右抽取两个数字,抽取个编号,则抽到的第个编号是( )                              A. B. C. D.【答案】D【解析】自第行第列开始,第一个编号为,去除编号不在的号码和重复号码,依次抽取的个编号为:,则抽到的第个编号为.故选:D.【典例2】(2023上·上海·高三控江中学校考阶段练习)总体由编号为、、、、的个个体组成,利用随机数表从中抽取个个体,下面提供随机数表的第行到第行:若从表中第行第列开始向右依次读取,则抽取的第个个体的编号是 .【答案】【解析】由题意,结合随机数表法可知,从中抽取个个体的编号依次为:、、、、,故答案为:.二、解决分层抽样的常用公式先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽取的个体数.(1)抽样比==;(2)层1的容量∶层2的容量∶层3的容量=样本中层1的容量∶样本中层2的容量∶样本中层3的容量.【典例1】(2023上·湖北武汉·高三武钢三中校考阶段练习)某企业为了解员工身体健康情况,采用分层随机抽样的方法从该企业的营销部门和研发部门抽取部分员工体检.已知该企业营销部门和研发部门的员工人数之比是,且被抽到参加体检的员工中,营销部门的人数比研发部门的人数多72,则参加体检的人数是( )A.90 B.96 C.108 D.144【答案】C【解析】设参加体检的人数有人,则,解得,即参加体检的人数是人.故选:C.【典例2】(2023·山东潍坊·统考模拟预测)某高中学校共有学生3600人,为了解某次数学文化知识竞赛的得分情况,采用分层抽样的方法从这3600名学生中抽取一个容量为48的样本,若从高一、高二、高三抽取的人数组成一个以4为公差的等差数列,则该学校高三年级的学生人数为 人.【答案】1500【解析】设从高二抽取的人数为,则高一抽取的人数为,高三抽取的人数为.所以,解得,所以高三年级抽取了20人,由分层抽样的概念可知高三年级的学生人数为:.故答案为:1500.三、频率分布直方图的计算1、由频率分布直方图进行相关计算需掌握的2个关系式(1)×组距=频率.(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.2、利用频率分布直方图估计样本的数字特征的方法(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.(3)众数:最高的矩形的中点的横坐标.【典例1】(2023上·贵州黔东南·高三天柱民族中学校联考阶段练习)(多选)某工厂为了了解一批产品的质量,从中随机抽取了100件产品测量其长度,所得数据都在区间中,其频率分布直方图如图所示,则( )A.B.估计产品长度的样本数据的分位数是C.估计产品长度的样本数据的众数是D.估计产品长度的样本数据的平均数是【答案】ABC【解析】对选项A:,解得,正确;对选项B:长度在以下的比例为,长度在以下的比例为,故分位数位于内,设为,则,解得,正确;对选项C:产品长度的样本数据的众数是,正确;对选项D:平均数为,错误.故选:ABC.【典例2】(2023上·云南昆明·高。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.