
【好教育】2016-2017学年高一人教a版数学必修三:第二章统计复习+练习word版含答案.doc
9页第二章第二章 统计统计一、随机抽样一、随机抽样1.简单随机抽样设一个总体的个数为 N,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.(1)抽签法制签→抽签→成样抽签法简便易行,当总体的个体数不多时,适宜采用这种方法.(2)随机数表法编号→数数→成样结论:①用简单随机抽样,从含有 N 个个体的总体中抽取一个容量为的样本时,每次抽取一个n个体时任一个体被抽到的概率为;在整个抽样过程中各个个体被抽到的概率为;N1 Nn②基于此,简单随机抽样体现了抽样的客观性与公平性;③简单随机抽样的特点:它是不放回抽样;它是逐个地进行抽取;它是一种等概率抽样.2.系统抽样当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先制定的规则,从每一部分抽取 1 个个体,得到所需的样本,这种抽样叫做系统抽样(也称为机械抽样) .系统抽样的步骤可概括为:系统抽样的步骤可概括为:编号→分段→确定起始的个体编号→抽取样本按照先确定的规则(常将 加上间隔)抽取样本:.lkknlklkll) 1(,,2,, 3.分层抽样当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫做层.结论:(1)分层抽样是等概率抽样,它也是公平的.用分层抽样从个体数为 N 的总体中抽取一个容量为的样本时,在整个抽样过程中每个个体被抽到的概率相等,都等于;nNn(2)分层抽样是建立在简单随机抽样或系统抽样的基础上的,由于它充分利用了已知信息,因此利用它获取的样本更具有代表性,在实践的应用更为广泛.例 1 在简单随机抽样中,某一个个体被抽中的可能性( ).A.与第几次抽样无关,第一次抽中的可能性要大些B.与第几次抽样无关,每次抽中的可能性都相等C.与第几次抽样有关,最后一次抽中的可能性要大些D.每个个体被抽中的可能性无法确定答案答案::B解析解析::在简单随机抽样中,每一个个体被抽中的可能性都相等,与第几次抽样无关.例 2 假设要抽查某种品牌的 850 颗种子的发芽率,抽取 60 颗进行实验.利用随机数表抽取种子时,先将 850 颗种子按 001,002,…,850 进行编号,如果从随机数表第 8 行第 2 列的数 3 开始向右读,请你依次写出最先检测的 4 颗种子的编号________.(下面摘取了随机数表第 7 行至第 9 行)84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 7663 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 7933 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54答案答案::301,637,169,555解析解析::第 8 行第 2 列的数 3 开始向右读第一个小于 850 的数字是 301,第二个数字是 637,也符合题意,第三个数字是 859,大于 850,舍去,第四个数字是 169,符合题意,第五个数字是 555,符合题意,故答案为:301,637,169,555.例 3 某单位有 840 名职工,现采用系统抽样方法,抽取 42 人做问卷调查,将 840 人按1,2,…,840 随机编号,则抽取的 42 人中,编号落入区间[481,720]的人数为( ).A.11B.12C.13D.14答案答案::B解析解析::根据系统抽样的等可能性可知,每人入选的可能性都是,由题设可知区间42840[481,720]的人数为 240,所以编号落入区间[481,720]的人数为×240=12.42840例 4 某单位 200 名职工的年龄分布情况如图所示,现要从中抽取 40 名职工作样本,用系统抽样法,将全体职工随机按 1~200 编号,并按编号顺序平均分为 40 组(1~5 号,6~10号…,196~200 号).若第 5 组抽出的号码为 22,则第 8 组抽出的号码应是________.若用分层抽样方法,则 40 岁以下年龄段应抽取________人.答案答案::37 20解析解析::由分组可知,抽号的间隔为 5,又因为第 5 组抽出的号码为 22,所以第 8 组抽出的号码为 22+(8-5)×5=37.二、用样本估计总体二、用样本估计总体1.频率分布的概念:频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布.其一般步骤为:(1)计算一组数据中最大值与最小值的差,即求极差;(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.2.茎叶图制作方法:将所有两位数的十位数字作为茎茎,个位数字作为叶叶,茎相同者共用一个茎,茎按从小到大从小到大的顺序从上向下列出,共茎的叶可以按从大到小从大到小(或从小到大)的顺序同行列出(也可以没有大小顺序).3.众数、中位数、平均数(1)众数:一组数据中出现次数最多的数称为这组数据的众数.一组数据中的众数可能不止一个,反映了该组数据的集中程度.(2)中位数:一组数据按从小到大的顺序排成一列,处于中间位置的数称为这组数据的中位数.一组数据中的中位数是唯一的,反映了该组数据的集中趋势.在频率分布直方图中,中位数左边和右边的直方图的面积相等.(3)平均数:一组数据的和与这组数据的个数的商.数据 x1,x2,…,xn的平均数为n=x1+x2+…+xn n.x4.方差、标准差(1)方差 s2= ,描述一组数据围绕平均数波动程度的大小.(2)标准差 s=1 n[x1-x2+x 2-x2+…+x n-x2].若数据组 x1,x2,…,xn的平均数为 ,方差为 s2,标准差为 s,则数据组xax1+b,ax2+b,…,axn+b(a,b 为常数)的平均数为 a +b,方差为 a2s2,标准差为 as.x例 1 在某电脑杂志的一篇文章中,每个句子的字数如下10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,24,27,17.在某报纸的一篇文章中,每个句子的字数如下:27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22.(1)画出两组数据的茎叶图;(2)比较分析两组数据,能得出什么结论?解解:(1)依题意,画出茎叶图如下图所示(2)电脑杂志文章中每个句子的字数集中在 10~30 之间,中位数为 22.5,而报纸文章中每个句子的字数集中在 20~40 之间,中位数为 27.5.还可以看出,电脑杂志上每个句子的平均字数比报纸上每个句子的平均字数要少.这与电脑杂志作为科普读物需要简明、通俗易懂的要求相吻合.例 2 对某校高三年级学生参加社区服务次数进行统计,随机抽取 M 名学生作为样本,得到这 M 名学生参加社区服务的次数,根据此数据作出了频数与频率的统计表和频率分布直方图如图所示.分组频数频率(1)求出表中 M,p 及图中 a 的值;(2)若该校高三学生有 240 人,试估计该校高三学生参加社区服务的次数在区间[10,15)内的人数;(3)估计这次学生参加社区服务人数的众数、中位数以及平均数.解解:(1)由分组[10,15)内的频数是 10,频率是 0.25,知=0.25,所以 M=40.10M因为频数之和为 40,所以 10+24+m+2=40,m=4,p===0.10.mM440因为 a 是对应分组[15,20)的频率与组距的商,所以 a==0.12.2440 × 5(2)因为该校高三学生有 240 人,分组在[10,15)内的频率是 0.25.所以估计该校高三学生参加社区服务的次数在此区间内的人数为 60.(3)估计这次学生参加社区服务人数的众数是=17.5,15+202因为 n==0.6,a=n÷5=0.12,所以样本中位数是 15+≈17.1,24400.5-0.25a估计这次学生参加社区服务人数的中位数是 17.1,样本平均人数是 12.5×0.25+17.5×0.6+22.5×0.1+27.5×0.05=17.25,估计这次学生参加社区服务人数的平均数是 17.25.例 3 某班级有 50 名学生,其中有 30 名男生和 20 名女生.随机询问了该班五名男生和五名女生在某次数学测验中的成绩,五名男生的成绩分别为 86,94,88,92,90,五名女生的成绩分别为 88,93,93,88,93.下列说法一定正确的是( ).A.这种抽样方法是一种分层抽样B.这种抽样方法是一种系统抽样C.这五名男生成绩的方差大于这五名女生成绩的方差D.该班男生成绩的平均数小于该班女生成绩的平均数[10,15)100.25[15,20)24n[20,25)mp[25,30]20.05合计M1答案答案:C解析解析:若抽样方法是分层抽样,男生、女生应分别抽取 6 人、4 人,所以 A 错;由题目看不出是系统抽样,所以 B 错;这五名男生成绩的平均数1==90,x86+94+88+92+905这五名女生成绩的平均数2==91,故这五名男生成绩的方差为x88+93+93+88+935[(86-90)2+(94-90)2+(88-90)2+(92-90)2+(90-90)2]=8,这五名女生成绩的方差为15[(88-91)2×2+(93-91)2×3]=6,所以这五名男生成绩的方差大于这五名女生成绩的方差,15但该班男生成绩的平均数不一定小于女生成绩的平均数,所以 D 错.三、频率分布折线图、总体密度曲线三、频率分布折线图、总体密度曲线1.频率分布折线图定义:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.2.总体密度曲线定义:在样本频率分布直方图中,随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.它能够精确地反映总体在各个范围内取值的百分比,给我们提供更加精细的信息.四、变量间的相关关系四、变量间的相关关系1.相关关系:当一个变量取一定的数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化.变量间的这种相互关系,称为两变量的相关关系.2.散点图:将有相关关系的两变量的数据作为点的坐标,在平面直角坐标系中表示出来,所得到的图称之为散点图.散点图直观上是一些分散的点.正相关:散点散布在从左下角到右上角的区域时,这样的两变量的相关关系,称为正相关;负相关:散点散布在从左上角到右下角的区域时,这样的两变量的相关关系,称为负相关.3.线性相关:如果散点图中各点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线称之为回归直线,直线的方程称之为回归直线方程.4.最小二乘法求回归直线方程:,其中,回归直线必过ˆˆˆybxa=+ niiniiixnxyxnyx b1221)(一个定点:.当一个变量已知时,由回归直线方程可以估算出另一个变量的近似(), x y值.5.线性相关系数 r:r 为正时,表明正相关;r 为负时,表明负相关.例 1 由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到的回归直线方程 =bx+a,那么下y^面说法不正确的是( ).A.直线 =bx+a 必经过点(,)y^x-y-B.直线 =bx+a 至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点y^C.直线 =bx+a 的斜率为y^n ∑i=1xiyi-n x-y-n ∑i=1x2 i-n x-2D.直线 =bx+a 和各点(x1,y1),(x2,y。












