
数理统计学的基本思想是用样本估计总体.doc
6页统 计数理统计学的基本思想是用样本估计总体,它主要研究两个基本问题:一是如何从总体中抽取样本,二是如何通过对所抽取的样本进行计算和分析,从而对总体的相应情况作出推断本章是在初中“统计和概率初步”的基础上学习的,其内容可看成是以上内容的深入和扩展,但总的来说,所介绍的仍属于统计中一些极其初步的知识基础知识随机抽样 \ 用样本估计总体 \ 变量间的相关关系随机抽样从总体中抽取样本的方法叫抽样方法,统计中涉及的抽样方法很多,如果按照抽取时总体中的每个个体被抽取的概率是否相等来进行分类,可分为等概率抽样和不等概率抽样,等概率抽样又可分为不放回抽样和放回抽样在抽样中,如果每次抽出个体后不再将它放回总体,称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体,称这样的抽样为放回抽样.常见的抽样方法主要有简单随机抽样、系统抽样、分层抽样三种,它们的共同特点是在抽样过程中每个个体被抽取的概率相等,这体现了这些抽样方法的客观性和公平性1.简单随机抽样若一个总体的个体数有限,如果通过逐个抽取的方法从中不放回地抽取一个样本,且每次抽取时,各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。
1)根据简单随机抽样的定义,可以看到它有以下特点:①它要求被抽取样本的个体数有限,以便于对其中各个个体被抽取的概率进行分析②它是从总体中逐个地进行抽取,这样便于在抽样实践中进行操作③它是一种不放回抽样,因而具有较广泛的实用性,也便于相关的分析和计算④它是一种等概率抽样,不论是每次从总体中抽取一个个体,还是在整个抽样过程当中,每个个体被抽取的概率相等,从而保证了这种抽样方法的公平性值得注意的是,进行简单随机抽样时,“每次抽到一个个体时任一个体被抽到的概率”与“在整个抽样过程中某个体被抽到的概率”是不同的,关于这一点,我们可结合实例,利用初中学过的概率初步知识加以体会2)实施简单随机抽样,主要有两种方法:抽签法(抓阄法)和随机数表法抽签法(抓阄法)就是在总体中个体数不多时,将总体中的个个体编号,把号码写在号签上,再将号签放在一个容器中搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本随机数表中的十个数字是用计算机生成的随机数,它们在每个位置上等概率地出现用随机数表进行抽样的步骤是:①将总体中的个体编号;②选定开始的数字;③获取样本号码2.系统抽样当总体中的个体数目较多时,可将总体分成均衡的几个部分,然后按照事先定出的规则,从每一部分抽取一定数目的个体,得到所需要的样本,这种抽样叫做系统抽样。
1)系统抽样的操作步骤为: ①将个体编号;②分段;③确定起始的个体号;④抽取样本 (2)关于系统抽样,我们指出以几点:①系统抽样适用于总体中的个体数较多的情况,因为这时采用简单随机抽样就显得不很方便;②将总体中的个体均分后的每一段进行抽样时,采用的是简单随机抽样;③与简单随机抽样一样,系统抽样也属于等概率抽样⊙特别提示当总体中的个体数不能被样本容量整除时,可先用简单随机抽样从总体中剔除几个个体,使剩下的个体数能被样本容量整除,然后再按系统抽样进行,这时在整个抽样过程中每个个体被抽取的概率仍然是相等的3.分层抽样当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的这种情况,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样方法叫做分层抽样,其中所分成的各部分叫做层1)分层抽样的步骤是:①分层;②按比例确定各层抽取对象;③各层抽样;④综合各层,组成样本2) 分层抽样的特点是:①分层抽样适用于总体由差异明显的几个部分组成的情况;②在每一层进行抽样时,采用简单随机抽样或系统抽样;③分层抽样也是等概率抽样⊙特别提示简单随机抽样、系统抽样、分层抽样这三种抽样方法的联系与适用范围见下表:类别共同点各自特点相互联系适用范围简单随机抽样都是不放回抽样,抽样过程中,每个个体被抽到的机会(概率)相等从总体中逐个抽取总体中的个体数较少系统抽样将总体均分成几部分,按事先确定的规则,在各部分抽取在起始部分抽样时,采用简单随机抽样总体中的个体数较多分层抽样将总体分成几层,分层进行抽取各层抽样时,采用简单随机抽样或系统抽样总体由差异明显的几部分组成用样本估计总体总体取值的概率分布规律通常称为总体分布。
为了考察一个总体的情况,在统计中通常是从总体中抽取一个样本,用样本的有关情况去估计总体的相应情况这种估计大体分为两类:1.用样本的频率分布去估计总体分布样本频率是指样本在某一范围内的个数(频数)与样本总体的比值,样本的频率分布常用频率分布表、频率分布直方图、频率分布折线图、总体密度曲线、茎叶图等来表示1)频率分布表、频率分布直方图:是指在用样本估计总体时,通过各个小组数据在样本容量中所占比例大小的角度来表示频率分布的规律,它可以使我们看到整个样本数据的频率分布其具体操作步骤是:① 求极差,即求出一组数据中最大值与最小值的差;② 决定组距与组数,组数应力求合适,一般分成10组左右;③ 将数据分组;④ 列频率分布表,将上述分组、频数累计、频数、频率列成表格;⑤ 画频率分布直方图,图中各小长方形的面积等于相应各组的频率,这个图形的面积的形式反映了数据落在各个小组的频率的大小,且图中各小矩形的面积的和等于1.需要指出的是:①在反映样本的频率分布方面,频率分布表在数量表示上比较确切,而频率分布直方图及初中学过的频率分布条形图则比较直观,两者相互补充,使我们对数据的频率分布情况了解得更加清楚. ②当总体中的个体取不同数值很少时,其频率分布表由所取样本不同数值及其相应的频率来表示,其几何表示就是相应的条形图;当总体中的个体取不同数值较多甚至无限时,对其频率分布的研究要用到初中学过的整理样本数据的知识,将样本数据恰当地分组,用各组的频率来描绘总体的分布,其几何表示就是相应的直方图。
③频率分布条形图和直方图的不同之处在于:前者用其高度来表示取各个值的频率,而后者是用图形面积的大小来表示在各个区间内取值的频率2)频率分布折线图:顺次连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图3)总体密度曲线:样本容量越大,所分组数越多,各组的频率就越接近于总体在相应各组取值的概率.设想样本容量无限增大,分组的组距无限缩小,那么频率分布直方图和频率分布折线图就会无限接近于一条光滑曲线,这条曲线叫做总体密度曲线.(5)茎叶图:与前面提到的图、表类似,茎叶图也可以用来表示样本数据的分布情况,“茎”是指中间的一列数,“叶”就是从“茎”的旁边生长出来的数用茎叶图表示有两个突出的优点,其一,从统计图上没有信息的损失,所有的信息都可以从茎叶图中得到;其二,茎叶图可以随时记录与表示但茎叶图一般只能表示两位的整数2.用样本的数字特征估计总体的数字特征样本的数字特征有平均数、众数、中位数、标准差、方差等平均数、中位数、众数都是描述数据集中趋势的重要特征数,它们既有联系又有区别,应用时可根据具体情况进行选择1)平均数:就是一组数据的平均值2)众数:就是一组数据中出现次数最多的那个数据3)中位数:就是一组数据按从小到大(或从大到小)的次序排列后,位于中间的那个数据(当数据个数为奇数个),或者是位于中间的两个数的平均数(当数据个数为偶数个)。
⊙特别提示平均数虽然常可帮助我们了解一组数据的平均水平,但有时因受到该组数据中特别大或特别小数据的影响,不容易把数据的集中趋势与特征表示出来,所以有时我们用中位数或众数来代替平均数比较合理4)总体方差与总体标准差是描述一个总体的波动大小的特征量,可以通过计算样本方差与标准差对总体方差与标准差进行估计①样本方差公式是…;②样本标准差公式是;其中…,分别是样本中个体的取值,是样本的平均数⊙特别提示(1)由于方差和标准差的计算量一般较大,所以通常需要借助科学计算器;(2)方差和标准差的大小反映了总体或者样本的波动程度,可以对诸如均衡性、稳定性、差异性等作出描述;(3)在分别利用方差和标准差对不同总体和样本进行比较时,其效果是等价的 变量间的相关关系变量之间存在着两类关系:一类是函数关系,这是一种确定的关系,另一类是相关关系,这是一种非确定关系,这两类关系在一定条件下可以相互转化1.变量间的相关关系当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系1)相关关系是非随机变量与随机变量之间的关系,函数关系是两个非随机变量之间的关系,是一种因果关系,而相关关系不一定是因果关系,所以相关关系与函数关系不同,其变量具有随机性,因此相关关系是一种非确定性关系,既有因果关系,也有伴随关系。
2)相关关系与函数关系的异同点是:①相同点:均是指两个变量的关系;②不同点:函数关系是一种确定的关系,而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系.2.两个变量的线性相关(1)回归分析:两个变量的相关关系有正相关、负相关,对具有相关关系的两个变量进行统计分析的方法叫做回归分析通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性2)一元线性回归分析:如果因变量仅与一个自变量有关,且因变量与自变量的关系是线性的,这样的回归分析叫一元线性回归分析,它是回归分析中最基本的一种类型3)散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图,散点图形象地反映了各对数据的密切程度4)线性相关与回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线5)回归直线方程:设与是具有相关关系的两个变量,且相应于组观测值的个点…大致分布在一条直线附近,则由, ,所得到的直线方程叫做回归直线方程,是回归方程的斜率,是截距,相应的直线叫做回归直线,而对这两个变量所进行的统计分析就是线性回归分析。
利用计算器或计算机的软件,可以方便地求出回归直线方程6)最小二乘法:在求回归直线时,上述公式中选取的使得误差的平方和最小,也就是使得样本数据的点到它的距离的平方和最小,这一方法称为最小二乘法值得指出的是,讨论变量是否线性相关,应先进行相关性检验,在确认线性相关后,再求回归直线相关性检验的有关概念、方法和步骤,本章不作学习要求基本技能随机抽样的基本技能 \ 变用样本估计总体的基本技能 \ 变量间相关关系的基本技能现代社会是信息化的社会,人们常常需要收集数据,根据所获得的数据提取有价值的信息,作出合理的决策统计是研究如何合理收集、整理、分析数据的学科,它可以为人们制定决策提供依据随机现象在日常生活中随处可见,下一章即将学习的概率则是研究随机现象规律的学科,它为人们认识客观世界提供了重要的思维模式和解决问题的方法,同时为统计学的发展提供了理论基础因此,统计与概率的基本技能已经成为一个未来公民的必备常识随机抽样的基本技能随机抽样是运用统计方法解决问题的第一步,简单随机抽样是随机抽样中最简单的一种模型,它是分层抽样、系统抽样以及其它更复杂抽样方法的基础,“随机抽样”与“简单随机抽样”是两个不同的概念。
这一内容的基本技能主要表现在对三种常用抽样方法的理解、选择并正确运用,体会统计的作用和基本思想,用统计的思想去分析、解决实际问题1.能从现实生活或其他学科中提出具有一定价值的统计问题。












