好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

统计学重点部分归纳.doc

56页
  • 卖家[上传人]:s9****2
  • 文档编号:428664101
  • 上传时间:2023-08-14
  • 文档格式:DOC
  • 文档大小:3.71MB
  • / 56 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第三章全距也称极差,是一组数据的最大值与最小值之差 R=最大值-最小值组距分组数据可根据最高组上限 -最低组下限计算四分位数:数据按大小顺序排序后把分割成四等分的三个分割点上的数值 SPSS中四分位数的位置为(n+1)/4, 2(n+1)/4, 3 (n+1)/4 Excel中四分位数的位置分别为(n+3)/4, 2(n+1)/4,(3 n+1)/4 如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均四分位距等于上四分位数与下四分位数之差IQR=Q3-Q1 反映了中间50%数据的离散程度,数值越小说明中间的数据越集中不受极端值的影响可以用于衡量中位数的代表性方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根是反映定量数据离散程度的最常用的指标离散系数:标准差与其相应的均值之比,表示为百分数特点:(1)反映了相对于均值的相对离散程度;(2)可用于比较计量单位不同的数据的离散程度;(3)计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义数据分布的不对称性称作偏态偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。

      峰度:数据分布的扁平或尖峰程度峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示箱线图用于描述数据分布特征的一种图形最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线在SPSS中标准的箱线图一般是这样绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子;由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线,由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线;处于Q3+1.5*IQR至Q3+3*IQR或者 Q1-1.5*IQR至Q1-3*IQR范围内的数据用圆圈标出;大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出例子:数据的 Z值也称标准化值,等于变量值与其平均数的离差除以标准差,用Z表示 Z值的均值等于0,标准差等于1是对某一个值在一组数据中相对位置的度量z>0说明观测值大于均值 z<0说明观测值小于均值z=1.2说明观测值比均值大1.2倍的标准差第四章假设检验 推断统计:在搜集、整理观测样本数据的基础上,对有关总体作出推断 特点:随机性的观测样本数据以及问题的条件和假定,对未知事物作出以概率形式表述的推断参数估计(1)基本概念: 点估计:用估计量的数值作为总体参数的估计值。

      一个总体参数的估计量可以有多个 例如,在估计总体方差时, 和都可作为估计量 点估计量常用的评价准则: a无偏性:估计量的数学期望与总体待估参数的真值相等: b有效性:在两个无偏估计量中方差较小的估计量较为有效 c一致性:指随着样本容量的增大,估计量越来越接近被估计的总体参数 精确量越高,样本容量越大区间估计:根据事先确定的置信度1-α给出总体参数的一个估计范围 置信度1-α的含义 置信度1-α的含义是:在同样的方法得到的所有置信区间中,有100(1-α)% 的区间包含总体参数 置信是什么? 抽样分布 抽样分布:区间估计的理论基础 从总体中抽取一个样本量为n的随机样本,我们可以计算出统计量的一个值 如果从总体中重复抽取样本量为n的样本,就可以得到统计量的多个值 统计量的抽样分布就是这一统计量所有可能值的概率分布 抽样分布的要点: 抽样分布是统计量的分布而不是总体或样本的分布 在统计推断中总体的分布一般是未知的,不可观测的(常常被假设为正态分布)。

      样本数据的统计分布是可以直接观测的,最直观的方式是直方图,可以用来对总体分布进行检验 抽样分布一般利用概率统计的理论推导得出,在应用中也是不能直接观测的其形状和参数可能完全不同 于总体或样本数据的分布 . 样本均值的均值(数学期望)等于总体均值 ‚. 样本均值的方差等于总体方差的1/n样本均值抽样分布结论:一般的,当总体服从 N(μ,σ2 )时,来自该总体的容量为n的样本的均值也服从 正态分布,X 的期望为μ,方差为σ2/n即~N(μ,σ2/n) σ2=10/4=2.5中心极限定理:从均值为μ,方差为的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为/n的正态分布简单随机抽样、重复抽样时,样本均值抽样分布的标准差 标准差等于,这个指标在统计上称为标准误统计软件在对变量进行描述统计时一般会输出这一结果简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于,称为有限总体校正系数,当抽样比(n/N)<0.05时可以忽略有限总体校正系数总体均值和比例的区间估计总体均值和比例的区间估计总体比例的区间估计:当时总体比例的置信区间可以使用正态分布来进行区间估计。

      样本比例样本比例记为 ,总体比例记为π)P=1-α 记为 ,总体比例记为π) 置信区间的补充说明: P=1-α 置信度含义的说明: 置信度含义的说明:必要样本容量的确定:(1)实际抽样误差:总体参数估计值与真实值之间的绝对离差称为实际抽样误差,是一个随机变量2)抽样平均误差:样本均值的标准差,也就是前面说的标准误它反映样本均值(或比例)与总体均值(比例)的平均差异程度例如对简单随机抽样中的样本均值有: 我们通常说“抽样调查中可以对抽样误差进行控制”,就是指的抽样平均误差影响因素:1.总体内部的差异程度;2.样本容量的大小;3.抽样的方式方法(3)最大允许误差最大允许误差,一般用E来表示,等于置信区间长度的一半:在确定置信区间时样本均值(或样本比例)加减的量,一般用E来表示,等于置信区间长度的一半置信区间=是人为确定的,是调查者在相应的置信度下可以容忍的误差水平必要样本量受以下几个因素的影响;(1)总体标准差总体的变异程度越大,必要样本量也就越大2)最大允许误差最大允许误差越大,需要的样本量越小3)置信度1-α要求的置信度越高,需要的样本量越大。

      4)抽样方式 其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同简单随机抽样时的必要样本量(计算题):简单随机抽样时的必要样本量(计算题):估计总体比例时样本容量的确定: 上式中的总体比例π可以通过以下方式估计: 根据历史资料确定 通过试验性调查估计 取为0.5估计总体均值时样本容量的确定: 上式中的总体方差σ可以通过以下方式估计: 根据历史资料确定通过试验性调查估计不重复抽样时的必要样本量比重复抽样时的必要样本量要小 n0是重复抽样时的必要样本容量 例子 需要多大规模的样本才能在 90% 的置信水平上保证均值的误差在 ± 5 之内? 前期研究表明总体标准差为 45. 95% 置信度时,/2=1.96,π未知时取为0.5假设检验:事先作出关于总体参数、分布形式、相互关系等的命题(假设),然后通过样本信息来判断该命题是否成立(检验)利用假设检验进行推断的基本原理是:小概率事件在一次试验中几乎不会发生假设检验的步骤:假设检验步骤和分析重点 (1)根据实际问题提出一对假设(零假设和备择假设); (2)构造某个适当的检验统计量,并确定其在零假设成立时的分布; (3)根据观测的样本计算检验统计量的值; (4)根据犯第一类错误的损失规定显著性水平 a ; (5)确定决策规则:根据确定检验统计量的临界值并进而给出拒绝域,或者计算p值等; 下结论:根据决策规则得出拒绝或不能拒绝零假设的结论。

      注意“不能拒绝零假设”不同于“接受零假设” 零假设和备择假设是互斥的,它们中仅有一个正确;等号必须出现在零假设中; 单侧检验时零假设和备择假设的选择 (1)通常把研究者要证明的假设作为备择假设; (2)将所作出的声明作为原假设; (3)把现状作为原假设;(4) 把不能轻易否定的假设作为原假设; 检验统计量:用来决策(拒绝或不能拒绝零假设)时依据的样本统计量不同的总体参数适用的检验统计量不同 拒绝域:检验统计量取值的集合,当根据样本得到的检验统计量的值属于该集合时,拒绝零假设 假设检验中的两类错误与显著性水平 两类错误的概率 两类错误不可避免;要减小其中的一种错误,通常只能通过增加另一种错误的方法做到 假设检验中通常首先控制控制第一类错误的概率不超过某个小概率水平a,在满足该条件的要 求下使犯第二类错误的概率尽量小 允许犯第一类错误的概率α称为显著性水平 通常α取为0.01,0.05,0.1 根据α可以确定检验统计量的临界值,并根据统计量的样本观测值和临界值得出检验结论 单个总体的假设检验均值的双边检验某厂生产的铁丝抗拉力服从正态分布,其平均抗拉力为570kg,标准差为8kg。

      由于更换原材料,标准差不会变,但不知其抗拉力是否不变,从中抽取10个样品,得平均抗拉力575kg,能否认为平均抗拉力无显著变化?(α=0.05)1、 提出零假设和备择假设2、选择检验统计量:根据题意3、检验统计量的观测值4、 显著性水平等于0.05 确定了零假设和备择假设,就可以确定是什么检验了,σ是标准差,s是方差均值右侧检验问题平均说来,一个有丈夫和两个孩子的家庭主妇每周用于与家庭有关活动的时间不超过55h抽取8个家庭主妇的每周工作时间作为样本,得到数据:58,52,64,63,59,62,62,55有妇联组织认为每周平均工作时间超过55小时,你的结论是什么?(假设总体为正态分布)解:根据题意,观测到的t统计量的值等于对于t分布,用表示t统计量的观测值,双侧检验时,p值=P(),右侧时,p=P();左侧p=P()描述统计结果p>α=0.05,所以不能拒绝两个总体均值的比较:检验统计量的选择两个总体均值的比较:检验统计量的选择 两个总体方差相等和不相等时,t统计量的计算公式不同因此,检验两个总体的均值是否相等时,需要先检验两个总体的方差是否相等! 例:某农业研究所研制出一种新的化肥,现要研究施肥土地的小麦产量是否比不施肥土地的小麦产量有显著提高,随机抽取几块土地进行试验。

      选10快试验田不施肥,结果最后的每亩产量数据为(单位:公。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.