好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

统计学笔记资料(.doc

24页
  • 卖家[上传人]:宝路
  • 文档编号:6735478
  • 上传时间:2017-09-13
  • 文档格式:DOC
  • 文档大小:377KB
  • / 24 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第一章总体:总体(population)是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合可分为有限总体和无限总体总体中的所有单位都能够标识者为有限总体,反之为无限总体样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample) 样本应具有代表性所谓有代表性的样本,是指用随机抽样方法获得的样本小概率事件:我们把概率很接近于 0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件P 值:P 值即概率,反映某一事件发生的可能性大小统计学根据显著性检验方法所得到的 P 值反应结果真实程度,一般以 P ≤ 0.05 认为有统计学意义, P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于 0.05 或 0.01P 值是:1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率2) 拒绝原假设的最小显著性水平3) 观察到的( 实例的) 显著性水平4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。

      统计学中,一般认为等于或小于 0.05 或0.01 的概率为小概率1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data) 计量资料亦称定量资料、测量资料其变量值是定量的,表现为数值大小,一般有度量衡单位如某一患者的身高(cm) 、体重(kg)、红细胞计数(1012/L)、脉搏(次/分) 、血压(KPa)等2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data) 计数资料亦称定性资料或分类资料其观察值是定性的,表现为互不相容的类别或属性如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的 A、B、AB、O 四种血型的人数等3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data) 等级资料又称有序变量如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、++、+++等。

      等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料抽样误差(sampling error )由于抽样而引起的总体指标(参数) 与样本指标(统计数) 之间的差异抽样误差是由个体变异或其它随机因素造成的,是不可避免的,但误差分布有规律可循,可进行估计和分析系统误差(systematic error):由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差它带有规律性,经过校正和处理,通常可以减少或消除统计的步骤(考填空题,四个空)统计工作的步骤1.设计:设计内容包括资料收集、整理和分析全过程总的设想和安排设计是整个研究中最关键的一环,是今后工作应遵循的依据2.收集资料:应采取措施使能取得准确可靠的原始数据3.整理资料:简化数据,使其系统化、条理化,便于进一步分析计算4.分析资料:计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律分析资料包括统计描述和统计推断实验设计的基本原则 (考填空题,三个空)随机化原则、对照的原则、重复的原则2 选 1参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。

      总体参数是固定的常数多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数 统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等样本统计量可用来估计总体参数总体参数是固定的常数,统计量是在总体参数附近波动的随机变量 第二章频数表的制作步骤以及频数分布表的用途(问答题)频数分布表的编制步骤: 例:某市 1982 年 50 名 7 岁男童的身高(cm)资料如下,试编制频数表 114.4  117.2  122.7  124.0  114.0  110.8  118.2  116.7  118.9  118.1 123.5  118.3  120.3  116.2  114.7  119.7  114.8  119.6  113.2  120.0 119.8  116.8  119.8  122.5  119.7  120.7  114.3  122.0  117.0  122.5 119.7  124.9  126.1  120.0  124.6  120.0  121.5  114.3  124.1  117.2 120.2  120.8  126.6  121.5  126.1  117.7  124.1  128.3  121.8  118.7 1、找出观察值中的最大值(largest value) 、最小值(smallest value ) ,求极差(range) 。

      极差等于最大值减最小值本例最大值=128.3,最小值=110.8,则极差=128.3-110.8=17.5(cm ) 2、确定分组数和组距(class interval) 组数的多少是根据例数的多少来确定的,以能够反映出频数分布的特征为原则,一般分 10—15 组组距为相邻两组的间隔,组距=极差/组数本例拟分 10 组,则组距=17.5/10=1.75 ≈2,为划记方便,可取稍大或稍小的数(当然本例组距也可取 1.5) 3、确定组段 第一组段包括要最小值,取较最小值稍小且划分方便的数,本例取“110~” 最后组段包括最大值并写出其上限值 4、划记 将各观察值以划“正”字的方法,一笔代表一例,划在相应组段中例如第一个数 l14.4 应在组段“114~”处划,第二个数 117.2 应在“116~”处划,以此类推 5、统计各组段的频数全部数据划记完后,清点各组段的人数 根据编制出的频数表即可了解该数值变量资料的频数分布特征 频数分布表的用途 1、描述资料的分布特征和分布类型 频数分布有两个重要特征:集中趋势和离散趋势大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。

      频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映 2、便于进一步计算有关指标或进行统计分析当数据较多且需手工计算时,常先编制频数表,再进行统计计算 3、发现特大、特小的可疑值 如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理 4、据此绘制频数分布图 描述数据分布集中趋势的指标和描述数据分布离散程度的指标 (考选择或者填空)2. 描述数据分布集中趋势的指标 算术均数、几何均数、中位数 3. 描述数据分布离散程度的指标 极差、四分位数间距、方差、标准差、变异系数正态分布的特征(考选择题 υ 、σ 对图形的影响)服从正态分布的变量的频数分布由 υ 、σ 完全决定 (1) υ 是正态分布的位置参数,描述正态分布的集中趋势位置正态分布以 x =υ 为对称轴,左右完全对称正态分布的均数、中位数、众数相同,均等于 υ (2) σ 描述正态分布资料数据分布的离散程度,σ 越大,数据分布越分散,σ 越小,数据分布越集中σ 也称为是正态分布的形状参数,σ 越大,曲线越扁平,反之,σ 越小,曲线越瘦高。

      标准正态分布(填空)1.标准正态分布是一种特殊的正态分布,标准正态分布的 υ  0,σ2  1 ,通常用 u(或 Z)表示服从标准正态分布的变量,记为 υ~N(0,12) 正态分布的应用(简答)某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理其中经对数转换后服从正态分布的指标,被称为服从对数正态分布1. 估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例2. 制定参考值范围(1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标2)百分位数法 常用于偏态分布的指标表 3-1 中两种方法的单双侧界值都应熟练掌握3. 质量控制:为了控制实验中的测量(或实验)误差,常以 作为上、下警戒值,以 作为上、下控制值这样做的依据是:正常情况下测量(或实验)误差服从正态分布4. 正态分布是许多统计方法的理论基础 检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。

      许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的医学参考值范围的制定(计算题 )确定参考值范围的单双侧:一般生理物质指标多为双侧、毒物指标则多为单侧确定百分位点:一般取 95%或 99%例题某市 20 岁男学生 160 人的脉搏数(次/分钟) ,经正态性检验服从正态分布求得 = 76.10,S =9.32试估计脉搏数的 95%、99%参考值范围解:脉搏数的 95%正常值范围为: ±1.96 S=76.10 ± 1.96(9.32)=57.83 ~94.37脉搏数的 99%正常值范围为: ±2.58 S =76.10 ± 2.58(9.32)=52.05~100.37第三章标准误的概念,计算公式标准误 :抽样研究中,样本统计量与总体参数间的差别称为抽样误差(sampling error) 统计上用标准误(standard error,SE)来衡量抽样误差的大小,即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度t 分布的图形特征及其与正态分布的区别(简答)t 分布的图形特征1.以 0 为中心,左右对称的单峰分布;2.t 分布是一簇曲线,其形态变化与 n(确切地说与自由度 ν)大小有关。

      自由度 ν 越小,t 分布曲线越低平;自由度 ν 越大,t 分布曲线越接近标准正态分布(u 分布)曲线 t 分布对应于每一个自由度 ν,就有一条 t 分布曲线,每条曲线都有其曲线下统计量 t 的分布规律,计算较复杂t 分布与正态分布比较的区别t 分布与标准正态分布相比有以下特点:①都是单峰、对称分布;②t 分布峰值较低,而尾部较高;③随自由度增大,t 分布趋近与标准正态分布;当 ν 趋向∞,t 分布的极限分布是标准正态分布置信区间和参数估计 (名解 2 选 1)置信区间:在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度给出的是被测量参数的测量值的可信程度1、对于具有特定的发生概率的随机变量,其特定的价值区间------一个确定的数值范围(“一个区间” ) 2、在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围 3、该区间包含了参数 θ 真值的可信程度4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造 参数估计:指用样本指标值(统计量)估计总体指标值(参数) 。

      参数估计有两种方法:点估计和区间估计 可信区间与参考值范围的不同点(简答)。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.