
医学统计工作的基本步骤.doc
6页医学统计工作的基本步骤1设计主要指统计设计,是影响研究能否成功的最关键环节,是提高观察或实验质量的重要保证内容包括对资料搜集,整顿和分析全过程的设想与安排实验设计的三大原则: 随机化,重复,对照2搜集资料:目的指应采取措施使能取得准确可靠的原始数据来源:统计报表,工作记录,专题调查或实验研究,统计年鉴和统计数据专辑要求:随机性和样本含量足够大3整顿资料:将原始数据净化,系统化和条理化,为下一步计算和分析打好基础过程4分析资料:在表达数据特征的基础上,阐明事物的内在联系和规律性,包括两方面:统计描叙和统计推断17均数的可信区间与参考值范围的区别?均数的可信区间与参考值范围的区别主要体现在含义,计算公式和用途三个方面的不同1)意义:均数的可信区间是按预先给定的概率,确定的未知参数的可能范围实际上一次抽样算得的可信区间要么包含了总体均数,要么不包含但可以说:该区间可多大(如当a=0.05时为95%)的可能包含了总体均数而 参考值范围是指‘正常人’的解剖,生理生化某项指标的波动范围均数的可信区间计算公式(1)σ未知:X±指均数可信区间的用途:估计总体均数,参考值范围是指判断观察对象的某项指标是否正常。
7.假设检验与区间估计的关系:置信区间具有假设检验的主要功能;置信区间在回答差别有无统计学意义的同时,还可以提示差别是否具有实际意义;假设检验可以报告确切的P值,还可以对检验的功效做出估计1.标准差与标准误的区别:标准差是衡量观察值的离散趋势,描述正态分布资料的频数标准误是样本均数的变异程度,表示抽样误差的大小,用于总体均数区间估计两者联系:两者都是变异指标在样本含量一定时,S越大标准误也越大,即在抽取相同例数的前提下,标准差越大,抽到的样本均数的抽样误差也越大2.P值和α:P值时从样本求得H0条件下随机抽样得到目前的统计量以及更极端统计量的概率,反映样本信息是否支持H0,也反映做出拒绝或不拒绝H0决定的理由充分程度α时人为确定的小概率,容许犯第二类错误的概率,用作门槛,称检验水平在假设检验中,通常时将P与α对比来得到结论,3.标准正态分布与t分布有何不同:t分布为抽样分布,标准正态分布为理论分布t分布比标准正态分布的峰值低,且尾部瞧得更高随着自由度的增大,t分布逐渐趋于标准正态分布当自由度趋于无穷大时,t分布趋近于标准正态分布4.假设检验中,当P<0.05时,拒绝H0的理论依据P值是指从H0规定的总体随机抽得等于及大于现有样本获得的检验统计量值的概率。
当P<0.05时,说明在H0成立的条件下,得到现有检验结果的概率小于通常确定的小怪绿时间标准的0.05因小概率事件在一次试验中几乎不可能发生,现的确发生了,说明现在样本信息不支持H0,所以怀疑原假设H0不成立,拒绝H05.t检验应用的条件:对单样本t检验要求资料服从正态分布;配对t检验要求差值服从正态分布;对两样本t检验则要求数据均服从正太分布,且两样本对应的两总体方差相等6.I型错误和Ⅱ型错误得区别与联系:I型错误是指拒绝了实际成立的H0所犯的弃真的错误,其概率大小用α表示,Ⅱ型错误是指接受了实际上不成立的H0所犯的取伪错误,其概率用β表示当样本含量N确定时,α越小β越大,反之,α越大β越小了解这两类错误的实际意义在于,若在应用中要重点减少α,则取α=0.05;若要在应用中要重点减少β,则取α=0.10或-20甚至更高7.假设检验和区间估计有何联系:假设检验用于推断质的不同即判断两个或多个总体参数是否不等,而可信区间用于说明量的大小即推断总体参数的范围两者有联系也有区别,假设检验与区间估计的联系在于可信区间也可以回答假设检验的问题,若算得的可信区间若包含了H0,则按α水准,不拒绝H0,若不包含H0,则按照α水准,拒绝H0,接受H1。
也就是说在判断两个总体参数不等时,假设检验和可信区间时完全等价的1.方差分析的基本思想和应用条件是什么方差分析的基本思想时根据试验设计的类型,将全部测量值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的编译可由某个因素的作用加以解释通过比较不同变异来源的均方,借助F分布做出统计推断,从而推论各种研究因素对试验结果有无影响应用条件:各样本是互相独立的随机样本,均服从正态分布;相互比较的各样本的具有方差齐性2.SS组间和SS组内各表示什么含义SS组间表示组内变异,指各处理组样本拘束大小不等,是由处理因素和随机误差造成的,SS组内表示组内变异,指各组处理组内变量值大小不等,是由随机误差造成的3.为什么在方差分析中的结果为拒绝H0、接受H1之后,对多个样本均数的两辆比较要用多重比较的方法:方差分析的备择假设H1时g各总体均数不全像等,拒绝H0,接受H1,只说明g各总体均数总的来说有差别,并不能说明两辆总体均数有差别若要进一步了解两辆总体均数不等,则需进行多个样本均数间的多重比较1常用的相对数有哪几种?简述各种相对数指标的含义,计算方法及特点有强度相对数(率)、结构相对数、相似比。
率的含义:某种现象实际发生得例数与可能发生的总体例数之比,说明某现象发生的频率或强度构成比的含义:食物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明个构成部分在总体中所占比重或分布,又称百分比相对比:是两个有关指标之比,说明两指标间的比例关系2.何为标注化法,描述直接标准化法与间接标准化法的区别?采用某影响因素的统一标准构成,然后计算标准化率的方法称为标准化法,其目的时消除原样本内部某影响因素构成不同对合计率的影响,使通过标准化后的标准化和纪律具有可比性直接标准化法和间接标准化法的区别在于:如对死亡率的年龄构成标准化,若已知年龄别死亡率,可采用直接法,选择一个标准年龄人口构成直接计算标准化率;若只有总的死亡数和年龄别人口数而缺乏年龄别死亡率时,宜用间接法,选择一个标准年龄别死亡率,先计算标准化死亡比,再用标准化死亡比乘以标准总死亡率得到标准化死亡率3.应用标准化率进行比较时要注意什么问题①标准化法只适用与因两组内不构成不同,并有可能影响两组总率比较的情况,对与其他因其他条件不同而产生的可比性问题,标准化法不能解决;②由于选择的标准人口不同,算出的标准化率也不同,因此,当比较几个标准化率时,应采用同一标准人口;③标准化后的标准化率,已经不再反映当时当地的实际水平,他只是表示相互比较的资料间的相对水平;④两样本标准化率时样本值,存在抽样误差。
比较两样本的标准化率,还应做假设检验4.相对数的动态指标有哪几种?各有何用处?相对数的动态指标及其动态数列分布指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度绝对增长量时说明其相对数在一定时期增长的绝对值;发展速度与增长速度均为相对比,说明某相对数在一定时期的速度变化;平均发展速度时各环比发展速度的集合均数,说明某相对数在一个较长时期中逐期平均发展变化的程度1 二项分布、Poisson分布和正态分布间的联系(1);当N很大,π很小,且Nπ=λ为常数时,二项分布近似Poisson分布(2)在n很大、π不接近0也不接近1时,二项分布B(n,π)近似正态分布,而相应的样本率p的分布也近似正态分布N(3)当λ增大时,Poisson分布渐进正态分布,当λ≥20时,Poisson分布资料可做正态分布处理2 二项分布的应用条件是什么?答:(1)每次实验只有发生两种互斥的可能结构之一,即两种互斥结果的概率之和恒等于1; (2)每次实验产生某种结果(如阳性)的概率固定不变;(3)重复实验是相互独立的,即任何一次实验结果的出现不会影响其他实验结果出现的概率3.Poisson分布的性质特征是什么?①总体均数与总体方差相等;②当N很大,π很小,且Nπ=λ为常数时,二项分布近似Poisson分布;③当λ增大时,Poisson分布渐进正态分布,当λ≥20时,Poisson分布资料可做正态分布处理;④Poisson分布具有可加性。
即对于服从poisson分布的m个相互独立的随机变量X1X2…..Xm,它们之和也服从poisson分布,且其均数也这m个随机变量的均数之和问答:1.对于四表格资料,如何正确选用检验方法?①首先应分清时两样本率比较的四表格还是配对设计的四表格资料;②对于两样本率比较的四表格资料,应根据各格的理论值T和总例数N的大小选择不同的卡方检验计算公式2.说明行X列资料卡方检验应注意的事项:①行X列表中的理论频数不应小于1,或1≤T<5的格子数不宜超过格子总数的1/5②多个样本率比较,若所得统计推断为拒绝H0,接受H1,只能人为各总体率之间总的来说有差别,但不能说明任两个总体率之间皆有差别要进一步推断哪两个总体率之间有差别,需进一步做多个样本率的多重比较③对于有序的RXC表资料不宜用卡方检验对于RXC表的资料要根据其分类类型和研究目的选用恰当的检验方法3说明X2检验的用途:答:X2 检验的用途比较的广,通常多用于推断两个总体率或构成比之间有无差别,推断多个总体率或构成比之间有无差别,多个样本率比较的X2分割,两个分类变量之间有无关联性,频数分布拟合优度的X2检验4.两样本率比较的u检验与X2 检验有何异同?两样本率比较时,若对同一资料进行t检验与X2 检验,在不校正的情况下X2 =U2 ,但u检验通常用于大样本,而X2 检验用于或小样本。
1.直线回归分析中应注意哪些问题?①两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析,其中哪一个作为应变量主要是根绝专业上的要求而定,同时直线回归要求至少对于每个X相应的Y要服从正态分布,X可以是服从正态分布的随机变量也可以时能够精确测量和严格控制的非随机变量②进行直线回归分析前应绘制散点图,以检查数据是否满足模型基本假设,发现离散点并进行进一步处理③对结果应有正确解释反映两变量间数量上影响大小的统计量应该是回归系数的绝对值,而不是建设检验的P值P值越小只能说约有理由人为变量间的直线关系存在,而不能说关系越密切或越显著直线回归用于预测时应尽量不合理的外延结果中的决定系数可以表示两变量关系的实际效果2.简述直线回归与直线相关的区别与联系两者的联系:①对于即可做相关又可做回归分析的同一组数据,算出的相关系数和回归系数正负号一致②相关系数与回归系数得假设检验等价③同一组数据的相关系数和回归系数可以相互换算④用回归解释相,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,则决定系数越接近1,说明相关的效果越好两者的区别:①资料要求上:相关要求X、Y服从双变量正态分布,这种资料进行回归分析为Ⅱ型回归;回归要求Y在给定某个X值时服从正态分布,X时可以精确测量和严格控制的变量,称为I型回归②应用上:说明两变量间相互关系用相关,此时两变量的关系是平等的;而说明两变量间依存变化的数量关系用回归,用以说明Y如何依赖与X而变化③意义上:相关系数说明具有直线关系的两变量间相互关系的方向与密切程度;回归系数表明X每变化一个单位所导致Y的平均变化量。
3.直线相关与秩相关的区别与联系联系:①两者所决绝的应用问题相同,都可用来表示两个数值变量之间的方向和密切程度②两个相关系数都没有单位③计算上,用秩次做积差相关,得到就是秩相关系数区别:①资料要求不同,积差相关要求X、Y服从双变量正态分布,秩相关可以时任意分布②由于对资料要求不同,两者分属于参数统计与非阐述统计方法,所以符合双变量正态分布条件时,积差相关的效率高于秩相关③两者假设检验的方法不同4.描述曲线拟合时的注意事项:①首先应绘制散点图,根据图形选用恰当的回归模型形式;②求解回归方程时注意,模型中对Y进行非线性转换后,应采用非线性最小二乘估计,如果仅对X进行变换,普通最小1:为什么要做多变量线性回归分析?。
