
医药数理统计.ppt
50页医药数理统计方法医药数理统计方法医药数理统计医药数理统计 第一章第一章 绪论绪论医药数理统计方法医药数理统计方法医药数理统计--绪论医药数理统计--绪论•概率论(probability):–研究随机现象数量规律的数学学科•数理统计(mathematical statistics):–以概率论为基础,通过对随机现象观察数据的收集整理、分析推断来研究其规律的学科•统计学:( statistics,介于自然科学和社会科学的边缘学科,是研究随机现象数据规律性的学科)–定义:以概率论和数理统计的理论、方法为基础,对研究对象的数据资料进行搜集、整理、分析和解释,从数量角度去探索某自然现象或社会现象的客观规律(统计规律)的一门学问–特点:研究事物的数量特征–功能:帮助人们透过客观世界中的偶然现象去发现和探究出隐藏在这些现象背后的客观规律一、定义和研究内容一、定义和研究内容医药数理统计方法医药数理统计方法例:例:1、、北京某医院使用北京某医院使用“乌贝散乌贝散”治疗胃溃疡治疗胃溃疡病出血病出血107例,有效例,有效101例,有效率例,有效率94.4%2、冠心灵与单纯西药疗效对比、冠心灵与单纯西药疗效对比显效显效有效有效无效无效合计合计单纯西药925640冠心灵1918542医药数理统计方法医药数理统计方法医药数理统计:定义:医药数理统计是运用数理统计的原理和方法来分析和解释医药及医学研究中遇见的各种现象和试验调查资料的一门学科 。
三部分内容:1. 数理统计所需的概率论基础知识及概率分布;2. 医药学中常用的统计方法:3. 试验设计:包括试验设计的基本原则及常用的 试验设计方法医药数理统计方法医药数理统计方法二、统计工作的步骤二、统计工作的步骤•设计(design):–实验设计、调查设计•收集资料(collection of data)–统计报表、经常性工作记录、专题调查或实验•整理资料(sorting data)–净化原始数据,使其系统化、条理化•分析资料(analysis of data)–目的:计算有关指标,反映数据的综合特征,阐明事物的内在联系和规律–内容:统计描述、统计推断医药数理统计方法医药数理统计方法三、医药统计中的几个基本概念三、医药统计中的几个基本概念•总体(population)–定义:根据研究的目的所划定的具有某些共同性质的全部个体值组成的集合–性质:•总体与研究目的密切相关•总体内所有个体都是同质的–分类:•有限总体(finite population)•无限总体(infinite population)医药数理统计方法医药数理统计方法•样本(sample)(或叫个体individaul)–统计研究中最基本的单位,要有代表性,能客观的反映总体–随机原则•资料和变量(data and variable)–资料:在确定总体后,研究者则应对每个观察单位的某项特征进行测量和观察,这种特征称为变量。
对变量的测量值称为变量值(value of variable)或观察值(observed value),也称资料医药数理统计方法医药数理统计方法•变异(variation)–在同一个总体内,各个个体所表现出来的参差不齐性•参数和统计量–参数(总体量):用来描述和表达总体的数量特征指标–统计量:用来描述和表达样本数量特征的指标医药数理统计方法医药数理统计方法总体总体样本样本数量平均水平数量平均水平和集中趋势和集中趋势变异大小和变异大小和离散程度离散程度均数均数 平均数平均数标准差标准差 标准差标准差S医药数理统计方法医药数理统计方法•误差(error)–统计学的误差:观察值与真实值之差;样本统计量的值与总体参数值之差–误差来源•系统误差–仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低、仪器的操作方法、治疗方法等原因,造成观察测量结果倾向性的偏大偏小•偶然误差–随机测量误差:指同一个体(观察单位)多次观测结果之差–抽样误差:样本指标与总体指标之差–过失性误差:操作人员读数、记录之差错医药数理统计方法医药数理统计方法大小大小方向和方向和大小的大小的重现性重现性方向方向 产生的原因产生的原因 可否避免可否避免统计统计规律规律性性偶然误偶然误差差一般一般较小较小不一定不一定双向双向多种影响较多种影响较小因素综合小因素综合影响的结果影响的结果不可避免,不可避免,但可控制但可控制有有系统误系统误差差一般一般较大较大可可重现重现单向单向有有少数确定少数确定的原因的原因消除原因消除原因既可避免既可避免无无医药数理统计方法医药数理统计方法四、统计数据四、统计数据(资料资料)的分类的分类•1、计量资料(measurement data)–对每一个观察个体都是通过定量测量获取的数据,信息量大。
–特点:•有明确的数值大小概念•一般都有度量衡单位•可以分组、排序,频数计算、加减乘除的数学运算•分组依据是根据量的种类(而非值的区别)医药数理统计方法医药数理统计方法•2、计数资料(enumeration data)–对每个个体都定性得到的资料–特点:•没有明确的数值大小概念•没有计量单位•分组依据是质 而不是量•只能分组无法排序•可进行每一类别出现频数的计算•不能加减乘除医药数理统计方法医药数理统计方法•3、等级资料(ranked data)–介于计数资料与计量资料之间,是对事物之间 等级或顺序差别等级或顺序差别的计量结果–特点:•按某种属性将其划分几个等级,所获得取得信息量加大•数据为有序类别•可以进行类别的频数计算和排序•不能进行加减乘除 注 :资料的类型不是绝对的,根据研究的目的,可以把计量资料变换为计数资料或等级资料医药数理统计方法医药数理统计方法计量资料、计数资料、等级分组资料的相计量资料、计数资料、等级分组资料的相互转化:互转化:1)每个人的血红蛋白属于计量资料;每个人的血红蛋白属于计量资料;2)按血红蛋白正常与异常分为两组,得出各组按血红蛋白正常与异常分为两组,得出各组 人数,是计数资料;人数,是计数资料;3) 按血红蛋白含量多少分为按血红蛋白含量多少分为5个等级:个等级:<60g/L(重度重度 贫血贫血)、、60~90g/L(中度贫血中度贫血)、、 90~125g/L(轻度贫轻度贫 血血)、、125~160g/L(正常正常)、、>160g/L(血红蛋白增血红蛋白增 高高),计算各等级人数,就是等级分组资料。
计算各等级人数,就是等级分组资料医药数理统计方法医药数理统计方法1、、 对人对人100人的血红蛋白含量测量考察时:人的血红蛋白含量测量考察时:低于低于60g/L(重度贫血重度贫血)有有5人、人、60~~90g/L(中中度贫血度贫血)10人、人、 90~~125g/L(轻轻度贫血度贫血)有有15人、人、125~~160g/L(正常正常)有有55人、人、大于大于160g/L(血红蛋白增高血红蛋白增高)有有15人,该资人,该资料为料为 资料 2、若以舒张压大于、若以舒张压大于90mmHg为高血压,为高血压,调查某地调查某地1000人中有多少个高血压患者,人中有多少个高血压患者,该统计资料为该统计资料为 ⑾⑾资料 例题例题::医药数理统计方法医药数理统计方法五、医药学研究中统计方法的运用五、医药学研究中统计方法的运用•以正确的方式收集数据•描述数据的统计特征•统计分析得出正确结论医药数理统计方法医药数理统计方法六、学习注意事项六、学习注意事项•了解基本概念、掌握理解基本原理,能够正确运用理论知识逻辑推理•对待公式态度:–不强调背公式,不要过分追究公式来源,掌握公式应用范围应用条件•实践性强•准备一个计算工具医药数理统计方法医药数理统计方法参考资料:1.何雁、马志庆,医药数理统计,科学出版社,20092.祝国强、刘庆欧,医药数理统计方法,高等教育出版社,20043.张春华、严云良,医药数理统计,科学出版社,20014.高祖新,医药数理统计方法,人民卫生出版社,2007医药数理统计方法医药数理统计方法第 二 章 统计资料的描述统计资料的描述医药数理统计方法医药数理统计方法第一节第一节 统计资料的整理统计资料的整理一、频数分布表一、频数分布表(frequency table)频数表频数表:一种格式的统计表,即同:一种格式的统计表,即同时列出观察指标的可能取值区间及时列出观察指标的可能取值区间及其在各区间出现的频数。
其在各区间出现的频数具体做法具体做法:先根据观察个体的数量大:先根据观察个体的数量大小进行分组,然后计算每组中观察值小进行分组,然后计算每组中观察值出现的次数出现的次数医药数理统计方法医药数理统计方法医药数理统计方法医药数理统计方法频数表的编制频数表的编制1、确定组数:、确定组数: 一般一般8--15组,例数少,组组,例数少,组数少,数少,100例以上一般选取例以上一般选取10组组2、确定组距:、确定组距:参考组距为:参考组距为:R:数据中最大值与最小值之差:数据中最大值与最小值之差k: 组距数组距数医药数理统计方法医药数理统计方法3、确定组限、确定组限一个数据必须能够归属于某一组,同时只能归一个数据必须能够归属于某一组,同时只能归属于一个组,不能兼顾,数据归组统一定为属于一个组,不能兼顾,数据归组统一定为L≤ x< < U4、手工编制划记表:、手工编制划记表:唱票唱票医药数理统计方法医药数理统计方法二、(样本)直方图二、(样本)直方图(histogram)医药数理统计方法医药数理统计方法三、频数分布表的作用三、频数分布表的作用::(1) 揭示资料的分布类型和分布特征揭示资料的分布类型和分布特征(2) 描述资料的集中趋势和离散程度。
描述资料的集中趋势和离散程度3) 便于发现某些特大或特小的可疑值便于发现某些特大或特小的可疑值4) 样本容量较大时,可用各组段的频率作样本容量较大时,可用各组段的频率作为概率的估计值,便于进一步分析统计为概率的估计值,便于进一步分析统计医药数理统计方法医药数理统计方法Excel制作频数表和直方图制作频数表和直方图医药数理统计方法医药数理统计方法医药数理统计方法医药数理统计方法医药数理统计方法医药数理统计方法第二节第二节 平均水平平均水平( (集中趋势集中趋势) )的统计描述的统计描述 平均数平均数(average)是描述一组观察值是描述一组观察值集中位置或平均水平的统计指标,它集中位置或平均水平的统计指标,它常作为一组数据的代表值用于分析和常作为一组数据的代表值用于分析和进行组间的比较进行组间的比较平均数平均数算术平均数算术平均数: 均值均值(Arithmaetic Average,,mean)几何平均数几何平均数(geometric maen)中位数中位数(median)医药数理统计方法医药数理统计方法一、算术平均数一、算术平均数(一一) 直接法直接法(二二) 加权法加权法均数均数:算术平均数的简称,表示一组观:算术平均数的简称,表示一组观察值的平均水平或中心位置察值的平均水平或中心位置医药数理统计方法医药数理统计方法(三)均数的性质:(三)均数的性质:1)均数的计算与样本内的每一个值都)均数的计算与样本内的每一个值都有关有关2)若每个)若每个xi都乘以相同的数都乘以相同的数k,则均数也,则均数也乘以乘以k3)若每个)若每个xi都加上相同的数都加上相同的数A,则均数,则均数也加上也加上A医药数理统计方法医药数理统计方法(四四) 均数的应用均数的应用1、主要用于对称分布或偏斜度不大、主要用于对称分布或偏斜度不大的资料,能很好反映对称分布资料的资料,能很好反映对称分布资料的集中位置或平均水平的集中位置或平均水平2、偏态较大的情况下,不能真正反映、偏态较大的情况下,不能真正反映数据集中位置数据集中位置Excel 计算均值函数:计算均值函数:“==average(a2:j5)医药数理统计方法医药数理统计方法医药数理统计方法医药数理统计方法二、几何平均数二、几何平均数计算公式:计算公式:定义:表示一组同质的计量资料的平均水平或中心位置定义:表示一组同质的计量资料的平均水平或中心位置。
几何均数用于描述原始数据不对称几何均数用于描述原始数据不对称(观察值按倍数关观察值按倍数关系变化系变化),但经过对数转换后呈对称分布的资料但经过对数转换后呈对称分布的资料医药数理统计方法医药数理统计方法几何均数的应用几何均数的应用1)多用于医学研究中的特殊资料:如抗体滴度、)多用于医学研究中的特殊资料:如抗体滴度、细菌计数、血清凝集效价、某物质质量浓度等,细菌计数、血清凝集效价、某物质质量浓度等,1)观察值中不能有)观察值中不能有0或负数,否则在做对数变或负数,否则在做对数变换前必须加上一个适当的常数换前必须加上一个适当的常数2)同一组观察值的几何平均数总是小于它的)同一组观察值的几何平均数总是小于它的算术平均数算术平均数2))适于描述对数正态分布资料或数据呈倍适于描述对数正态分布资料或数据呈倍数变化资料的平均水平数变化资料的平均水平几何均数的特点几何均数的特点医药数理统计方法医药数理统计方法三、中位数三、中位数(median)(median)定义:将一组观察值从小到大按顺序排列,定义:将一组观察值从小到大按顺序排列,X1≤X2≤…… ≤ Xn, 居中心位置的数值即为中位数,居中心位置的数值即为中位数,记为记为Me医药数理统计方法医药数理统计方法Excel 中位数函数:中位数函数:“==median(A2:j5)”医药数理统计方法医药数理统计方法四、百分位数四、百分位数(Percentile)定义:是一种位置指标,一个百分位定义:是一种位置指标,一个百分位数数Px把原始数据分为两个部分,比它把原始数据分为两个部分,比它小的占小的占x%,比它大的占,比它大的占1--x%。
式中:式中:L、、ix、、fx分别为分别为Px所在组段的下所在组段的下限,组距,频数;限,组距,频数;fL为为Px所在组段之前各组段的累积频数所在组段之前各组段的累积频数医药数理统计方法医药数理统计方法医药数理统计方法医药数理统计方法百分位数的应用百分位数的应用1) 计算四分位数间距来描述资料的计算四分位数间距来描述资料的离散程度离散程度2)用两个百分位数可以估计一些医学用两个百分位数可以估计一些医学参考值范围参考值范围3) P50==Me医药数理统计方法医药数理统计方法第三节第三节 离散程度的统计描述离散程度的统计描述一、极差一、极差(range)定义:也称全距,观察值中最大值与最小值定义:也称全距,观察值中最大值与最小值之差,之差,R==Xmax-Xmin例:对甲乙两名患者连续观察例:对甲乙两名患者连续观察5天,测得天,测得的收缩压分别为:的收缩压分别为:甲患者甲患者(mmHg) 162 145 178 142 186乙患者乙患者(mmHg) 164 160 163 159 166R甲甲==186--142==44mgHgR乙乙==166--159==7mgHg特点特点:极差大离散程度大,计算简单,极差大离散程度大,计算简单,粗略说明观察值变化范围粗略说明观察值变化范围Excel “=Max(A2:J5)-Min(A2:J5)”医药数理统计方法医药数理统计方法二、四分位数间距二、四分位数间距((quartile)定义:为上四分位数定义:为上四分位数QU(P75)与下四分与下四分位数位数QL(P25)之差。
之差Q=QU-Q L特点:四分位数间距越大,数据的变异越特点:四分位数间距越大,数据的变异越大比极差稳定,但没用到每一个具体的大比极差稳定,但没用到每一个具体的观察值,常用于描述偏态分布及分布一端观察值,常用于描述偏态分布及分布一端或两端没有确切数值的资料的离散趋势或两端没有确切数值的资料的离散趋势Excel 下四分位数下四分位数QL“== Quartile(A2:J5,1)” 上四分位数上四分位数Qu“== Quartile(A2:J5,3)”医药数理统计方法医药数理统计方法三、平均偏差三、平均偏差(mean difference)定义:将每个观察值与均数之差的绝定义:将每个观察值与均数之差的绝 对值相加,然后平均之对值相加,然后平均之特点:平均偏差越大,数据的变异特点:平均偏差越大,数据的变异 越大;不实用越大;不实用医药数理统计方法医药数理统计方法四、离均差平方和四、离均差平方和(sum of squares)特点特点:离均差平方和越大、数据:离均差平方和越大、数据变异越大;描述了每个观察值相变异越大;描述了每个观察值相对于集中位置的分散程度,但没对于集中位置的分散程度,但没考虑样本容量的影响考虑样本容量的影响医药数理统计方法医药数理统计方法五、方差五、方差(Variance,,mean of square)方差越大、数据变异越大方差越大、数据变异越大样本样本方差方差总体总体方差方差Excel 样本方差样本方差“==Vara(A2:J5)”医药数理统计方法医药数理统计方法六、标准差六、标准差(standard deviation)标准差越大,变异程度越大标准差越大,变异程度越大或或Excel 样本标准差样本标准差“==STDEV(A2:J5)”医药数理统计方法医药数理统计方法七、变异系数七、变异系数(coefficient of variation)应用:用于均数相差较大或度量衡单位不同应用:用于均数相差较大或度量衡单位不同的几组观察值变异程度的比较的几组观察值变异程度的比较医药数理统计方法医药数理统计方法Excel 原始数据计算变异系数的函数公式原始数据计算变异系数的函数公式 “=STDEV(A2:J5)/AVERAGE(A2:J5)”医药数理统计方法医药数理统计方法例例 比较腰围和体重两组数据变异度大小宜比较腰围和体重两组数据变异度大小宜采用(采用( )。
A.变异系数(变异系数(CV))B.方差方差C.极差(极差(R))D.标准差(标准差(S))。
