
个体变异与变量分布课件.ppt
76页个体变异与变量分布荀鹏程个体变异(individual variation)是同质观察对象间表现出的差异变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映就个体而言:变异是随机的(random)就总体而言:个体变异是有规律的个体变异是统计学应用的前提个体变异抽样误差统计推断一个原始资料某市1997年12岁男童120人的身高(cm)资料如下142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 134.5 148.8134.4 148.8 137.9 151.3 140.8 149.8 145.2 141.8 146.8 135.1150.3 133.1 142.7 143.9 151.1 144.0 145.4 146.2 143.3 156.3141.9 140.7 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 134.7 147.3138.1 140.2 137.4 145.1 145.8 147.9 150.8 144.5 137.1 147.1142.9 134.9 143.6 142.3 125.9 132.7 152.9 147.9 141.8 141.4140.9 141.4 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 129.4 142.5141.2 148.9 154.0 147.7 152.3 146.6 132.1 145.9 146.7 144.0135.5 144.4 143.4 137.4 143.6 150.0 143.3 146.5 149.0 142.1140.2 145.4 142.4 148.9 146.7 139.2 139.6 142.4 138.7 139.9计量资料的频数、频率分布组 段 频 数 频 率 124 10.0083 128 20.0167 132 100.0833 136 220.1834 140 370.3083 144 260.2167 148 150.1250 152 40.0333 156 20.0167 160 10.0083合 计1201.0000计量资料的频数分布图-直方图124132140148156164010203040人数图 某市120名12岁男童身高的频数分布频数表编制步骤 求极差选定适当的组段数后估计组距列出组段划记归组获得频数求频率,完成频数表 频数分布表和频数分布图的用途 描述分布类型描述分布的特征便于发现特大、特小的可疑值便于计算有关指标、统计分析与处理频数分布类型对称分布:以正态分布较为常见非对称分布:偏态分布正偏态:右侧左侧 向右侧拖尾 均数中位数 负偏态:左侧右侧 向左侧拖尾 均数中位数 频数分布特征 数据分布的范围:125.9160.9cm数据最集中的区间:140.0144.0cm分布形态:基本对称同一组资料,不同的人编制的频数表,结同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。
果不尽相同,允许几个合理的结果并存定性及等级资料的频数分布离散型频数表离散型频数图直条图 频数分布表血型 频数 频率(%)O205 40.43 A112 22.09 B150 29.59 AB 40 7.89合计 507 100.00频数分布图OABAB图 239人发汞含量的频数分布1 3 5 7 9 11 13 15 17 19 21发汞含量(umol/kg)70605040302010 0人数图 某城市892名老年人生存质量自评分的频数分布0 10 20 30 40 50 60 70 80 90 100自评分400300200100 0人数图 102名黑色数瘤患者的生存时间频数分布1 5 10 15 20 25 30 35 40 45生存时间(月)40302010 0人数图 某地19901992年男性死亡年龄分布 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85死亡年龄(岁)2500200015001000 500 0课后习题P355:练习2.1 统计资料的描述列表描述:频数分布表、一览表图形描述:频数分布图、趋势图指标描述定量资料 集中位置:算术均数、几何均数、中位数、百分位数 离散程度:极差、四分位数间距、方差、标准差定性或等级资料相对数指标:率、构成比、比集中位置的描述-平均数(average)均数(arithmetic mean,mean)均数的几何意义均数代表每组观察值的平衡点,也就是重心。
如:(1,4,7,8)则均数为5则图示如下:均数的重要特性:离均差(各观察值与均数之差)总和等于零 12345678平均数(average)加权均数(weighted mean)均数是加权均数的一个特例平均数(average)几何均数(geometric mean)几何均数例1:10,1:20,1:40,1:80,1:160平均数(average)中位数(median)将一组数据按从小到大的顺序排列,位置居中的数即是中位数中位数例9例正常人的发汞值(mol/kg):1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.810例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=5.2 平均数(average)百分位数(percentile)X%PX (100-X)%50分位数就是中位数 其中 LX:PX所在组下限 iX:PX所在组组距 fX:PX所在组频数 n:样本例数 fL:小于PX所在组的各组段累计频数 百分位数例利用表2.1,求P50,P25,P75平均数应用的注意事项同质的资料计算平均数才有意义根据资料分布的特征选用适当的平均数均数:单峰对称分布的资料几何均数:等比资料、滴度资料、正偏态资料中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。
偏态分布、分布不明资料、有 不确定值的资料)平均数应用的注意事项计算几何均数时:变量值中不能有0 同一组变量值不能同时存在正、负值 若变量值全为负值,可先将负号除去,算出结果后再冠以负号 样本含量较少时不宜计算靠近两端的百分位数 平均数要与变异指标结合使用思考题:在太阳、地球和月球组成的体系中:太阳的质量为 21030kg地球的质量为 5.971024kg月球的质量为0.0731024kg请问:三者平均质量为多少?看一个例子:有甲、乙两组同性别同年龄儿童体重(kg):甲组 26,28,30,32,34 =30 kg n甲=5乙组 24,27,30,33,36 =30 kg n乙=5上述两组数据的特点:集中位置 相同:均为30kg 离散程度不同:各观察值离均数的远近不同离散趋势的描述全距(Range)亦称极差,记为R,是一组变量值中最大值与最小值之差优点:简单明了缺点:不灵敏、不稳定 离散趋势的描述四分位数间距(interquartile range)定义为:QUQL,即中间一半观察值的极差四分位数(quartile)是两个特定的百分位数:第25分位数P25,和第75分位数P75,分别记为QL和QU。
四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征离散趋势的描述方差(Variance)和标准差(Standard Deviation)“离均差平方之和 平均后的方根”n-1 称为(标准差的)自由度,即“可以自由变异的程度”因为任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”标准差的基本内容是“离均差”,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度离散趋势的描述变异系数(coefficient of variation)亦称离散系数(coefficient of dispersion),是标准差s与均数之比,即:变异系数的两个特点及相应的用途 没有单位反映标准差占均数的百分比或标准差是均数的几倍可用来比较度量衡单位不同的资料的变异度 不受平均水平的影响反映的是以均数为基数的相对变异的大小比较均数相差悬殊的资料的变异度 某地20岁男子100人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.7kg,标准差为4.96kg,试比较身高和体重的变异身高体重绝对变异受平均水平的影响相对变异排除了平均水平的影响平均数与变异度的关系 平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差 平均数与变异度的关系通常,平均数与变异指标一起描述资料的分布特征。
用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料的特征资料的指标描述是统计描述的一个重要的组成部分定量资料的统计指标平均水平指标:算术均数、几何均数、中位数 等离散程度指标:全距、四分位数间距、方差、标准差、变异系数定性资料或等级资料的统计指标相对数相对数指标指标绝对数的概念与意义调查研究和实验研究得到的定性资料或等级资料经过整理,清点数目得到的数值称为绝对数如某病的发病人次数、医院收容人数、治愈人数等绝对数反映一定条件下某种事物的规模或水平,是计划或总结工作的依据,绝对数是计算相对数与平均数的基础绝对数往往不便于比较绝对数往往不便于比较例:调查得某年小学生中流脑发病:甲地区63例,乙地区35例v甲地区流脑流行比乙地区严重 v如已知小学生总人数:甲地区50051人,乙地区14338人,可算出两个发病率:v甲地区流脑发病率:63/500511000=1.26v 乙地区流脑发病率:35/14338 1000=2.44 v乙地区流脑流行比甲地区严重乙地区流脑流行比甲地区严重相对数的概念 和意义概念:相对数是两个有联系的指标之比两个特点:表示事物出现的频度把基数化作相等,便于比较。
常用相对数 率构成比相对比 率 率(rate)又称频率指标频率指标,用以说明某事物或某现象在其可能发生的范围内实际发生的频率或强度计算公式为:关于率的几点说明(一)分子和分母都是计数值,从定义上来看,分子应为分母的一部分,但在实际应用中一些率的指标可能并不符合率的定义,但它们是约定俗成、沿习使用的根据频率的稳定性,分母较大时,可以用率作为该事件发生机会(即概率)的近似值例如:医治100例病人,90例痊愈,则:治愈率=90/100=90%它近似的反映了病人治愈机会的大小关于率的几点说明(二)0 rate1率常以百分率(%)、千分率()、万分率(1万)、十万分率(l10万)等表示比例基数(K)可以是100、1000、,其选取是根据习惯用法和需要选用,主要使算得的率至少保留12位整数,便于阅读患病率、发病率、感染率:百分率(%)人口出生率与死亡率:千分率()肿瘤死亡率:十万分率(l10万)构成比 构成比(proportion)又称构成指标,表示某一事物内部各组成部分所占的比重或分布比重或分布,常以百分数表示,计算公式为:设某事物个体数的合计由A1,A2,Ak个部分组成,构成比计算为:构成比的特点:同一事物内部的k个组成部分构成比总和为100%。
各部分构成比之间是相互影响的,某一部分比重的变化受到两方面因素的影响:其一是这个部分自身数值的变化,其二受其他部分数值变化的影响比比(ratio)亦称相对比,是 A、B两个有关指标之比v说明A为B的若干倍或百分之几,它是对比的最简单形式A、B两个指标可以是绝对数,也可以是相对数;可以性质相同,也可以性质不同;可以。












