好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

二数值变量统计描述.ppt

92页
  • 卖家[上传人]:pu****.1
  • 文档编号:590444492
  • 上传时间:2024-09-14
  • 文档格式:PPT
  • 文档大小:2.43MB
  • / 92 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • School of public health,Shandong University数值变量资料的统计描述数值变量资料的统计描述 Descriptive Statistics Descriptive Statistics 统计描述统计描述统计推断统计推断指标描述指标描述图表描述图表描述参数估计参数估计假设检验假设检验变量关系变量关系统计设计统计设计统计分析统计分析实验设计实验设计调查设计调查设计研究内容研究内容统计描述:利用统统计描述:利用统统计描述:利用统统计描述:利用统计图、统计表、统计图、统计表、统计图、统计表、统计图、统计表、统计指标等来描述样计指标等来描述样计指标等来描述样计指标等来描述样本资料的特征本资料的特征本资料的特征本资料的特征 Descriptive Statistics 频数分布表(频数分布表(frequency table)) 离散型资料(discrete data):是指变量取值可以一一列举的资料例如,每个育龄妇女现有的子女数 如1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…4,7。

       连续型资料(continuity data):是指变量取值不能一一列举(即变量取值为一定范围内的任意值)的资料例如,人体的身高(cm)、体重(kg) 等 数值变量资料的分类: Descriptive Statistics 表表2-1 19982-1 1998年某地年某地9696名孕妇产前检查次数分布名孕妇产前检查次数分布检查次数(1)频 数 (2)频率(%)(3)0 4 4.21 7 7.321111.531313.542627.152324.0 >51212.5合计96 100.0 离散型资料(discrete data) Descriptive Statistics频数分布表(频数分布表(frequency table)) 根据表2-1频数的分布可绘出频数分布图 Descriptive Statistics频数分布表(频数分布表(frequency table)) 离散型资料(discrete data) 1998年某校100名18岁健康女大学生(cm)资料 Descriptive Statistics频数分布表(频数分布表(frequency table)) 连续型资料( continuity data) 1998年某校100名18岁健康女大学生(cm)资料 Descriptive Statistics频数分布表(频数分布表(frequency table)) 连续型资料( continuity data) 例例1 测得测得130名健康成年男子脉搏资料名健康成年男子脉搏资料(次次/分分)如下,试编制频数表和观察频数分布如下,试编制频数表和观察频数分布情况。

      情况75767269667257687172697273828082676973647458706460776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876 频数表的编制: Descriptive Statistics频数分布表(频数分布表(frequency table)) o((1 1))求极差求极差((rangerange):即最大值与最小值之差,又称为全距即最大值与最小值之差,又称为全距R R==84 84 – 57 =27( 57 =27(次次/ /分分) )o((2 2)) 决定分组组数、组距决定分组组数、组距:根据研究目的和样本含量:根据研究目的和样本含量n n确定分组组确定分组组数,通常分为数,通常分为1010~~1515个组。

      组距个组组距= =极差极差/ /组数,为方便计,组距为极组数,为方便计,组距为极差的十分之一差的十分之一, , 再略加调整再略加调整 27/10=2.7 ≈3 27/10=2.7 ≈3 o((3 3)) 列出组段列出组段:第一组段的下限略小于最小值,最后一个组段上:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值限必须包含最大值5656-- 5959-- …… 80 80-- 8383--8585o((4 4)) 划记计数划记计数:用划记法将所有数据归纳到各组段,得到各组段:用划记法将所有数据归纳到各组段,得到各组段的频数 Descriptive Statistics频数分布表(频数分布表(frequency table)) 频数表的编制: 表2-3 130名健康成年男子脉搏(次/分)的频数分布表N==∑∑f f Descriptive Statistics频数分布表(频数分布表(frequency table)) 频数表的编制:  频数分布图 Descriptive Statistics频数分布表(频数分布表(frequency table))  频数表的编制:表表2-4 160名正常成年女子的血清甘油三酯(名正常成年女子的血清甘油三酯(mmol/L))编号编号血清甘油三脂血清甘油三脂编号编号血清甘油三脂血清甘油三脂1 10.510.51……2 20.520.521531531.651.653 30.590.591541541.661.664 40.610.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.71.78 80.640.641591591.711.71……1601601.771.77 Descriptive Statistics频数分布表(频数分布表(frequency table))  频数表的编制:((1)求)求极差极差((range):即最大值与最小值之差,又称为全距。

      即最大值与最小值之差,又称为全距 本例极差:本例极差: R=1.77--0.51=1.26((mmol/L))((2)) 决定决定组数组数、、组段组段和和组距组距:根据研究目的和样本含量:根据研究目的和样本含量n确定组距距=极差极差/组数,通常分组数,通常分10-15个组,为方便计,组距参考极差的十分个组,为方便计,组距参考极差的十分之一之一, 再略加调整再略加调整 本例本例i= R /10=1.26/10=0.126≈0.13)) 列出组段:第一组段的列出组段:第一组段的下限略小于最小值下限略小于最小值,最后一个组段,最后一个组段上限上限必须包含最大值必须包含最大值,其它组段上限值忽略其它组段上限值忽略4)) 划记计数划记计数:用划记法将所有数据归纳到各组段,得到各组段的:用划记法将所有数据归纳到各组段,得到各组段的频数 Descriptive Statistics频数分布表(频数分布表(frequency table))  频数表的编制: 组组段段 ((1)) 划划 记记((2)) 频频数,数,f((3)) 组组中中值值,,X((4)) fX(5)= (3)×(4)0.5~~ 30.551.650.6~~正正90.655.850.7~~正正正正120.759.000.8~~正正正正130.8511.050.9~~正正正正正正170.9516.151.0~~正正正正正正181.0518.901.1~~正正正正正正正正201.1523.001.2~~正正正正正正181.2522.501.3~~正正正正正正171.3522.951.4~~正正正正131.4518.851.5~~正正91.5512.401.6~~正正 81.6514.851.7~~1.8 合计合计 31.755.25160182.30 Descriptive Statistics频数分布表(频数分布表(frequency table))  编制频数表的基本步骤:频数分布表(频数分布表(frequency table)) Descriptive Statistics  频数表的用途:频数分布表(频数分布表(frequency table)) Descriptive Statistics  频数表的用途:1.描述频数分布的类型和特征.描述频数分布的类型和特征 Descriptive Statistics频数分布表(频数分布表(frequency table)) ((1 1)对称分布)对称分布 :若各组段的频:若各组段的频数以中数以中 心位置左右两侧大心位置左右两侧大体对称,就认为该资料是对体对称,就认为该资料是对称分布称分布  频数表的用途:1.描述频数分布的类型和特征.描述频数分布的类型和特征是否为对称分布? Descriptive Statistics频数分布表(频数分布表(frequency table)) ((2 2)偏态分布)偏态分布 ::1 1))正偏态分布:右侧的组段数多于左正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾。

      侧的组段数,频数向右侧拖尾2)负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾  频数表的用途:1.描述频数分布的类型和特征.描述频数分布的类型和特征 Descriptive Statistics频数分布表(频数分布表(frequency table)) 表表2 2--3 3数据的频数分布特征:数据的频数分布特征:①①数据数据变异(离散)变异(离散)变异(离散)变异(离散)的范围在的范围在5757~~84 84 (次(次/ /分分 ))②②数数据据集集集集中中中中((((平平平平均均均均))))的的的的组组组组段段段段在在6868~~73 73 ((次次/ /分分))之之间间,,尤尤以以组组段段的的人人数数7171~~((次次/ /分分))最最多多且且上上下下组组段段的频数分布基本对称的频数分布基本对称 频数表的用途:1.描述频数分布的类型和特征.描述频数分布的类型和特征 Descriptive Statistics频数分布表(频数分布表(frequency table))  频数表的用途:2.便于发现一些特大或特小的可疑值.便于发现一些特大或特小的可疑值3 3.便于进一步做统计分析和处理.便于进一步做统计分析和处理 Descriptive Statistics频数分布表(频数分布表(frequency table)) 描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标统计上使用平均数(统计上使用平均数(averageaverage)这一指标体系来描述一组变量值的集中)这一指标体系来描述一组变量值的集中位置或平均水平。

      位置或平均水平常用的平均数有常用的平均数有: : 算术均数(均数)(算术均数(均数)(meanmean)) 几何均数(几何均数(geometric meangeometric mean)) 中位数中位数 ((medianmedian)与百分位数()与百分位数(percentilepercentile)) 众数(众数(modemode)) Descriptive Statistics   算术均数算术均数(arithmetic mean :简称均数(:简称均数(mean)) 可可用用于于反反映映一一组组呈呈对对称称分分布布的的变变量量值值在在数数量量上上的的平平均均水水平平或者说是集中位置的特征值或者说是集中位置的特征值  计算方法计算方法:直接法:例2.2 某地随机抽取10名18岁健康男大学生身高(cm)分别为168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7,求平均身高。

      cm) Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 例:测得例:测得130130健康健康成年男子成年男子脉搏资料脉搏资料( (次次/ /分分) )如下,计如下,计算平均水算平均水平75767269667257687172697273828082676973647458706460776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876  算术均数算术均数(arithmetic mean :简称均数(:简称均数(mean))直接法: Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 公式 :k k:: 频数表的组段数,频数表的组段数, f f :频数,:频数,X X:组中值。

      组中值  算术均数算术均数(arithmetic mean :简称均数(:简称均数(mean))加权法:o权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用o当各组的次数都相同时,即当f1=f2=f3=…=fn时:加权算术平均数就等于简单算术平均数 描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency) Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 表2-2 130名健康成年男子脉搏(次/分)的频数分布表N==∑∑f f∑∑fXfX∑∑fXfX2 2 Descriptive Statistics   算术均数算术均数(arithmetic mean :简称均数(:简称均数(mean)) 特点:o各个标志值与其算术平均数的离差之和等于零o各标志值与算术平均数离差的平方和为最小值o对于任意两个变量x和y,它们的代数和的算术平均数等于两个变量的算术平均数的代数和 Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标   算术均数算术均数(arithmetic mean :简称均数(:简称均数(mean)) 适用条件:1.均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。

      2.均数适用于描述单峰对称分布,特别是正态或近似正态分布资料的集中趋势o意义:一组性质相同的观察值在数量上的平均水平o表示 (总体) X(样本)o计算:直接法、间接法、计算机o特征: ∑(X- X)=0 估计误差之和为0o应用:正态分布或近似正态分布o注意:合理分组,才能求均数,否则没有意义小结: Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标   几何均数(几何均数( geometric mean ))例题:血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数此例的算术均数为此例的算术均数为2222222222,显然不能代表滴度的平均水平同一资料,,显然不能代表滴度的平均水平同一资料, Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 几何均数几何均数::变量对数值的变量对数值的算算术均数术均数的反对数的反对数。

      其他对数(如自然对数)变换获得相同的几何均数  几何均数(几何均数( geometric mean )) Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 例例 有有8份血清的抗体效价分别为份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价求平均抗体效价平均抗体效价为:平均抗体效价为: 1::57  几何均数(几何均数( geometric mean )) Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 例例 69 69例类风湿关节炎(例类风湿关节炎(RARA)患者血清)患者血清EBV-VCA-lgGEBV-VCA-lgG抗体滴度的分布见表抗体滴度的分布见表2-42-4第第(1)(1)、、(2)(2)栏,求其平均抗体滴度。

      栏,求其平均抗体滴度  几何均数(几何均数( geometric mean )) Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 适用于成等比数列的资料,特别是服从对数正态分适用于成等比数列的资料,特别是服从对数正态分布资料  几何均数(几何均数( geometric mean )) 适用条件:①①变量值中不能有变量值中不能有0 0;;②②不能同时有正值和负值;不能同时有正值和负值;③③若全是负值,计算时可先把负号去掉,得出结果后再加上负号若全是负值,计算时可先把负号去掉,得出结果后再加上负号 注意事项: Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标   几何均数(几何均数( geometric mean ))小结 意义:N个数值的乘积开N次方即为这N个数的几何均数 表示:G 计算: 应用:原始数据分布不对称,经对数转换后呈对称分布 的资料。

      例如:抗体滴度 Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 例题:例题:11个大鼠存活天数:个大鼠存活天数:4,,10,,7,,50,,3,,15,,2,,9,,13,,>60,,>60平均存活天数平均存活天数?  中位数(中位数( median )和百分位数()和百分位数( percentile ))㈠中位数v 定义:将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数(median,简记为M)v1.直接法:用于例数较少时 n为奇数时 n n为偶数时 Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 例:例: 9 9名中学生甲型肝炎的潜伏期分别为名中学生甲型肝炎的潜伏期分别为1212,,1313,,1414,, 1414,, 1515,, 1515,, 1515,, 17, 1917, 19天,求其中位数。

      天,求其中位数  中位数(中位数( median )和百分位数()和百分位数( percentile )) Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 下限值下限值L L上限值上限值U中位数中位数M M  中位数(中位数( median )和百分位数()和百分位数( percentile ))描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency) Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 例2.7 某疾病控制中心记录了199名沙门氏菌属食物中毒患者发病的潜伏期,并整理成表2-3中(1)、(2)栏,试计算其平均发病潜伏期 Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标   中位数(中位数( median )和百分位数()和百分位数( percentile ))v中位数适用条件:中位数适用条件:v①①变量值中出现个别特小或特大的数值变量值中出现个别特小或特大的数值; ;v②②资料的分布呈明显偏态,即大部分的变量值偏向一侧资料的分布呈明显偏态,即大部分的变量值偏向一侧; ;v③③变量值分布一端或两端无确定数值,只有小于或大于某个数值变量值分布一端或两端无确定数值,只有小于或大于某个数值; ;v④④资料的分布不清。

      资料的分布不清 Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 (二)百分位数((二)百分位数(percentilepercentile))  中位数(中位数( median )和百分位数()和百分位数( percentile ))百分位数(percentile)是一种位置指标,以Px表示百分位数是将频数等分为一百的分位数一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100-x)%的变量值比Px大故P50分位数也就是中位数,即P50=M Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 设有设有n个原始数据从小到大排列,第个原始数据从小到大排列,第X百分位数的计算公式为:百分位数的计算公式为: 当当 为带有小数位时:为带有小数位时: 当当 为为 整数时:整数时:Trunc()取整函数取整函数  中位数(中位数( median )和百分位数()和百分位数( percentile )) 直接法: Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 例例 对某医院细菌性痢疾治愈者的住院天数统计,对某医院细菌性痢疾治愈者的住院天数统计,120120名患者的住名患者的住院天数从小到大排列如下,试求第院天数从小到大排列如下,试求第5 5百分位数和第百分位数和第9999百分位数。

      百分位数患患 者者::住院天数住院天数:: (1)n=120,,为整数为整数:: (2) ,带有小数,故取整带有小数,故取整 trunc((118.8))= 118 Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标  频数表法:  中位数(中位数( median )和百分位数()和百分位数( percentile )) Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 例2.7 某疾病控制中心记录了199名沙门氏菌属食物中毒患者发病的潜伏期,并整理成表2-3中(1)、(2)栏,试计算其平均发病潜伏期。

      Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 例例 试分别求频数表的第试分别求频数表的第25、第、第75百分位数百分位数P25=65+3x[(130x25%-19)/15]=65.90P75=74+3x[(130x75%-85)/19]=74.66 Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 o众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值适用于大样本;较粗糙o例2-7 有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。

        众数(众数( mode )) Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 正态分布时: 均数=中位数=众数均数=中位数=众数正偏态分布时: 均数均数 > > 中位数中位数 > >众数众数负偏态分布时: 均数均数 < < 中位数中位数 < <众数众数  均数、中位数、均数、中位数、众数之间的关系众数之间的关系 Descriptive Statistics描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)描述数描述数值变量量资料的集中料的集中趋势(central tendency)(central tendency)指指标 盘编号 盘编号  甲甲乙乙丙丙1 14404804902 24604904953 35005005004 45405105055 5560520510合计合计250025002500250025002500均数均数500500500500500500例例::设设甲甲、、乙乙、、丙丙三三人人,,采采每每人人的的耳耳垂垂血血,,然然后后红红细细胞胞计计数数,,每每人人数数5 5个个计计数盘,得结果如下(万数盘,得结果如下(万/mm/mm3 3)) Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标 变异(变异(variationvariation)指标)指标反映数据的离散度(反映数据的离散度( DispersionDispersion )。

      即个体观察值的变异程度即个体观察值的变异程度常用的指标有:的指标有: 1. 1. 极差极差( (RangeRange)) ( (全距全距) ) 2. 2. 百分位数与四分位数间距百分位数与四分位数间距 Percentile and Quartile rangePercentile and Quartile range 3. 3. 方差方差 VarianceVariance 4. 4. 标准差标准差Standard DeviationStandard Deviation 5. 5. 变异系数变异系数 Coefficient of VariationCoefficient of Variation Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标 优点:简便缺点:1. 只利用了两个 极端值 2.n大,R也会大 3.不稳定1204020  极差(极差( Range )) Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标 百分位数百分位数 :数据从小到大:数据从小到大 排列排列; ;在百分在百分尺度下,所占百分比对应的值。

      记为尺度下,所占百分比对应的值记为P Px x 四分位间距四分位间距:: QR QR==P P7575-- P P2525  四分位数间距(四分位数间距( quartile range))特点:特点: 比极差稳定,只反映中间两端值的差异比极差稳定,只反映中间两端值的差异 计算不太方便可用于各种分布的资料计算不太方便可用于各种分布的资料 Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标   方差(方差( variance )) Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标 方差(方差(variancevariance)也称均方差()也称均方差(mean square deviationmean square deviation),),反映一组数据的平均离散水平。

      反映一组数据的平均离散水平 总体方差总体方差 样本方差样本方差 离均差平方和SS  方差(方差( variance )) Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标   标准差(标准差( Standard Deviation ))样本方差为什么要除以(样本方差为什么要除以(n n--1 1))与自由度(degrees of freedom)有关自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度若受到k个条件的限制,就只有(n-k)个自由度了计算标准差时, n个变量值本身有n个自由度。

      但受到样本均数的限制,任何一个“离均差”均可以用另外的(n-1)个“离均差”表示,所以只有(n-1)个独立的“离均差”因此只有(n-1)个自由度 Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标 标准差的公式还可以写成 :利用频数表计算标准差的公式为  标准差(标准差( Standard Deviation )) Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标 例2-11 对例2-1的前10个数据: 75,76,72,69,66,72,57,68,71,72, 用直接法计算标准差  标准差(标准差( Standard Deviation )) Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标 例2-11 对例2-1的前10个数据: 75,76,72,69,66,72,57,68,71,72, 用直接法计算标准差。

        标准差(标准差( Standard Deviation )) Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标 例2-12 利用表2-2中的数据和频数表法计算标准差N==∑∑f f∑∑fXfX∑∑fXfX2 2 Descriptive Statistics 标准差的意义和用途1.说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差; ... 标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势2.用于计算变异系数3.用于计算标准误(见第四章)4.结合均值与正态分布的规律,估计参考值的范围(见第五节)  标准差(标准差( Standard Deviation )) Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标 变异系数(coefficient of variation,CV) 常用于比较度量单位度量单位不同不同或均数相差悬殊均数相差悬殊的两组(或多组)资料的变异程度。

        变异系数(变异系数( coefficient of variation,CV )) Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标 某地某地7岁男孩身高的均数为岁男孩身高的均数为123.10cm,标准差为,标准差为4.71;体重均数为;体重均数为22.59kg,标准差为,标准差为2.26kg,比较其变异度?比较其变异度?   变异系数(变异系数( coefficient of variation,CV )) Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标   变异指标小结变异指标小结1.极差较粗,适合于任何分布.极差较粗,适合于任何分布2..标准差标准差与均数的单位相同,最常用,适合于近似正态分布与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,.平均指标和变异指标分别反映资料的不同特征, 常配套使用常配套使用 如如 正态分布正态分布:均数、标准差;:均数、标准差; 偏态分布偏态分布:中位数、四分位半间距:中位数、四分位半间距 Descriptive Statistics描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)描述数描述数值变量量资料的离散料的离散趋势(central tendency)(central tendency)指指标 o正态分布的通俗概念: 如果把数值变量资料编制频数表后绘制频数分布图(又称直方图,它用矩形面积表示数值变量资料的频数分布,每条直条的宽表示组距,直条的面积表示频数(或频率)大小,直条与直条之间不留空隙。

      若频数分布呈现中间为最多,左右两侧基本对称,越靠近中间频数越多,离中间越远,频数越少,形成一个中间频数多,两侧频数逐渐减少且基本对称的分布,那我们一般认为该数值变量服从或近似服从数学上的正态分布正态分布的概念 Descriptive Statistics正态分布(正态分布(Gaussian distribution) 以某地13岁女孩118人的身高(cm)资料,来说明身高变量服从正态分布o频数分布表: Descriptive Statistics正态分布(正态分布(Gaussian distribution) 频数分布图一(又称直方图) 从频数表及频数分布图上可得知: 该数值变量资料频数分布呈现中间频数多,左右两侧基本对称的分布所以我们通俗地认为该资料服从正态分布 Descriptive Statistics正态分布(正态分布(Gaussian distribution) 频数分布图二 Descriptive Statistics正态分布(正态分布(Gaussian distribution) 频数分布图三 Descriptive Statistics正态分布(正态分布(Gaussian distribution) 正态分布图四 Descriptive Statistics正态分布(正态分布(Gaussian distribution) Descriptive Statistics正态分布(正态分布(Gaussian distribution) o医学研究中的某些观察指标服从或近似服从正态分医学研究中的某些观察指标服从或近似服从正态分布;布;o很多统计方法是建立在正态分布的基础之上的;很多统计方法是建立在正态分布的基础之上的;o很多其他分布的极限为正态分布。

      因此,正态分布很多其他分布的极限为正态分布因此,正态分布是统计分析方法的重要基础是统计分析方法的重要基础 正态分布的重要性 Descriptive Statistics正态分布(正态分布(Gaussian distribution) 正态曲线(正态曲线(normal curvenormal curve)的发现)的发现de Moivre((1667-1754),),published in 1733Laplace((1749-1827))Gauss((1777-1855)正态分布)正态分布: 又称又称高斯分布高斯分布((Gaussian distribution)) Descriptive Statistics正态分布(正态分布(Gaussian distribution) 1.正态分布曲线的数学表达式.正态分布曲线的数学表达式(概率密度函数,概率密度函数,probability density function,,pdf )   正态分布的概念和特征:正态分布的概念和特征: Descriptive Statistics正态分布(正态分布(Gaussian distribution) Ø正态曲线下面积分布有一定的规律,总面积正态曲线下面积分布有一定的规律,总面积=1。

        正态分布的概念和特征:正态分布的概念和特征: Descriptive Statistics正态分布(正态分布(Gaussian distribution) Descriptive Statistics 累积面积可通过对概率密度函数累积面积可通过对概率密度函数f f( (X X) )积分求得积分求得(累积)分布函数:(累积)分布函数:  正态分布的概念和特征:正态分布的概念和特征: Descriptive Statistics正态分布(正态分布(Gaussian distribution) 图图2-7 正态曲线面积分布示意图正态曲线面积分布示意图 Descriptive Statistics 图图2-7 正态曲线面积分布示意图正态曲线面积分布示意图 Descriptive Statistics   标准标准正态分布的概念和特征:正态分布的概念和特征: Descriptive Statistics正态分布(正态分布(Gaussian distribution)   标准标准正态分布的概念和特征:正态分布的概念和特征: Descriptive Statistics正态分布(正态分布(Gaussian distribution)以上公式制成了附表以上公式制成了附表1,欲求一定区间标准正态分,欲求一定区间标准正态分布曲线下的面积查表即可。

      布曲线下的面积查表即可且且 例2-1的130名健康成年男子脉搏资料的均数、标准差分别为:71.32与5.80 (次/分);问在正态分布假定下,脉搏在65~75(次/分)之间有多少人?  标准标准正态分布的概念和特征:正态分布的概念和特征: Descriptive Statistics正态分布(正态分布(Gaussian distribution) 正态分布 标准正态分布 Descriptive Statistics 1.意意义义::医医学学参参考考值值((reference value))是是指指包包括括绝绝大大多多数数正正常常人人的的人人体体形形态态、、机机能能和和代代谢谢产产物物等等各各种种生生理理及及生生化化指指标标常常数数,,也称正常值也称正常值 由由于于存存在在个个体体差差异异,,生生物物医医学学数数据据并并非非常常数数而而是是在在一一定定范范围围内内波波动动,,故故采采用用医医学学参参考考值值范范围围作作为为判判定定正正常常和和异异常常的的参参考考标标准准,,但不是但不是“金标准金标准” Descriptive Statistics医学参考值(医学参考值(reference value) Descriptive Statistics医学参考值(医学参考值(reference value) 2.2.单、双侧问题,常依据医学专业知识而定单、双侧问题,常依据医学专业知识而定 双侧双侧 :如:血清总胆固醇、血液白细胞数无论过低或过高均属异常如:血清总胆固醇、血液白细胞数无论过低或过高均属异常单侧上限单侧上限 :如:血清转氨酶、如:血清转氨酶、 体内有毒物质过高异常体内有毒物质过高异常(越低越好(越低越好, P5 )) Descriptive Statistics医学参考值(医学参考值(reference value) 3. 3. 有有90%90%、、95%95%、、99% 99% 等医学参考值范围,等医学参考值范围,最常用最常用的是的是95%95% 。

      计算医学参考值范围的常用方法:计算医学参考值范围的常用方法: 1 1、正态分布法、正态分布法 2 2、百分位数法、百分位数法 Descriptive Statistics医学参考值(医学参考值(reference value) 单侧单侧下限下限单侧单侧上限上限1、正态分布法、正态分布法 Descriptive Statistics医学参考值(医学参考值(reference value) 1、正态分布法、正态分布法 Descriptive Statistics医学参考值(医学参考值(reference value) 单侧下限单侧下限单侧上限单侧上限2、百分位数法、百分位数法 Descriptive Statistics医学参考值(医学参考值(reference value) 例例2-16 2-16 测得某年某地名正常人的尿汞值如下表,试制定正测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的常人尿汞值的95%95%参考值范围参考值范围 表表2-7 282名正常人尿汞值(名正常人尿汞值( )测量结果)测量结果2、百分位数法、百分位数法 Descriptive Statistics医学参考值(医学参考值(reference value) 单侧上限单侧上限2、百分位数法、百分位数法 Descriptive Statistics医学参考值(医学参考值(reference value) Thank you !! Descriptive Statistics 精品课件资料分享 SL出品 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.