好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

【大学课件】分类变量资料的统计分析.ppt

71页
  • 卖家[上传人]:pu****.1
  • 文档编号:586749290
  • 上传时间:2024-09-05
  • 文档格式:PPT
  • 文档大小:985.52KB
  • / 71 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 100/667×100%=15%•乙地麻疹发病率为 50/250×100%=20%第一节第一节 分类变量资料的统计描述分类变量资料的统计描述 用相对数能较好地反映分类变量资料的特征用相对数能较好地反映分类变量资料的特征用相对数能较好地反映分类变量资料的特征用相对数能较好地反映分类变量资料的特征 分类变量资料的统计描述分类变量资料的统计描述 •常用相对数常用相对数•应用相对数时的注意事项应用相对数时的注意事项•率的标准化法率的标准化法 K为为比比例例基基数数,,如如100%100%、、10001000‰等等比比例例基基数数的的选选择择主主要要依依习习惯而定或使计算结果能保留惯而定或使计算结果能保留1 1~~2 2位整数 ratio)) 构构成成比比::是是指指事事物物内内部部某某一一部部分分的的观观察察单单位位数数与与事事物物内内部部各各组组成成部部分分的的观观察察单单位位数数总总和和之之比比,,用用以以说说明事物内部各部分所占的比重或分布明事物内部各部分所占的比重或分布常用百分数表示,故又称百分比常用百分数表示,故又称百分比 2001年年对对某某地地中中小小学学学学生生进进行行HbsAg检检查查,,结结果果见见表表10-1,,试试计计算算各各级级学学生生HbsAg检检出出率率及及阳阳性者构成比性者构成比 率和构成比不是同一指标,在应用时应注意加以区分。

      率和构成比不是同一指标,在应用时应注意加以区分 某某地地2003-2005年年不不同同性性别别新新生生儿儿数数见见表表10-2,试计算该地不同年份新生儿性别比试计算该地不同年份新生儿性别比 •正确区分构成比和率,不能以构成比代替率正确区分构成比和率,不能以构成比代替率 •正确计算平均率正确计算平均率•对率和构成比进行比较时,对率和构成比进行比较时,应注意资料的可比性应注意资料的可比性 •率的标准化率的标准化 •样本率或构成比进行比较时要作假设检验样本率或构成比进行比较时要作假设检验 在在进进行行两两个个内内部部构构成成不不同同的的总总率率比比较较时时,,采采用用统统一一的的标标准准进进行行校校正正,,然然后后计计算算校校正正后后的的标标准准化化率,再进行比较的方法称为率的标准化法率,再进行比较的方法称为率的标准化法率的标准化法率的标准化法 Pi i,,用标准人口数或标准人口构成进行计算用标准人口数或标准人口构成进行计算其中其中 为第为第i 组标准人口数,组标准人口数, 为标准组总人数,为标准组总人数, 为第为第i 组的实际率,组的实际率, 为第组标准人口构成。

      为第组标准人口构成 乙社区标准化后的患病率乙社区标准化后的患病率 mortality ratio)),,简简称称为为SMR若若SMR>1,,表表示示被被标标化化人人群群的的死死亡亡率率高高于于标标准准组组;;反反之之,,若若SMR<1,,表表示示被被标标化人群的死亡率低于标准组化人群的死亡率低于标准组 某某地地观观察察了了吸吸烟烟者者与与不不吸吸烟烟者者各各年年龄龄组组人人数数如如表表10-610-6,,同同时时观观察察期期内内吸吸烟烟者者中中有有432432人人死死于于肺肺癌癌,,不不吸吸烟烟者者中中有有210210人人死死于于肺肺癌癌,,试试计计算算吸吸烟烟者者与与不不吸吸烟烟者者的的标标准准化化死死亡率 非吸烟者的肺癌标准化死亡比非吸烟者的肺癌标准化死亡比 非吸烟者的肺癌标准化死亡率非吸烟者的肺癌标准化死亡率 ((1 1))当当各各比比较较组组内内部部构构成成((如如年年龄龄、、性性别别等等))不不同同时时,,应对率进行标准化后,再作比较应对率进行标准化后,再作比较2 2))标标准准化化率率只只表表明明各各标标化化组组率率的的相相对对水水平平,,而而不不代代表表其实际水平。

      其实际水平3 3))两两总总率率各各分分组组对对应应的的率率有有明明显显交交叉叉时时,,则则不不能能用用标标准化率进行比较准化率进行比较4 4))如如为为抽抽样样研研究究资资料料,,两两样样本本标标准准化化率率的的比比较较也也应应作作假设检验假设检验 分类变量资料的统计推断分类变量资料的统计推断•率的抽样分布率的抽样分布•率的抽样误差与标准误率的抽样误差与标准误•总体率的区间估计总体率的区间估计•率比较的率比较的u u检验检验 distribution)),,即即样样本本中中阳阳性性数数或或样样本本阳阳性性率率的的分分布布概概率率等等于于二二项项式式展展开开后后各各项项若若总总体体阳阳性性率率为为π、、样样本本含含量量为为n,,阳阳性性数数为为X,,则则样样本本中中出出现现X个阳性事件的概率可由下式求得个阳性事件的概率可由下式求得 =0.5,,n =10;;②②π =0.3,,n =5;;③③π =0.3,,n =10;;④④π =0.3,,n =15试试根根据据式式((10-6))求求各各阳阳性性数数事事件件的的概概率率并作概率分布图并作概率分布图 图图10-1 10-1 率的抽样分布图率的抽样分布图 π =1-=1-ππ时,呈对称分布;时,呈对称分布;3.3.当当n n增大时,逐渐逼近正态分布。

      增大时,逐渐逼近正态分布 一般认为,当一般认为,当nπnπ和和n n(1-(1-ππ)≥5)≥5时时, , 可近似看可近似看作正态分布作正态分布 10-6 为为了了解解某某地地人人群群结结核核菌菌素素试试验验阳阳性性率率情情况况,,某某医医疗疗机机构构在在该该地地人人群群中中随随机机检检测测了了17731773人人,,结结核核菌菌素素试试验验阳阳性有性有682682人,阳性率为人,阳性率为38.47%38.47%,试计算其标准误试计算其标准误 u 是是标标准准正正态态分分布布双双侧侧临临界界值值,,在在估估计计总总体体率率的的95%置信区间时,其值为置信区间时,其值为1.96;;99%置信区间时,其值为置信区间时,其值为2.58 38.47% 1.96 1.16%=36.20%~40.74%99%的置信区间:的置信区间: 38.47% 2.58 1.16%=35.48%~41.46% 例例10-6中中该该地地人人群群中中结结核核菌菌素素试试验验阳阳性性率率95%和和99%的置信区间为:的置信区间为: 50,,特特别别是是p接接近近于于0或或1时时,,按按二二项项分布原理估计总体率的可信区间。

      分布原理估计总体率的可信区间•因因其其计计算算比比较较复复杂杂,,统统计计学学家家已已经经编编制制了了总总体体率率可可信信区区间间估估计计用用表表,,可可根根据据样样本本含含量量n和和阳阳性性数数x查查阅阅统统计计学专著中的附表学专著中的附表 u 检验检验 当当样样本本含含量量n足足够够大大,,样样本本率率p或或1-p均均不不太太小小时时((如如np和和n(1-p)均均大大于于5)),,样样本本率率的的分分布布近近似似正正态态分分布布样样本本率率和和总总体体率率之之间间、、两个样本率之间的比较可用两个样本率之间的比较可用u检验检验(u test) 10-7 一一般般情情况况下下,,直直肠肠癌癌围围术术期期并并发发症症发发生生率率为为30%30%,,现现某某医医院院手手术术治治疗疗了了385385例例直直肠肠癌癌患患者者,,围围术术期期出出现现并并发发症症有有100100例例,,并并发发症症发发生生率率为为26%26%,,问问该该院院直直肠肠癌癌患患者者围围术术期期并并发发症症发发生生率率与与一一般般情情况况比比较有无统计学差异较有无统计学差异本本例例,,样样本本率率为为26%,,np和和n(1-p)均均大大于于5,,可可采采用用u检验。

      检验 建立检验假设建立检验假设 H0:  = 0,,H1:    0,, =0.052. 计算计算u值值 3. 确定确定P值,判断结果值,判断结果本本题题u u=1.713=1.713<<1.961.96,,P P>>0.05,0.05,按按 =0.05=0.05的的水水准准不不拒拒绝绝H H0 0,,差差异异没没有有统统计计学学意意义义,,故故尚尚不不能能认认为为该该院院直直肠肠癌癌患患者者围术期并发症发生率与一般情况不同围术期并发症发生率与一般情况不同 10-8 为为了了解解某某地地小小学学生生蛔蛔虫虫感感染染率率的的城城乡乡差差异异,,抽抽样样调调查查了了该该地地小小学学生生2279222792人人,,其其中中城城镇镇小小学学生生82078207人人,,粪粪检检蛔蛔虫虫卵卵阳阳性性数数为为701701人人,,蛔蛔虫虫感感染染率率为为8.54%8.54%,,乡乡村村小小学学生生1458514585人人,,粪粪检检蛔蛔虫虫卵卵阳阳性性数数为为21672167人人,,蛔蛔虫虫感感染染率率为为14.86%14.86%,,试试比比较较该该地地小小学学生生蛔蛔虫虫感感染染率率城城乡乡差差异异有有无无统统计计学意义。

      学意义1. 建立检验假设建立检验假设 H0:  1= 2,,H1:  1  2,, =0.052. 计算计算u值值 确确定定P P值值和和判判断断结结果果 本本题题 =13.739=13.739>>2.582.58,,P P<<0.01,0.01,按按 =0.05=0.05的的水水准准拒拒绝绝H H0 0,,接接受受H H1 1,,差差异异有有统统计计学学意意义 3. 确定确定P值,判断结果值,判断结果  2检验检验•基本思想基本思想•四格表资料的卡方检验四格表资料的卡方检验•配对设计分类变量资料的卡方检验配对设计分类变量资料的卡方检验•行行×列表资料的卡方检验列表资料的卡方检验 2检验(检验(Chi-square test))t 是是现现代代统统计计学学的的创创始始人人之之一一,,英英国国统统计计学学家家K.Pearson于于1900年年提提出出的的一一种种具具有有广广泛泛用用途途的的假假设设检检验验方方法法常用于分类变量资料的统计推断常用于分类变量资料的统计推断 某某医医生生欲欲比比较较用用甲甲、、乙乙两两种种药药物物治治疗疗动动脉脉硬硬化化的的疗疗效效,,甲甲药药治治疗疗71例例,,有有效效52例例,, 乙乙药药治治疗疗42例例,,有有效效39例例,,结结果果见见表表10-7。

      问问两两种种药药物物的的有有效效率率是是否否有有差别?差别?表表10-7 甲、乙两种药物治疗动脉硬化的疗效比较甲、乙两种药物治疗动脉硬化的疗效比较 2 2检验的自由度检验的自由度 •指可以自由取值的基本格子数指可以自由取值的基本格子数 •自由度一定时,其自由度一定时,其 2 2值的概率分布也就确定根据自由值的概率分布也就确定根据自由度度 和检验水准和检验水准 查表查表10-13 10-13 可得可得 2 2界值,若界值,若 2 2值值≥≥ 2 20.050.05(( ),),则可按则可按 =0.05=0.05的检验水准拒绝的检验水准拒绝H H0 0;若;若 2 2值<值< 2 20.050.05(( ),),则还不能拒绝则还不能拒绝H H0 0 理理+-合合 计计Aaba+bBcdc+d合合 计计a+cb+dn((a+b+c+d)) :两药有效率相同,即:两药有效率相同,即 1== 2H1 :两药有效率不同,即:两药有效率不同,即 1    2 =0.05((1)) 建立检验假设,确定检验水准建立检验假设,确定检验水准例例10-9 10-9 甲、乙两种药物治疗动脉硬化的疗效比较甲、乙两种药物治疗动脉硬化的疗效比较  2 20.0250.025((1 1))=5.02=5.02,, 2 20.010.01((1 1))=6.63=6.63。

      本本 例例5.02<5.02< 2 2=6.48<6.63=6.48<6.63,,所所以以,,0.0250.025 P P  0.010.01,,按按 =0.05=0.05水水准准,,拒拒绝绝H H0 0,,接接受受H H1 1,,故故认认为为甲甲、、乙乙两两药药的的疗疗效效不不同同,,乙药疗效要好于甲药乙药疗效要好于甲药 ((2)计算检验统计量和自由度)计算检验统计量和自由度((3)确定)确定P值,做出推论值,做出推论n>40,,Tmin>5 2 2检验的校正检验的校正 分分布布是是一一种种连连续续性性分分布布,,而而分分类类变变量量资资料料属属离离散散性性分分布布,,由由此此得得到到的的 统统计计量量也也是是不不连连续续的的为为改改善善 2 2统统计计量量分分布布的的连连续续性性,,英英国国统统计计学学家家Yates F建建议议将将实实际际频频数数和和理理论论频数之差的绝对值减去频数之差的绝对值减去0.5以作校正以作校正 10-10 某某医医生生研研究究比比较较A A、、B B两两种种药药物物对对急急性性细细菌菌性性肺肺炎炎的的疗疗效效,,有有关关资资料料见见表表10-810-8,,问问两两种种药药物物的的疗疗效差别有无统计学意义?效差别有无统计学意义?表表10-8 A、、B两药治疗急性细菌性肺炎的疗效比较两药治疗急性细菌性肺炎的疗效比较  1= 2H1:  1  2  =0.05 T22=22 8/64=2.75 <5 按按 =1=1,, 查查 2 2值值 表表 ,, 2 20.050.05((1 1))=3.84=3.84,, 2 2=4.79=4.79 3.843.84,,P P<0.05, <0.05, 按按 =0.05=0.05水水准准,,拒拒绝绝H H0 0,,接接受受H H1 1,,认认为为两两药药的的疗疗效效差差别别有有统统计计学学意意义义,,A A药药疗效要好于疗效要好于B B药。

      药 1))T≥5T≥5,且,且N≥40N≥40时,直接计算值,不用校正; 时,直接计算值,不用校正; ((2 2))1≤T<5, 1≤T<5, 且且N≥40N≥40时,用连续性校正检验;时,用连续性校正检验;((3 3))T<1T<1或或N<40N<40,不能用卡方检验,用直接计算概率的方法不能用卡方检验,用直接计算概率的方法 2 2检验检验 10-11 用用两两种种血血清清学学方方法法对对100100例例肝肝癌癌患患者者进进行行检检测测,,有有关关检检测测结结果果见见表表10-910-9,,问问两两种种血血清清学学方方法检测结果有无差别?法检测结果有无差别?表表10-9 两种血清学方法对肝癌检测的结果比较两种血清学方法对肝癌检测的结果比较甲法甲法乙法乙法合计合计+-+503282-15 318合计合计6535100 :两种方法检出率相同,即:两种方法检出率相同,即B = CH1 ::两种方法检出率两种方法检出率不同,即不同,即B   C =0.05查查表表得得,,P<0.025,,按按 =0.05水水准准,,拒拒绝绝H0,,接接受受H1,,差差别别有有统统计计学学意意义义,,可可以以认认为为两两种种方方法法的的检检出出率率不不同同,,甲法较高。

      甲法较高1))((2))((3)) n及一致结果(及一致结果(a与与d),因此,当),因此,当n n很大而且两法一致率较高(即很大而且两法一致率较高(即a与与d数值较大),数值较大),b与与c的数值相对较小时,即使检验结果有统计学意义,的数值相对较小时,即使检验结果有统计学意义,但实际意义并不大但实际意义并不大  =(R-1)(C-1) 某某研研究究者者欲欲比比较较甲甲、、乙乙、、丙丙3家家医医院院住住院院病病人人院院内内感感染染情情况况,,随随机机抽抽查查同同一一时时期期各各医医院院住住院院病病人人院院内内感感染染情情况结果见表况结果见表10-10,试比较三家医院院内感染率有无差别试比较三家医院院内感染率有无差别表表10-10 甲、乙、丙三家医院住院病人院内感染率比较甲、乙、丙三家医院住院病人院内感染率比较 :三家医院院内感染率相同:三家医院院内感染率相同H1 ::三家医院院内感染率不同或不全相同三家医院院内感染率不同或不全相同 =0.05((1))((2))((3)) = =((3-13-1)()(2-12-1))=2=2,查,查 2 2值表,值表, 2 20.010.01((2 2))=9.21=9.21,,  2 2> > 2 20.010.01((2 2)), P

      来讲有差别 10-13 某某研研究究者者欲欲了了解解白白内内障障发发病病是是否否与与ABOABO血血型型有有关关,,收收集集有有关关资资料料见见表表10-1110-11,,问问白白内内障障组组与与对照组对照组ABOABO血型分布有无差别?血型分布有无差别? :白内障组与对照组:白内障组与对照组ABO血型分布相同血型分布相同H1 ::白内障组与对照组白内障组与对照组ABO血型分布不同或不全相同血型分布不同或不全相同 =0.05查查表表得得,, 2 20.050.05((3 3))=7.81=7.81,,  2 2< < 2 20.050.05((3 3)),,P>P>0.05, 0.05, 按按 =0.05=0.05的的检检验验水水准准,,不不拒拒绝绝检检验验假假设设,,尚尚不不能能认认为为白白内障组与对照组内障组与对照组ABOABO血型分布不同血型分布不同 ((1))((2))((3)) =(2-1)(4-1)=3 5或者有一个格子的理论频数小于或者有一个格子的理论频数小于1 1)处理方法处理方法•如如假假设设检检验验的的结结果果是是拒拒绝绝无无效效假假设设,,只只能能认认为为各各总总体体率率或或构构成成比比之之间间总总的的来来说说有有差差别别。

      若若要要进进一一步步了了解解哪哪两两者者之之间间有差别,可用卡方分割法,或者调整检验水准有差别,可用卡方分割法,或者调整检验水准•对对于于单单向向有有序序行行列列表表,,在在比比较较各各处处理理组组的的效效应应有有无无差差别别时时,,应该用秩和检验应该用秩和检验行行×列表卡方检验的注意事项:列表卡方检验的注意事项: 某产院拟分析当地畸形儿与母亲分娩年龄的关系,检查了某产院拟分析当地畸形儿与母亲分娩年龄的关系,检查了新生儿新生儿44704470例,得以下资料,据此得出结论例,得以下资料,据此得出结论: :“母亲年龄在母亲年龄在2424—2929岁时,畸形儿最多,占总数的岁时,畸形儿最多,占总数的92.2%92.2%,表明该年龄段易,表明该年龄段易发生畸形儿,符合一般规律发生畸形儿,符合一般规律”试分析该结论是否合理?试分析该结论是否合理?某地畸形儿与母亲分娩年龄的关系某地畸形儿与母亲分娩年龄的关系 生生检查人数人数阳性人数阳性人数检出率出率((%))阳性构成比阳性构成比((%))小学生小学生66060.915.41初中生初中生1115494.3944.14高中生高中生1563563.5850.45合合 计33381113.33100.00表表10-1 200110-1 2001年某地中小学学生年某地中小学学生HBsAgHBsAg检出率及构成比检出率及构成比 3种处理方法种处理方法1)增大样本含量,以达到增大理论频数的目的;增大样本含量,以达到增大理论频数的目的;2)删去理论频数太小的格子对应的行或列;删去理论频数太小的格子对应的行或列;3)合合理理合合并并::结结合合专专业业,,将将理理论论频频数数太太小小的的行行或或列与性质相近的行或列合并。

      列与性质相近的行或列合并 (黄陈平黄陈平 施红英施红英) ) 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.