
医药常用统计方法终PPT演示课件.ppt
89页医药常用统计方法与统计医药常用统计方法与统计图表图表主要内容统计基本概念统计基本概念1假设检验假设检验2常用统计方法常用统计方法3统计图表统计图表4一、统计基本概念• 医学统计工作的内容医学统计工作的内容–统计工作贯穿医学研究中的全过程,医学研究中的统计工作包括:统计工作贯穿医学研究中的全过程,医学研究中的统计工作包括:•研究设计研究设计•数据搜集数据搜集•数据整理数据整理•数据分析数据分析医学统计工作的内容A.A.研究设计研究设计设设计计一一般般包包括括专专业业设设计计和和统统计计设设计计专专业业设设计计即即确确定定调调查查题题目目、、 内容等统计设计包括资料收集、整理与分析统计设计包括资料收集、整理与分析实验三要素实验三要素:处理因素、受试对象、实验效应:处理因素、受试对象、实验效应设计四原则设计四原则:对照、随机化、重复、盲法:对照、随机化、重复、盲法B.B.搜搜集集资资料料::按按照照设设计计要要求求,,原原则则是是及及时时、、准准确确、、完完整整地地收收集集原原始始数据 数数据据来来源源::病病历历、、日日常常医医疗疗工工作作记记录录、、临临床床检检查查与与化化验验记记录录、、 疾病监测报表、专题研究疾病监测报表、专题研究C.C.数据整理:对数据进行清理、改错、数量化数据整理:对数据进行清理、改错、数量化D.D.数据分析:统计描述、统计推断数据分析:统计描述、统计推断一、统计基本概念•常用概念常用概念 A. A. 同质与变异同质与变异–在调查研究或实验研究中,除了直接关注的影响因素在调查研究或实验研究中,除了直接关注的影响因素外,其他非研究因素也会影响研究结果,为了突出研外,其他非研究因素也会影响研究结果,为了突出研究因素的作用,需要使各比较组之间非研究因素尽可究因素的作用,需要使各比较组之间非研究因素尽可能相同,即能相同,即同质同质–即使非研究因素控制在相同条件下,个体的观察值之即使非研究因素控制在相同条件下,个体的观察值之间也会有所不同,这种差异叫做间也会有所不同,这种差异叫做变异变异 B. B. 总体与样本总体与样本§根据研究目的确定的同质研究对象的全体称为根据研究目的确定的同质研究对象的全体称为总体总体§按随机化原则从总体中抽取的部分研究对象称按随机化原则从总体中抽取的部分研究对象称为样本为样本 C. C. 抽样和抽样误差抽样和抽样误差–抽样是指从总体选取样本的过程,抽样的目的是用样本信息来推抽样是指从总体选取样本的过程,抽样的目的是用样本信息来推断总体特征断总体特征–由于抽样所造成的样本指标与总体指标的差异称为抽样误差由于抽样所造成的样本指标与总体指标的差异称为抽样误差 D. D. 概率和小概率事件概率和小概率事件–概概率率( (probability)probability)是是反反映映某某一一事事件件发发生生的的可可能能性性的的大大小小,,常常用用符符号号P P表表示示。
其其值值在在0 0和和1 1之之间间概概率率等等于于1 1的的事事件件是是必必然然事事件件,,概概率率等于等于0 0的事件是不可能事件,随机事件的概率小于的事件是不可能事件,随机事件的概率小于1 1,而大于,而大于0 0–小概率事件小概率事件习惯上是指习惯上是指P<=0.05P<=0.05的事件 E. E. 变量类型变量类型–定量变量定量变量 也也称称数数值值变变量量,,根根据据变变量量的的取取值值之之间间有有无无缝缝隙隙,,将将定定量量变变量量分分为连续变量和离散变量为连续变量和离散变量–定性变量定性变量 也称分类变量,根据变量类别之间是否有顺序、等级、大小关系,也称分类变量,根据变量类别之间是否有顺序、等级、大小关系,将定性变量划分成有序变量和名义变量将定性变量划分成有序变量和名义变量变量定量变量(数值变量)连续变量离散变量定性变量(分类变量)有序变量二项分类多项分类名义变量二项分类多项分类二、假设检验•在临床研究中常常需要判断两种疗效有无显著差在临床研究中常常需要判断两种疗效有无显著差异,从而选择临床最优治疗方案,需用到假设检异,从而选择临床最优治疗方案,需用到假设检验,亦称显著性检验验,亦称显著性检验•基本思想基本思想–对所估计的总体先提出假设(原假设),再用适当的对所估计的总体先提出假设(原假设),再用适当的统计方法确定假设成立的可能性大小,若可能性小,统计方法确定假设成立的可能性大小,若可能性小,则认为假设不成立,若可能性大,不能认为假设不成则认为假设不成立,若可能性大,不能认为假设不成立立–小概率事件在一次试验中基本不会发生小概率事件在一次试验中基本不会发生统计检验(假设检验)步骤统计检验(假设检验)步骤 ::((1 1))建立假设检验,确定检验水平建立假设检验,确定检验水平 H H0 0:(无效假设)即假设两个:(无效假设)即假设两个X X所属总体相同,表达为所属总体相同,表达为μμ1 1==μμ2 2 H H1 1:(备择假设)即假设两个:(备择假设)即假设两个X X所属总体不同,表达为所属总体不同,表达为μμ1 1≠μ≠μ2 2 αα:(检验水平)通常取:(检验水平)通常取5%5%,表达为,表达为αα= 0.05 = 0.05 ((2 2)计算统计量)计算统计量 t t(当样本含量(当样本含量n n<<100100时)时) 或或 U U(当样本含量(当样本含量n n≥≥100100时)时)((3 3)确定概率值()确定概率值(P P值)值) 通过通过t t与与t t0.050.05(查表可得)比较,或(查表可得)比较,或U U与与1.961.96((U U0.050.05)比较)比较((4 4))根据统计推断结果,结合相应的专业知识,给出结论根据统计推断结果,结合相应的专业知识,给出结论假设检验分类•参数检验参数检验–单样本单样本t t检验检验–两独立样本两独立样本t t检验检验–两配对样本两配对样本t t检验检验–多样本均值检验多样本均值检验•非参数检验非参数检验–符号检验符号检验–秩和检验秩和检验–Pearson Pearson 检验检验–Kolmogorov-SmirnovKolmogorov-Smirnov检验检验v以单样本以单样本t t检验为例检验为例v例:正常人血清无机磷总体均数为4mg/dl,某地随机抽取16个成人慢性肾炎患者,检查得血清无机磷均数为5mg/dl,标准差为1.6mg/dl。
问该地成人慢性肾炎患者的血清无机磷是否与正常人有区别?(即已知:μ= 4 X = 5 S = 1.6 n=16)v临床意义:证实慢性肾炎是否会导致血清无机磷含量的改变,即血清无机磷是否可以作为慢性肾炎的诊断指标或疗效观察指标1)H0:μ=μ0(慢性肾炎患者血清无机磷与正常人相同) H1:μ≠μ0(慢性肾炎患者血清无机磷与正常人不同) 2)t = (X – μ)/ SX = 2.53)ν= n-1 = 16-1= 15 查t值表,得t0.05(15) = 2.131 ∴ t >t0.05(15) ∵P<0.054)可以认为慢性肾炎患者血清无机磷与正常人不同•配对样本配对样本t t检验检验•配对设计是将受试对象按一定条件配成对子,再随机分配每队中的两个受试者到不同的处理组•数据形式:•在假设检验中,对差值d是否为0做检验,其余计算类似于单样本t检验•两独立样本两独立样本t t检验检验–用来比较两样本所来自的总体均数或总体分布是否相同–当两样本均来自正态总体且方差齐性时,用t检验,当两样本来自正态总体但方差不齐时,用矫正的t检验,当两样本来自非正态总体或分布未知时,用秩和检验•数据形式:治疗药物治疗药物 血红蛋白增加量血红蛋白增加量新药组常规药组•多样本均值检验多样本均值检验–一般来说t检验仅适用于两个样本均值的检验,当检验涉及到三个或三个以上样本均值时,可利用方差分析–要求数据正态、独立、方差齐性–基本思想:按实验设计和分析目的把全部观察值之间的总变异分为两部分或更多部分,然后再作分析。
Choosing a test for comparing the averages of 2 or more samples of scores of experiments with one treatment factorDataBetween subjects(independent samples)Within subjects(related samples)2 samplesInterval Independent t-testPaired t-testOrdinalWilcoxon-Mann-Whitney testWilcoxon signed ranks test, Sign testNominalChi-square testMc Nemar test> 2 samplesInterval One way ANOVARepeated measured ANOVAOrdinalKruskal-Wallis testFriedman testNominalChi-square testCochran’s Q test (dichotomous data only)三、常用统计方法•生存分析生存分析•LogisticLogistic回归分析回归分析•判别分析判别分析•聚类分析聚类分析•MetaMeta分析分析•主成分分析主成分分析1、生存分析•医学研究中,为了了解某种疾病的预后、评价医学研究中,为了了解某种疾病的预后、评价治疗方法的优劣或观察预防保健措施的效果等,治疗方法的优劣或观察预防保健措施的效果等,常需对研究对象进行追踪观察,以获得必要的常需对研究对象进行追踪观察,以获得必要的数据,这类资料都属于随访资料。
数据,这类资料都属于随访资料 其研究内容主要包括其研究内容主要包括3 3个方面:个方面:–①① 对生存状况进行统计描述(生存概率、生存率、中对生存状况进行统计描述(生存概率、生存率、中位生存期等);位生存期等);–②② 寻找影响生存时间的寻找影响生存时间的““危险因素危险因素””和和““保护因素保护因素””;;–③③ 估计生存率和生存时间长短,进行预后评价估计生存率和生存时间长短,进行预后评价•传统方法在分析随访资料时的困难传统方法在分析随访资料时的困难–1 1、时间和生存结局都成为了要关心的因、时间和生存结局都成为了要关心的因•如果将两者均作为变量拟合多元模型,因为时间分布不明(一般不呈如果将两者均作为变量拟合多元模型,因为时间分布不明(一般不呈正态分布,在不同情况下的分布规律也不同),拟合多元模型极为困正态分布,在不同情况下的分布规律也不同),拟合多元模型极为困难难–2 2、存在大量失访的资料,数据删失、存在大量失访的资料,数据删失•失去联系(病人搬走,号码改变)失去联系(病人搬走,号码改变)•无法观察到结局(死于其他原因)无法观察到结局(死于其他原因)•研究截止研究截止 关于截尾或删失随访开始事件失访失访失访失访研究截止时仍存活研究截止时仍存活研究截止时点患者进入期间删失的模式图删失的模式图•1.非参数法:其特点是不论资料是什么样的分布形式,只根据样本提供的顺序统计量对生存率进行估计,常用的方法有乘积极限法和寿命表法。
•2.参数法:参数法的特点是假定生存时间服从于特定的参数分布,根据已知分布的特点对影响生存的时间进行分析,常用的方法有指数分布法、Weibull分布法、对数正态回归分析法和对数logistic回归分析法等•3.半参数法:半参数法兼有非参数法和参数法的特点,主要用于分析影响生存时间和生存率的因素,属多因素分析方法,典型方法为Cox模型分析法生存分析的方法•乘积极限法乘积极限法((product-limit methodproduct-limit method))–非参数方法,是由Kaplan和Meier在1958年首先提出,故又称Kaplan-Meier法(K-M法)–用于估计生存率–主要适用于样本含量较小的资料图图16-2 两种疗法治疗后白血病患者的生存率曲线两种疗法治疗后白血病患者的生存率曲线 •CoxCox比例风险回归模型比例风险回归模型–在医学中, 对病人治疗效果的考查. 一方面要看治疗结局的好坏,另一方面还要看生存时间的长短 生存时间的长短不仅与治疗措施有关, 还可能与病人的体质, 年龄, 病情的轻重等多种因素有关如何找出其中哪些因素与生存时间有关、哪些与它无关呢?由于失访、试验终止等原因造成某些时间的不完全,不能用多元线性回归分析。
– 1972年英国统计学家Cox DR. 提出一种比例危险模型方法, 能处理多个因素对生存时间影响的问题设设含含有有p p个个变变量量x x1 1, , x x2 2, ,……,x,xp p及及时时间间T T和和结结局局C C的的n n个个观观察察对对象象. . 其数据结构为其数据结构为: : 编号编号 X1 X2 …. XP T C 1 x11 x21 … x1p y1 1 2 x21 x22 … x2p y2 0 … … … … … … n xn1 xn2 … xnp yp .━━━━━━━━━━━━━COXCOX模型:模型:•CoxCox模型的适用范围模型的适用范围–Cox模型适用于生存资料的统计分析,属半参数模型,对资料没有特殊的要求,也可以估计各因素的参数,并能做多因素的统计分析。
该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计出个体的生存率–另外,Cox模型能分析具有截尾数值的生存时间–Cox模型在临床流行病学分析中,使临床观察的定性指标又加上定量指标进行分析,提高了分析的效率 2、logistic回归模型•Logistic回归模型–概念:研究因变量y取某个值的概率变量p与自变量x的依存关系–模型:–由于概率只能取0到1之间的值,为了把因变量扩展到整个实数范围,对p做logit变换•回归模型参数数学意义–0(常数项):所有影响因素均为 0 时(记作X=0),个体发生事件概率与不发生事件的概率之比的自然对数值–j 的含义:某因素 Xj 改变一个单位时,个体发生事件概率与不发生事件的概率之比的自然对数值•优势比(odds ratio,OR)或比数比–优势(odds)是指某影响因素控制在某种水平时,事件发生率与事件不发生率的比值,即P/(1-P)–某影响因素的两个不同水平的优势的比值称为优势比,如某影响因素的一个水平为c1,另一个水平为c0,则这两个水平的优势比为:•优势比(odds ratio,OR)–OR表示影响因素对事件发生的影响方向和影响能力大小。
–OR>1表示该因素取值越大,事件发生的概率越大,又称危险因素–OR<1表示该因素取值越大,事件发生的概率越小,又称保护因素–OR=1表示该因素与事件的发生无关• OR与 的关系– = 0,OR = 1,影响因素与事件的发生无关– > 0,OR > 1,影响因素的取值越大,事件的发生的概率越大– < 0,OR < 1,影响因素的取值越大,事件的发生的概率越小优势比实例结果吸烟不吸烟合计食管癌患者309(a)126(b)435非食管癌患者208(c)243(d)451合计517(a+c)369(b+d)886吸烟与食管癌关系的病例对照调查结果吸烟与食管癌关系的病例对照调查结果3、判别分析•在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记录了每个患者若干项症状指标数据现在想利用现有的这些资料找出一种方法,使得对于一个新的病人,当测得这些症状指标数据时,能够判定其患有哪种病这些问题都可以应用判别分析方法予以解决•对相似性的刻画有不同的准则:最小距离准则、Fisher准则、平均损失最小准则、最小平方准则、最大概率准则等•判别分析法–距离判别法–Fisher判别法–逐步判别法–Logistic回归判别法–Bayes判别法距离判别的思想和方法距离判别的思想和方法 例:两个总体的距离判别问题 设有两个总体G1和G2,其均值分别是1和 2, 协方差矩阵为 对于一个新的样品X,要判断它来自哪个总体 一般的想法是计算新样品X到两个总体的距离 D2(X,G1)和D2(X,G2),•并按照如下判别规则进行判断其中:•对于多总体的判别,方法类似。
都是从已知的数据出发,建立判别函数,由判别函数判断新样本所属类别•当两总体靠的很近,无论用何种办法,判错概率都很大,这时做判别分析是没有意义的因此只有当两个总体的均值有显著差异时,做判别分析才有意义4、聚类分析•概念:统计学家常常采用聚类分析来完成分类的工作聚类分析是用“物以类聚”的方法将客观世界中纷纭繁杂的事物加以分门别类,使之系统化和条理化的一种方法聚类分析事先不知道客观事物的分类,需要根据各个样本或指标的数量表现来进行聚类•种类–样品聚类:基于样品间的距离将样本进行分类–指标聚类:基于指标间的相关,旨在在每类指标中选择一个代表性较好的指标,达到指标精选的目的v聚类方法§系统聚类法:首先将n个样品看成n类,然后将性质相近的两类合并为一个新类,得n-1类,再从n-1类中找出最接近的两类合并成n-2类,以此类推,最后将所有样品合并成一类§分解法:系统聚类法的逆过程,首先将所有样品看成一类,然后用某种最优准则将其分成两类,再依次用相同的准则进一步裂分,直到每类只有一个样品为止§加入法:假设已经存在一个分类系统,新样品进入时只能加入到聚类图中已存在的分类中,当新样本全部放入后,就得到新的聚类图§有序样品聚类:将n个样品按照某种准则排序,在聚类的时候只有相邻的样品才能在一类中§动态聚类法:开始将n个样品粗略的分为若干类,然后用某种最优准则对类别进行调整,直至不能调整为止•最优准则–上述5种方法聚类时都需要某种最优准则,这些最优准则即为描述样品间接近程度的指标,接近程度可用p维空间点的距离来度量–常用的定义类与类距离的方法有•最短距离法•最长距离法•中间距离法•可变距离法•重心法•类平均法S1 .S2.S3 .S4 . .S5 .S6S1 .S2.S3 .S4 . .S5 .S6S1 .S2.S3 .S4 . .S5 .S6例:根据信息基础设施的发展状况,对世界例:根据信息基础设施的发展状况,对世界2020个国个国家和地区进行分类。
家和地区进行分类5、Meta分析•Meta分析–医学研究中,针对同一问题,不同研究者得到不一样的结论,例:阿司匹林是否能降低心肌梗死,为了对以往的研究结果综合评价,得到更加接近真实情况的结果可使用meta分析–是一种基于文献资料的定量化综合评价多个同类独立研究结果的统计学方法,常用于临床试验、诊断试验和流行病学研究等方面的综合评价–可以将针对同一问题的,多个独立的研究结果进行定量分析•Meta分析应用条件–收集的资料要全面–确定meta分析研究资料的入选标准及排除标准–研究资料效应指标明确–各研究的同质性•Meta分析步骤–拟定研究计划–收集资料–根据入选标准选择合格的研究–复习每个研究并进行质量评估–提取信息,填写过录表,建立数据库–计算各独立研究的效应大小–异质性检验–总结报告•计算各独立研究的效应大小–通常两组间比较时– 连续变量 •平均差值 率差(rate difference)– 二分变量 •比值比(OR)相对危险度(RR)•异质性检验(heterogeneity)–重要性 Meta分析重要的环节–目的 检查各个独立研究的结果是否具有可合并性 –产生异质性的原因 • 研究设计不同、试验条件不同• 试验所定义的暴露、结局及其测量方法不同• 协变量的存在–注意 资料的“可合并性”研究结果(线宽表示其95%CI)研究结果点估计值,其大小代表该研究在Meta分析中的权重无效应线各个研究合并后的效应估计))•总结报告(森林图) 6、主成分分析•在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为变量因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多主成分分析正是适应这一要求产生的,是解决这类题的理想工具•主成分分析和聚类分析 都可以减少原有指标(样品)的个数,但主成分分析是从原有指都可以减少原有指标(样品)的个数,但主成分分析是从原有指标出发,寻找几个综合指标(或样品)来减少指标(或样品)个标出发,寻找几个综合指标(或样品)来减少指标(或样品)个数;而聚类分析是先把原有指标(或样品)聚成几类,再在某一数;而聚类分析是先把原有指标(或样品)聚成几类,再在某一类指标(或样品)中各挑选一个典型指标(或样品)来减少指标类指标(或样品)中各挑选一个典型指标(或样品)来减少指标(或样品)个数,两者是不同的由于两者都可以减少指标(或(或样品)个数,两者是不同的由于两者都可以减少指标(或样品)各数,因此两者都可以和其它统计分析方法(如判别分析、样品)各数,因此两者都可以和其它统计分析方法(如判别分析、回归分析法)结合使用。
回归分析法)结合使用 四、常用统计图表• 统计表(统计表(statistical tablestatistical table)和统计图)和统计图((statistical chartstatistical chart)是统计描述的重要工具是统计描述的重要工具医学科学研究资料经过整理和计算各种必要的统医学科学研究资料经过整理和计算各种必要的统计指标后,所得结果除了用适当文字说明以外,计指标后,所得结果除了用适当文字说明以外,常用统计表和统计图表达分析结果统计图表可常用统计表和统计图表达分析结果统计图表可以对于数据进行概括、对比或做直观的表达统以对于数据进行概括、对比或做直观的表达统计表和统计图不仅便于阅读,而且便于分析比较计表和统计图不仅便于阅读,而且便于分析比较一、统计表一、统计表1 1.概念:.概念:指在科技报告中,常将统计分析的事物及其指标指在科技报告中,常将统计分析的事物及其指标用表格列出,以反映事物的内在规律性和关联性用表格列出,以反映事物的内在规律性和关联性2 2.作用:.作用:1 1)避免繁杂的文字叙述)避免繁杂的文字叙述2 2)便于计算)便于计算3 3)便于事物间的比较分析)便于事物间的比较分析3. 3. 统计表的结构统计表的结构 从外形上看,统计表由标题、标目(包括横标目、纵标目)从外形上看,统计表由标题、标目(包括横标目、纵标目)、线条、数字及必要的文字说明和备注、线条、数字及必要的文字说明和备注5 5部分构成。
其基本格部分构成其基本格式如表式如表1 1:: 4.4.统计表的种类统计表的种类 根据说明事物的主要标志(主语)的复杂程度,统根据说明事物的主要标志(主语)的复杂程度,统计表可以分成简单表和复合表计表可以分成简单表和复合表 l l)简单表:只有一种主要标志,即主语按一个标志)简单表:只有一种主要标志,即主语按一个标志分组 2 2)复合表:有两种或两种以上的标志,即主语按多)复合表:有两种或两种以上的标志,即主语按多个标志分组在安排上可以将部分主语放在表的上方与个标志分组在安排上可以将部分主语放在表的上方与谓语配合起来谓语配合起来611843合计合计321418甲硝唑甲硝唑29425替硝唑替硝唑合计合计未愈未愈治愈治愈分组分组表表2-1 不同药物治疗急性冠周炎效果比较不同药物治疗急性冠周炎效果比较20010025751002575合计合计100501733501535B10050842501040A合计合计无效无效有效有效合计合计无效无效有效有效合计合计乙医院乙医院甲医院甲医院药物药物表表2-2 A、、B两种药物在甲、乙两医院的疗效两种药物在甲、乙两医院的疗效5.5.编制统计表的基本要求编制统计表的基本要求 1 1))重点突出,简单明了重点突出,简单明了。
即一张表只包括一个中心内容,表即一张表只包括一个中心内容,表达一个主题达一个主题 2 2))主谓分明,层次清楚主谓分明,层次清楚即主谓语的位置准确,标目的安排即主谓语的位置准确,标目的安排及分组要层次清楚,符合专业逻辑简单表只有一个分组标志,及分组要层次清楚,符合专业逻辑简单表只有一个分组标志,一般作为横标目,而纵标目就是统计指标名称复合表有两个一般作为横标目,而纵标目就是统计指标名称复合表有两个以上分组标志,一般把其中主要的和分项较多的一个作为横标以上分组标志,一般把其中主要的和分项较多的一个作为横标目,而其余的则安排在纵标目上目,而其余的则安排在纵标目上 3 3))数据准确、可靠数据准确、可靠6.6.统计表的审查与修改统计表的审查与修改 统计表制作是否良好,可以从以下几方面检查:统计表制作是否良好,可以从以下几方面检查:1 1)标题是否正确标题是否正确2 2)主谓语的排列是否合适,标目是否组合重复主谓语的排列是否合适,标目是否组合重复3 3)表线是否过多过密)表线是否过多过密 某医院对麦牙根糖浆治疗急性慢性肝炎某医院对麦牙根糖浆治疗急性慢性肝炎161161例的疗效,资例的疗效,资料如表,指出缺点并加以改进。
料如表,指出缺点并加以改进32.95323.63843.57067.1108%例例%例例%例例%例例好转好转近期痊愈近期痊愈小计小计无效无效有效有效 效果效果总例数总例数缺点是:缺点是:1 1)无标题 2 2)标目组合重复标目组合重复 3 3)主谓语排列不当主谓语排列不当 100.0161合计合计43.570近期痊愈近期痊愈23.638好转好转32.953无效无效百分比(百分比(%))例数例数疗效疗效表表12-8 某年某医院麦芽根糖浆治疗急慢性肝炎的疗效观察某年某医院麦芽根糖浆治疗急慢性肝炎的疗效观察二、统计图二、统计图1. 1. 概念:概念:利用点的位置、线段的升降、直条的长短和面积利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料和指标的大小等各种几何图形来表达统计资料和指标. .2. 2. 作用:作用:它将研究对象的特征、内部构成、相互关系、对它将研究对象的特征、内部构成、相互关系、对比情况、频数分布等情况形象而生动地表达出来,更直观地比情况、频数分布等情况形象而生动地表达出来,更直观地反映出事物间的数量关系,更易于比较和理解。
但对数量的反映出事物间的数量关系,更易于比较和理解但对数量的表达较粗略,从图中不能获得确切数字表达较粗略,从图中不能获得确切数字 常用统计图v条形图条形图bar chartbar chartv百分条图百分条图(percentage bar chart)(percentage bar chart)v饼图饼图(pie chart) (pie chart) v线图线图(line diagram) (line diagram) v直方图直方图(histogram) (histogram) v散点图散点图(scatter diagram) (scatter diagram) v箱形图箱形图 box plotbox plotvQ-Q plotQ-Q plotvKaplan-MeierKaplan-Meier生存曲线生存曲线vROCROC曲线曲线v空间统计图空间统计图条形图(bar chart) v概念:用等宽直条的长短来表示各个相互独立的指标大小的图形v适用资料:相互独立的资料(资料有明确分组,不连续)v分类:分为单式和复式两种单式适用于只有一组观察资料(见图1),复式适用于有若干组观察资料 v应用:相互独立资料间的比较。
百分条图(percentage bar chart) v概念:以长条面积为100%,用长条内各段面积所占的百分比来表示各部分在全体中所占的比例 v适用资料:构成比资料v应用:描述各部分的百分构成饼图(pie chart) v概念:以一个圆面积为100%,用圆内各扇形面积所占的百分比来表示各部分所占的构成比例 v适用资料:构成比资料v应用:描述各部分的百分构成 线图(line diagram) v概念:以线段的上升或下降来表示事物在时间上的发展变化或一种现象随另一种现象变迁的情况 v适用资料:连续性资料v应用:反映事物的连续的动态变化规律 直方图(histogram) v概念:以各矩形的面积来代表各组频数的多少v适用资料:连续变量的频数分布v应用:反应某一连续性变量的分布情况散点图(scatter diagram) v概念:以点的密集程度和趋势来表示两种现象的相关关系v适用资料:双变量资料v应用:反映两事物间的相关关系,主要用于相关回归分析 箱形图 box plotv概念:一种用作显示一组数据分散情况资料的统计图因形状如箱子而得名v适用资料:连续性变量v应用:显示出一组数据的最大值、最小值、中位数、下四分位数、上四分位数和异常值,识别数据异常值,判断数据偏态。
Q-Q plot•图是一种通过画出分位数来比较两个概率分布的图形方法•作用:用于直观验证一组数据是否来自某个分布,或者验证某两组数据是否来自同一(族)分布•判断标准:散点落在参考直线附近则服从某一分布,如果被比较的两个分布比较相似,则其图近似地位于y = x上如果两个分布线性相关,则图上的点近似地落在一条直线上,但并不一定是y = x这条线•适用资料:连续性变量Kaplan-Meier生存曲线v概念:以生存时间为横坐标,生存率为纵坐标绘制的阶梯状生存曲线v描述:随时间的增加,该曲线一般呈下降趋势,平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期v适用资料:生存时间数据ROC曲线•概念:受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线)是根据一系列不同的二分类方式,以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线•作用:–选择最佳的诊断界限值•ROC曲线越靠近左上角,试验的准确性就越高•最靠近左上角的ROC曲线的点是错误最少的最好阈值–两种或两种以上不同诊断试验对疾病识别能力的比较。
•可将各试验的ROC曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的ROC曲线所代表的受试者工作最准确•亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一种试验的 AUC最大,则哪一种试验的诊断价值最佳完美与无用的ROC曲线真阳性率即灵敏度假阳性率 即 1-特异度诊断准确度较低(<0.7)0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPRA =0.664A=0.830诊断准确度较高(>0.9)0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPRA=0.938ROC曲线下面积(Area)与诊断准确度高低高 0.90-1.00 = excellent (A)中 0.80-0.90 = good (B) 0.70-0.80 = fair (C)低 0.60-0.70 = poor (D) 0.50-0.60 = fail (F)空间统计图•空间统计是20 世纪90 年代以后在经济地理,尤其是城市和区域研究领域中发展起来的重要研究方法这一方法考虑到事物发展的空间依赖性,大大革新了原有经典统计,并借助于地理信息技术增强了可视化效果,丰富了在城市和区域研究中对空间的认识和预期。
•空间统计是分析空间数据资料的统计方法•空间统计是针对空间位置关系迅速发展起来的技术领域;它最先开始应用于地质学,随后在社会地理学,特别是在犯罪和疾病空间研究中得到了广泛应用•空间统计的出发点是事物在空间上存在关联性,但距离近的关联性更强换言之,位置上相近的事物更容易相互影响并拥有相似的特性空间统计图上海市人口面积箱线图上海市人口面积箱线图2010年江苏省艾滋病发病年江苏省艾滋病发病率空间分布率空间分布。
