
08相关分析与回归分析精品文档60页.docx
49页第八章相关分析与回归分析医学上人的身高与体重、血压与年龄、药物剂量与疗效、肺活量与体重和胸围等均有一定的联系说明客观事物或现象相互间数量关系的密切程度并用适当的统计指标表示出来,这是相关分析的任务而研究某个结局(因变量)与其它影响因素(自变量、解释变量、协变量)之间的数量关系,并用函数形式表示出来,则是回归分析要解决的问题下面依次介绍有关内容8.1相关分析8.1.1概述现以两个变量的直线相关分析为例,(记为r),其计算公式为:(8.1)描述两个变量间相关关系的统计指标称为相关系数说明相关系数的意义研究变量X和Y的直线相关关系用直线相关系数r(XX)(yY)J(XX)2(YY)2其值为一1vrv1「值为正表示正相关,即X和Y同时增大或减小,变化趋势是同向的;反之,r值为负表示负相关,即X和Y呈反向变化r等于零为零相关,表示X和Y无直线相关关系;r值的绝对值为等于1为完全相关,即X和Y严格服从直线关系在生物界由于影响因素众多,因此r值一般界于一1与1之间r的绝对值越接近1,表示两变量间直线相关程度越高r为总体相关系数p的样本估计值,所以一般还要需做p=0的假设检验在用相关分析的方法解决实际问题时,应根据资料类型和分析要求,选择恰当的方法,SAS中可作如下相关分析:SAS直线(Pearson)相关系数两个变量间的直线相关性CORR二元正态分布资料等级(Spearman)相关系数两个变量间的等级相关性CORR二兀非正态分布或等级资料复相关系数一个变量与一组变量间的相关性CANCORR多元正态分布资料典型相关系数两组变量的相关性CANCORR多元正态分布资料1CORR一个变量间的相关性本节介绍PROCCORR的应用。
CANCORR的用法详见多元统计分析部分但PROCREG中会给出复相关系数1. CORR过程CORR过程的语句组成2. *PROCCORRoptions;*VAR变量表;WITH变量表;PARTIAL变量表;WEIGHT变量;BY变量表;END;CORR过程的语句说明1) PROCCORR语句格式:PROCCORRoptions;选择项主要有:PEARSONSPEARMANKENDALLOUT=datasetNOMISSNOSIMPLE(2)WITH语句指明配对的变量名计算通常的Pearson相关系数,即直线相关系数,是缺省值计算Spearman等级相关系数计算Kendallr系数产生含有Pearson相关系数的一个新数据集将带有某一变量缺失值的观测值从所有计算中除去VAR语句配合使用,VAR语句列出相关矩阵上部出现的变量,取消打印每个变量的描述统计量WITH语句列出左侧出现的变量使用WITH语句后,把变量分成WITH组和非WITH组,只计算两组间两两变量的相关系数PARTIAL语句作偏相关分析时,指定相对固定的那些变量,此时将自动激活NOMISS选择项注意PARTIAL语句指定的变量名不能出现在VAR或WITH语句中。
8.1.3直线相关分析与偏相关分析例8.1研究肺活量时测得10名女中学生体重x1(kg)、胸围x2(cm)、呼吸差x3(cm)及肺活量y(ml),数据如下:表8.110名女中学生体重、胸围、呼吸差及肺活量体重胸围呼吸差肺活量x1(kg)x2(cm)x3(cm)y(ml)35600.7160040742.5260040642.0210042713.0265037721.1240045681.5220043784.3275037662.0160044703.2275042653.02500下面先用DATA步建立计算用数据集,再用PROCCORR作两两变量间的直线相关分析,最后作固定体重时肺活量与胸围和呼吸差的偏相关分析DATACORR1;INPUTX1X2X3Y;CARDS;35600.7160040742.5260042653.02500PROCCORR;VARX1X2X3Y;RUN;PROCCORRNOSIMPLE;VARY;WITHX2X3;PARTIALX1;RUN;结果如下:CORRELATIONANALYSIS4'VAR'Variables:X1X2X3YSimpleStatisticsVariableNMeanStdDevSumMinimumMaximumX11040.500003.30824405.0000035.0000045.00000X21068.800005.28730688.0000060.0000078.00000X3102.330001.0873523.300000.700004.30000Y102315434.005892315016002750CORRELATIONANALYSISPearsonCorrelationCoefficients/Prob>|R|underHo:Rho=0/N=10X1X2X3YX11.000000.431950.640930.694540.00.21250.04580.0258X20.431951.000000.629270.761650.21250.00.05130.0105X30.640930.629271.000000.728820.04580.05130.00.0168Y0.694540.761650.728821.000000.02580.01050.01680.0PROCCORR勺缺省输出包括各变量的描述性统计量(例数N、均数Mean、标准差StdDev、总和Sum、最小值Minimum、最大值Maximum)和变量两两之间的Pearson相关系数矩阵,在每个相关系数下方给出了对应的总体相关系数为零的假设检验的概率。
当需要计算数据集中所有变量两两之间的相关系数时,VAR语句可以省略由输出结果可见,肺活量与体重、胸围、呼吸差之间的相关系数分别为0.69454(P=0.0258)、0.76165(P=0.0105)和0.72882(P=0.0168),肺活量与体重之间的相关系数最小下面的结果反映了体重固定时,肺活量与胸围、呼吸差之间的偏相关系数CORRELATIONANALYSIS'PARTIAL'Variables:X1'WITH'Variables:X2X31'VAR'Variables:YPearsonPartialCorrelationCoefficients/Prob>|R|underHo:PartialRho=0/N=10YX20.711460.0316X30.513660.1572我们在PROCCORR语句中用了NOSIMPLE选择项,所以没有打印有关变量的描述性统计量VAR语句与WITH语句结合使用,输出结果中只包含Y与X2、X3之间的偏相关系数可见在体重相同的女中学生中,肺活量与胸围之间仍保持了较大的相关性,而与呼吸差之间的相关性较小,且无统计显著性(P=0.1572)用ry1、ry2和r21表示分别y与x1、x2,x2与x1之间的相关系数,ry21表示固定X1时y与X2之间的偏相关系数,贝Ury1「y1「21「y2?122(8.2).(1ry1)(1「21)实际上,在研究多个变量中两两之间的相关性时,把两变量之外的其它变量作为固定变量所求得的偏相关系数更能真实地反映两变量之间的相关程度。
8.1.4等级相关在相关分析中,要求x、y两变量均服从正态分布若不满足这一条件,要定量地描述两变量的协同变化,宜计算等级相关系数等级相关适用于下列资料:①不服从双变量正态分布②总体分布型未知③原始数据是用等级表示例8.2在肝癌病因研究中,某地调查了10个乡的肝癌死亡率(1/10万)和食物中黄曲霉毒素相对含量,数据如下:表8.2肝癌死亡率(1/10万)和黄曲霉毒素相对含量(1/10)X秩次Y秩次0.7121.531.0218.921.7314.413.7446.574.0527.345.1664.695.5746.365.7834.255.9977.610.10.0.10.55.18程序如下:DATARANKCORR;INPUTXY@@;CARDS;0.721.51.018.91.714.43.746.54.027.35.164.65.546.35.734.25.977.610.055.1PROCCORRNOSIMPLESPEARMAN;VARXY;RUN;输出结果为:CORRELATIONANALYSIS2'VAR'Variables:XYSpearmanCorrelationCoefficients/Prob>|R|underHo:Rho=0/N=10XYX1.000000.745450.00.0133Y0.745451.000000.01330.0在PROCCORR语句中用了NOSIMPLE选择项,取消打印各变量的描述性统计量,而SPEARMAN选择项则要求计算变量间的等级相关系数。
这里我们使用了肝癌死亡率和黄曲霉毒素相对含量的原始数据,其实也可用相应的秩次替换原始数据,计算结果完全相同,这说明了Spearman相关系数是按数据的秩次计算出来的,读者不妨一试输出结果表明肝癌死亡率和食物中黄曲霉毒素相对含量有较高的正相关性(rs=0.74545,P=0.0133).8.2回归分析8.2.1概述回归分析研究变量之间的依存关系如果因变量丫和自变量(或称解释变量)X呈直线关系时,称直线回归直线回归要求Y服从正态分别且方差相等多元回归分析用以研究一个因变量与多个自变量之间线性依存关系当变量间不是线性关系时,通常需进行数据转换以满足所需条件,再进行线性回归分析当然有时也需要用原始数据进行非线性的回归分析根据资料类型,SAS可以进行如下各类回归分析:常用SAS过程回归类型因变量自变量REG线性回归数值变量数值变量STEPWISE逐步线性回归数值变量数值变量GLM协方差模型、一般线性模型数值变量数值变重、分类变重LOGISTICLogistic回归分类变重数值变重、分类变重CATMODLogistic、Poisson回归等分类变重数值变重、分类变重NLIN非线性回归数值变量本章涉及PROCREG和PROCGLM的用法。
PROCLOGISTIC和PROCCATMOD在后文有专门章节PROCSTEPWISE的功能在PROCREG中能够实现,而PROCNLIN的使用涉及较多数学知识,这里均未作介绍回归分析涉及以下几方面内容:估计:估计与方程有关的未知参数,并检验对于这些参数所作的统计假设;预报:用所得的回归方程对自变量的一组值,估计因变量的值(点估计和区间估计);自变量选择:从可能对因变量y有影响的一组自变量中,挑选出对y有重要影响的变量,剔除对y影响不大的变量;或者按某种标准,建立一个“最优”的回归方程1) 模型的诊断:检查数据、回归方程、统计推断方法中可能存在的问题,建立较合理。
