
线性回归方程中的相关系数r.doc
8页线性回归方程中的相关系数rr=∑(*i-*的平均数)(Yi-Y平均数)/根号下[∑(*i-*平均数)^2*∑(Yi-Y平均数)^2]R2就是相关系数的平方,R在一元线性方程就直接是因变量自变量的相关系数,多元则是复相关系数判定系数R^2也叫拟合优度、可决系数表达式是:R^2=ESS/TSS=1-RSS/TSS该统计量越接近于1,模型的拟合优度越高问题:在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可——但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整这就有了调整的拟合优度:R1^2=1-(RSS/(n-k-1))/(TSS/(n-1))在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响R = R接近于1说明Y与*1, *2 ,…,*k之间的线性关系程度密切;R接近于0说明Y与*1, *2 ,…,*k之间的线性关系程度不密切相关系数就是线性相关度的大小,1为〔100%〕绝对正相关,0为0%,-1为〔100%〕绝对负相关相关系数绝对值越靠近1,线性相关性质越好,根据数据描点画出来的函数-自变量图线越趋近于一条平直线,拟合的直线与描点所得图线也更相近。
如果其绝对值越靠近0,则就说明线性相关性越差,根据数据点描出的图线和拟合曲线相差越远〔当相关系数太小时,本来拟合就已经没有意义,如果强行拟合一条直线,再把数据点在同一坐标纸上画出来,可以发现大局部的点偏离这条直线很远,所以用这个直线来拟合是会出现很大误差的或者说是根本错误的〕分为一元线性回归和多元线性回归线性回归方程中,回归系数的含义一元:Y^=b*+a b表示*每变动〔增加或减少〕1个单位,Y平均变动〔增加或减少〕b各单位多元:Y^=b1*1+b2*2+b3*3+a 在其他变量不变的情况下,*变量变动1单位,引起y平均变动量以b2为例:b2表示在*1、*3〔在其他变量不变的情况下〕不变得情况下,*2每变动1单位,y平均变动b2单位就一个reg来说y=a+b*+ea+b*的误差称为e*plained sum of squaree的误差是不能解释的是residual sum of square总误差就是TSS所以TSS=RSS+ESS判定系数也叫拟合优度、可决系数表达式是该统计量越接近于1,模型的拟合优度越高问题:在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。
——但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整这就有了调整的拟合优度在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响顺便补充一下:一般做回归的时候要求拟合优度〔实际值与拟合值相关系数的平方〕越高越好,可以通过增加解释变量来实现,可是解释变量多了后很多解释变量的系数T检验不显著了,而且增加很多变量后模型的自由度就减少了,这些情况狂的存在往往使得模型预测不准确;修正拟合优度就是将残差平方和跟总离差平方和分别除以各自的自由度,这样就剔除了变量个数对其影响了首先有一个恒等式:TSS = ESS + RSS即总偏差平方和 = 回归平方和+ 残差平方和通常情况,我们都是讨论解释变量对总效应的奉献,使用一个叫"拟合优度〞〔或者叫"判定系数〞〕的指标其定义为:回归平方和 / 总偏差平方和 =ESS/TSS = (TSS-RSS)/TSS =(923-325)/923如果说随机误差对总效应的奉献,那可以直接 RSS/TSS因为 1 - (TSS-RSS)/TSS 就可以化为 RSS / TSSSPSS中pearson〔皮尔逊相关系数〕看r值还是P值,确定相关性两个值都要看,r值表示在样本中变量间的相关系数,表示相关性的大小;p值是检验值,是检验两变量在样本来自的总体中是否存在和样本一样的相关性。
SPSS回归系数 SIG在SPSS软件统计结果中,不管是回归分析还是其它分析,都会看到"SIG〞,SIG=significance,意为"显著性〞,后面的值就是统计出的P值,如果P值0.01
0.05则说明模型受误差因素干扰太大不能承受R是复相关系数,表示观测值和模型描述值之间的线性相关系数,越大越好R方通俗的说就是解释率,就是说你的自变量能够解释多少因变量的变化具体到你这个就是模型不能承受,自变量解释了22.1%,剩下的只能用误差解释spss软件的线性回归分析中,输出了一个anova表,表中的回归、残差、平方和、df、均方、F、sig分别代表什么回归是方法残差是实测与预计值的差值平方和有很多个,不同的平方和的意思不一样df是自由度均方是方差除以自由度f是f分布的统计量sig是p值anova表中的"回归平方和〞表示反响变量的变异中的回归模式中所包含的自变量所能解释的局部。
"残差平方和〞代表反响变量的变异中没有被回归模型所包含的变量解释的局部这两个值与样本量及模型中自变量的个数有关,样本量越大,相应变异就越大df是自由度,是自由取值的变量个数,F为F检验统计量,用于检验该回归方程是否有意义,当Sig对应的值小于0.05〔当显著性水平为0.05时〕时,说明所建立的回归方程具有统计学意义,即自变量和因变量之间存性关系多元线性回归分析中,t检验与F检验有何不同t检验常能用作检验回归方程中各个参数的显著性,而f检验则能用作检验整个回归关系的显著性各解释变量联合起来对被解释变量有显著的线性关系,并不意味着每一个解释变量分别对被解释变量有显著的线性关系F检验主要是检验因变量同多个自变量的整体线性关系是否显著,在k个自变量中,只要有一个自变量同因变量的线性关系显著,t检验则是对每个回归系数分别进展单独的检验,以判断每个自变量对因变量的影响是否显著计算结果肺活量例子对数据标准化,即将原始数据减去相应变量的均数后再除以该变量的标准差,计算得到的回归方程称为标准化回归方程,相应得回归系数为标准化回归系数标准化回归系数〔Beta值〕在多元回归中被用来比拟变量间的重要性B是指回归系数,beta是指标准回归系数,beta=B/S(B),beta是用来比拟各个系数之间的绝对作用或者奉献的大小,B值是不能判断的绝对奉献的。
t值是对该回归系数B做假设检验的结果,P值小于0.05才可以认为有意义,但是具体问题要具体分析,有的时候要考虑交互作用等常数项为负 p值0.04,拒绝常数项为0的假设,统计显著,没问题beta coefficient就是标准回归系数,它是首先把各个自变量进展Z转换〔数据值-数据平均值然后除以标准差〕之后再进展回归,此时得出的回归系数称为标准化回归系数Z转换可以把各个自变量的数级、量纲统一标准化,也就可以根据标准化回归系数的大小比拟出各个自变量在回归方程中的效应大小标准回归系数standardizedregressioncoefficient或standardregressioncoefficient消除了因变量y和自变量*1,*2,…*n所取单位的影响之后的回归系数,其绝对值的大小直接反映了*i对y的影响程度计算方法对数据标准化,即将原始数据减去相应变量的均数后再除以该变量的标准差,计算得到的回归方程称为标准化回归方程,相应得回归系数为标准化回归系数公式假设假定回归方程的形式如下:Y=b0+b1*1+b2*2+…+bj*j+…+bJ*J(Y是估计值)其中,回归参数b0,b1,…,bJ通过最小二乘法求得。
则标准化回归系数bj'=bj*(*j的标准差/Y的标准差)理解方法标准化回归系数〔Beta值〕在多元回归中被用来比拟变量间的重要性但是由于重要性这一词意义的模糊性,这一统计常被误用有时人们说重要性,是指同样的条件下,哪一个东西更有效在提高教学质量上,是硬件条重要还是师资更重要?如果是师资更重要,则同样的物力投在师资上就可以更快地提高教学质量但是这里要比拟的两者必须有同样的测量单位,如本钱〔元〕如果变量的单位不同,我们不能绝对地说那个变量更重要不同单位的两个东西是不能绝对地比出上下轻重来要想进展绝对地比拟,就需要两个东西有着共同的测度单位,否则无法比拟而标准化回归系数说的重要性则与上面的意义不同,这是一种相对的重要性,与*一特定的情况下,自变量间的离散程度有关比方说,虽然我们不能绝对地说出教育和年资在决定收入上那一个一定是重要的,但如果现在大家的教育程度比拟相似,则在收入的决定上,工作年数就是决定因素;反之,如果工作年数没有太大区别,则教育就成为了重要原因这里的重要性是相对的,是根据不同情况而改变的再举一个通俗的例子,研究者研究的是遗传因素和后天因素对于人成长的影响则在一个社会境遇悬殊巨大的环境中,有人在贫民窟成长,有人在贵族学校上学,则我们会发现人格的大局部差异会从后天环境因素得到解释,而遗传的作用就相对较小;相反,如果儿童都是在一个相差不大的环境中长大的,你会发现,遗传会解释大局部的人格差异。
这种意义上的重要性,不仅与这一自变量的回归系数有关系,而且还与这个自变量的波动程度有关系:如果其波动程度较大,则就会显得较为重要;否则,就显得不太重要标准化回归系数正是测量这种重要性的从标准化回归系数的公式中也可看出,Beta值是与自变量的标准差与成正比的,自变量波动程度的增加,会使它在这一具体情况下的重要性增加但是如果将两种重要性混淆,就会得到误导性结论如环境因素的Beta值比遗传因素的Beta值大,就认为在个体的人格开展上应更注意环境因素,而轻视遗传因素,在目前对于Beta值的错误观念非常流行,甚至是一些高手中标准化回归系数的比拟结果只是适用于*一特定环境的,而不是绝对正确的,它可能因时因地而变化举例来说,从*一次数据中得出,在影响人格形成的因素中,环境因素的Beta值比遗传因素的Beta值大,这只能说明数据采集当时当地的情况,而不能加以任何不恰当的推论,不能绝对地不加任何限定地说,环境因素的影响就是比遗传因素大事实上,如果未来环境因素的波动程度变小,很可能遗传因素就显得更为重要数据的情况千差万别,变量的相对重要性也可能完全不同但都符合当时的实际情况F是组方差值,sig是差异性显著的检验值,该值一般与0.05或0.01比拟,假设小于0.05或者0.01 则表示差异显著df是自由度一般的sig 没有特别注明的都是指双侧检验,如果特别注明有单侧,那就是单侧的所谓双侧的意思是有可能在大于,有可能小于的,而单侧的意思是只有一边或者大于,或者小于的关于求法还是看相关统计学教材吧里面讲起来比拟复杂你的分析结果有T值,有sig值,说明你是在进展平均值的比拟。
也就是你在比拟两组数据之间的平均值有。












