
统计基础-5-回归方程课件.ppt
96页线性相关分析和回归分析,,变量,自变量 是可以控制和测量的非随机变量 因变量 它是不可控的,是随机变量,常见关系类型,常见关系类型 函数关系 变量间的关系是确定的,总可以用某种函数来表达比如:矩形的面积=长*宽 相关关系 变量间有某种关系,但又不是确定性的关系 变量间没有关系,函数关系和相关关系,在理论上存有函数关系的变量,由于实验或测量的误差,数值会有不确定性; 而相关变量间本来是没有确定性关系的,但在特定条件下,从统计意义上看,它们又存在某种函数关系,相关分析的意义,相关分析 主要用来衡量变量间线性相关的密切程度;,线性相关性直观样例,不相关,正线性相关,负线性相关,非线性相关,其它相关性例子,,相关性检查步骤,,例子 项目工作量,项目的工作量是一个很重要的项目指标,由很多的因素决定了项目工作量,例如: 产品规模 人员技能 需求稳定性 团队能力 项目开发过程成熟度 ,分析自然关系、画出鱼骨图,,满足秩相关计算条件?,如果变量不是正态分布 如果变量本身有顺序变量 如果变量中有离奇点,但是数据是正常的,计算相关变量的秩 - Spearman,数据 - 排秩,,Next,在minitab中,Spearman秩相关是:先计算出要考察列的秩,然后计算转换后列的Pearson相关的,,,选择要进行秩排序的列,输入要保存秩的列,线性相关性检验,统计 - 控制图 - Box-Cox变换,,Next,,,从左边列中选择要进相关性检验的列,,选中,则显示 假设检验的P值,小于0.05表示相关,分析Pearson相关系数,相关系数为0.58,相关性还行,但不是很强。
其实它们之间是相关性很强的变量,所以还是认真检查一下数据或者对数据进行分类P值近似为0,小于0.05表示拒接假设:不相关对相关性检验的思考,有时候两个变量之间相关,不一定表明它们之间有关系,如 打伞人多不代表天热 打伞人多不代表下雨 天热和下雨 不一定有关系,但是与打伞会有关系,结果发现天热和下雨有相关性 所以要分析变量背后的自然关系,回归分析,回归分析的意义,回归分析 定量地给出变量间变化规律 - 回归方程 可以判断所建立的回归方程的有效性 可以利用方程回归进行预测和控制,并了解预测和控制的精度 在多元回归中,还可以分析判定出哪些是重要的变量,哪些是次要的变量回归分析流程,,准备工作,,分析自然关系、画出鱼骨图,,检查自变量之间的独立性,图形矩阵图,,Next,,(续),第二步,第一步,,Next,,,第二步,第一步: 添加变量,,Next,,,,,,,,,自变量之间都是独立的!,自变量之间不独立怎么办?,如果自变量之间不独立该怎么办呢? 后面会用逐步回归的办法决定先剔除哪个自变量!,画出各自变量与因变量散点图,图形散点图,,Next,,,第一步,第二步,,第一步 点击Y变量下面空格 选择左边列清单 选中C4 effort 双击 第二步 同样操作加入 C3 size 第三步 点击确定,第一步,第三步,第二步,,,线性关系吗?,能否变换为线性关系,通过散点图,跟一般常见的图像进行比对 大多数情况下都是可以转换为线性的,变换为线性关系,两个变量之间未必能用线性关系近似描述。
其中有些回归方程可转化为线性回归方程利用变量替换,就可利用线性回归的结果经济领域中常用如下一些回归曲线:,(一)双曲线型,(二)指数曲线型,(三)幂函数型,(四)S曲线型,(五)对数曲线型,1、双对数型,2、半对数型,方程回归,统计回归回归,,Next,,,第三步 选择:图形,第一步: 响应: 选择因变量,第二步: 预测变量: 自变量,,,Next,第四步: 选择自变量进行分析残差,第五步,第六步 选择:结果,,第七步,第八步,,Next,回归结果,,自变量和因变量是否真有关系,,拟合效果是否接受,,回归系数是否显著,,,回归方程,,,,回归方程拟合之后的考虑,需要进行统计分析以解决以下四个问题: 给出回归方程的显著性检验,从总体上判定回归方程是否有效; 给出回归方程总效果好坏的度量标准; 当回归方程效果显著时,进行各个回归系数的显著性检验,判定回归方程中哪些自变量是显著的,将效应不显著的自变量删除,以优化模型,这点尤其在多元回归当中至关首要; 残差诊断检验数据是否符合我们对于回归的基本假定,检验整个回归模型与数据拟合得是否很好,是否能进一步改进回归方程以优化我们的模型残差(residual),残差(residual) 实际观测值与拟合值之间的差 残差的主要用途有: 残差分析。
目的在于检验整个回归分析的过程是否符合我们的基本假定,以及观测值中是否有个别点具有特殊状况 确定评估最佳拟合直线的准则 最常用的想法是使残差平方和最小作为最佳拟合直线的评估准则,这种方法就是通常所称的最小二乘法(least square)回归方程的显著性检验 -自变量和因变量是否真有关系,随便给一组数据,都可以计算出一个回归方程那么,这组变量中,y是否真的与x有关系?如果y与x没有关系,那么建立起来的回归方程就没有意义.,,如何判断回归方程是否有意义?,如果这个比值足够大,认为回归 效果是显著的案例分析,P值近似为零,说明回归方程比较显著; F 值为 6.10,这个值还比较小; 另外残差误差的偏差MS太大; 所以总体来讲这个方程不是太显著,判断准则: P<0.05,并且F 值足够大, 表示回归方程比较显著,拟合效果是否接受,如果实际观测值与拟合出来的回归线很贴近,说明回归线与数据拟合得很好,就说明回归方程总效果很好 通常用三个指标来度量回归方程的总效果:,回归平方和占总离差平方和的比率多个自变量时这个系数更有说服力这两个指标都是从总体上给出的比率方面的度量,说明模型可以解释因变量差异的所占的百分比; 两个数值越接近,说明模型拟合越好。
残差标准差s,度量观察值与拟合回归线的平均偏离程度,s越小说明拟合的越好对于几个不同的回归方程的效果加以比较时,S 是个最重要的指标,哪个回归方程的s最小,哪个回归方程就最好2s 包含大约95%的数据,2s 的误差可以容忍则回归方程可接受,案例分析,S = 11589.1 R-Sq = 29.6% R-Sq(调整) = 24.8%,R-Sq(调整) = 24.8%,说明拟合的方程仅能解释24.8%的effort的变异; R-Sq(调整) 与 R-Sq也有一定距离,S = 11589.1,说明2s的偏差将有23000多,这个数据太大了,说明模型的总效果不好,模型可以接受吗??,判断准则: 2S 的偏差能够接受, R-Sq 与R-Sq(调整)80%以上,也很接近,背后原因调查,直接进行 effort 与 size、参考参与度、人力资源、其它资源之间的相关性检查,,,它们之间几乎不相关!,,回归系数是否显著,判断准则: P<0.05 表示系数显著,大于0.05的将考虑删除该变量,,Size 的p 值为0,说明其显著; 另外三个的p值都大于0.05,说明不显著,什么原因呢??,删除 P 值最大的自变量,删除CustInv 之后的结果,,自变量和因变量有关系,,拟合效果不太好,,HR与resource两个回归系数不显著,,回归方程,,,,继续删除 P 值最大的自变量,删除resource之后的结果,HR回归系数不显著,,,继续删除 P 值最大的自变量,删除HR之后的结果,回归系数显著,,,自变量和因变量有关系,,拟合效果不太好,,,,调查这些数据,残差分析是否正常,残差与观察值顺序,趋势基本正常; 考察24和63这两个点特殊,判断准则: 残差对于观测值顺序随机分布,残差与拟合值,判断准则: 拟合值是否有漏斗或者喇叭样式,如果有,则拟合不好。
因变量需要变形拟合值有喇叭趋势,则需要对因变量进行降阶处理,参考后面Box-Cox,残差正态性检查,判断准则: 参考如果是正态性分布,则拟合较好;否则拟合不好正态性一般,直方图也不太均衡,残差与自变量,判断准则: 拟合值是否有漏斗或者喇叭样式,如果有,则拟合不好因变量需要变形拟合值有喇叭趋势,则需要对因变量进行变形,因变量如何变形?,处理准则: Box-Cox 处理统计 - 控制图 - Box-Cox变换,,Next,,选择: 因变量,选择:自变量,,Next,Box-Cox 变换,处理准则:,,因为 为0.00,所以因变量 y 变形为 lny,,,变形后比较,右边的 指数 处理 比左边的 平方根 处理要强很多 !,,重新回归,回归系数显著,,自变量和因变量有关系,,2s = 0.64, 拟合效果好了不少,,,,,还是相当多的异常值,,新的因变量残差图,没有喇叭口了,随时间随机性更好,正态性也有所改进,残差的正态性检验,随时间随机性更好,,拟合曲线,统计 - 回归 - 拟合线图,,Next,,注意高亮选择,预测的置信区间和预测区间,预测区间 prediction interval(PI): 表示在给定预测变量的值时,单个新观测值可能落入的范围。
置信区间 confidence interval(CI): 表示在给定预测变量的值时, 平均响应可能落入的范围单个新观测值的范围比平均观察值的范围要大,是因为它的不确定性要高,拟合曲线,95%的置信区间包含的数据还不多,20%,解释不好的是 自变量超过1000时的情况,95%的预测区间太宽,预测的准确性不太够,解决办法 1 对 自变量进行分层 2 对自变量进行变形,仅能解释40%的数据,这个是不够的,对 自变量 进行变形,如果 自变量 有喇叭口,那就对 自变量进行高阶变换 平方 立方 如果拟合线路数据太密集,则考虑低阶 开方 指数, 将数据拉开,对自变量进行对数变换,,,,选择:线性,选择:对数变换,对 自变量 进行 对数变换,95%的置信区间包含的数据任不多,25%,S 比之前减少了,95%的预测区间太宽,预测的准确性不太够,R 解释的数据接近到60%,解决办法 对 自变量按照项目类型、部门、人员水平等进行分层,然后按层进行回归 检查收集的数据,是否有错误;同时参考回归中给出的数据提示,思考,按理说工作量与客户的参与还是有一些关系的,常理来讲,客户参与越多,工作量会少点,但是为什么模型里面与客户参与没有关系呢? 工作量与资源之间没有关系,这个还是可以理解的,所以模型中没有资源的体现;但是产品规模应该是工作量的一个重要的决定因素,是否还有别的因素呢?这个要回想一下它们之间的自然关系,这个才是最基本的,然后加入可能的因素再次进行回归,直到满足期望的要求。
另外一个例子,面包的韧性是面包的一个主要的主要指标,决定的因素会很多,现在考察一下一下几个指标对韧性的的影响: 烘烤温度 烘烤时间 奶油量,打开数据,文件 - 打开工作表,,Next,检查自变量的独立性,相关: 烘烤温度, 烘烤时间, 奶油量 烘烤温度 烘烤时间 烘烤 - 0.249 时间 0.290 奶油量 0.297 -0.154 0.203 0.517 内容: Pearson 相关系数 P 值,基本不相关,方程回归,两个回归系数显著,另外一个偏高,需要处理,,自变量和因变量有关系,,拟合效果还可以,,,,残差检验,正常,逐步回归,统计 -回归 - 逐步,,Next,逐步回归,选择因变量,选择自变量,,逐步检验结果,,先加入奶油量 这个自变量,P值为0,说明这个系数显著,,再加入烘烤温度 这个自变量,P值也为0,说明这个系数显著;同时,奶油量 这个自变量,P值也为0,说明这个系数也显著;这个时候逐步结束,说明这两个变量即可处理办法: 删除 烘烤时间 这个变量,重新回归,重新回归,,,,只有两个变量了,保存 残差 和 拟合值 进行分析,回归比较,自变量少了一个,自变量都已显著,S更加小,R更接近,F值更加大,结论: 修正后的模型比之前的模型要好,到底模型是否显著还是要考察其自然特性。
之后,之前,因变量残差图,,无异常,残差正态性检验,。












