
31回归分析的基本思想及其初步应用.ppt
33页回归分析的步骤画散点图求回归直线方程用回归直线方程进行预报函数关系是一种确定性关系相关关系是一种非确定性关系回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.称为样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)回归方程的最小二乘估计公式截距斜率与,无关≥0例1从某大学中随机选取8名女大学生,其身高和体重数据如下表编号12345678身高/cm165165157170175165155170体重/kg4857505464614358求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.画散点图求回归直线方程用回归直线方程进行预报解取身高为自变量x,真实体重为因变量y作散点图可用线性回归方程刻画它们之间的关系根据公式可得回归方程为所以,对于身高172cm的女大学生,由回归方程可以得到预报其体重r>0时,表明两个变量正相关;r<0时,表明两个变量负相关.相关系数r衡量两个变量间线性相关关系的方法r的绝对值越接近1,表面两个变量的线性相关性越强;r的绝对值越接近0,表面两个变量之间几乎不存性相关关系.当r>0.75时认为两个变量 有很强的线性相关关系身高172cm的女大学生体重一定是60.316kg吗?样本点散布在某一条直线附近用y=bx+a+e表示身高和体重的关系y=bx+a+ea和b为模型的未知参数e是y与随机误差, E(e)=0, D(e)=2>0 2越小越小线性回归模型随 机误 差e产生随机误差e的原因是什么?一个人的体重值除了受身高的影响外,饮食运动还有度量误差线性模型只是近似模型怎样研究随机误差?如何衡量预报的精度?随机变量数字特征所以用方差2来衡量随机误差的大小均值 反映随机变量取值平均水平方差 反映随机变量集中于均值程度因E(e)=0根据样本的估计值来估计 2残差残差平方和根据截距和斜率的估计公式,建立回归方程对于样本点相应的随机误差为衡量回归方程的预报精度;其越小,预报精度越高.残差分析①根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据②通过残差来判断模型按惯例的效果,判断原始数据中是否存在可疑数据.编号12345678身高/cm165165157170175165155170体重/kg4857505464614358残差_-6.3732.6272.419-4.6181.1376.627-2.8830.382女大学生身高体重原始数据和相应的残差数据表利用图形分析如残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适.带带状状区区域域宽宽度度越窄,模模型型拟拟合合精精度度越高,回归方程的预预报报精精度度超高.利用相关指数R2来刻画回归的效果R2越接近于1,表示回归的效果越好R2取值越大,表示残差平方和越小,模型的拟合效果越好.用身高预报体重时,需要注意下列问题:1.回归方程只适用于我们所研究的样本总体.2.所建立的回归方程一般都有时间性.3.样本取值的范围分影响回归方程的适用范围.4.不能期望回归方程得到的预报值就是预报变量的精确值.而是可能取值的平均值建立回归模型的基本步骤①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系;③由经验确定回归方程的类型;④按一定规则估计回归方程中的参数;⑤得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否合适.例2 一只红铃虫的产卵数一只红铃虫的产卵数y各温度各温度x有关有关.现收集现收集了了7组观测数据列于下表中组观测数据列于下表中,试建立试建立y与与x之之间的回归方程间的回归方程.温度x/℃21232527293235产卵数y/个711212466115325解作出散点图令z=lny样本点分布在直线 z=bx+a (a=lnc1,b=c2)建立y和x的非线性回归方程x21232527293235z1.946 2.398 3.045 3.178 4.190 4.745 5.784变换后的样本数据及其散点图得到线性回归方程为红铃虫的产卵数对温度的非线性回归方程为令t=x2,得y与x之间的非线性回归方程t44152962572984110241225y711212466115325红铃虫的产卵数和对应的温度的平方的数据表及散点图红铃虫的产卵数和对应的温度的平方的数据表及散点图不宜有二次曲线来拟合不宜有二次曲线来拟合x21232527293235y7112124661153250.518-0.1671.760-9.1498.889-14.15332.92847.69319.397-5.835-41.003-40.107-58.26877.965利用残差来分析y关于x的二次回归方程两方程的残差对应的残差表比较两个模型的残差平和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.<可以用R2来比较两个模型的拟合效果R2越大,拟合的效果越好对于给定样本点两个含有未知参数的模型其中a,b是未知参数比较两个拟合效果的步骤比较两个拟合效果的步骤回回归归分分析析基基本本思思想想及及其其初初步步应应用用基本思想基本思想实际应用实际应用回归分析回归分析相关性方法分析相关性方法分析回归优劣分析回归优劣分析总偏差平方和总偏差平方和残差平方和残差平方和回归平方和回归平方和小结。
