
定量分析之回归分析讲解.doc
38页第十三章 回归分析“回归”(regression)是由英国著名生物学家兼统计学家高尔顿(Francis Galton)在研究人类遗传问题时提出来的为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据,他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率它反映了一个规律,即这两种身高(父亲的身高和儿子的身高)有向他们父辈的平均身高回归的趋势对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应回归分析和相关分析都是对多个变量之间依存关系的分析只有存在相关的变量才能进行回归分析,相关程度愈高,回归效果越好相关分析与回归分析的不同点:①相关分析是研究变量之间的依存关系,但不区分哪个是自变量,哪个是因变量;而回归分析不仅研究变量之间的依存关系,而且要根据研究对象和目的,确定哪个是自变量(解释变量),哪个是因变量(被解释变量)。
②相关分析主要是研究变量之间关系的密切程度和变化的方向;而回归分析要通过建立回归模型和控制自变量来进行估计和预测比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定回归分析研究的主要内容有:确定变量之间的相关关系和相关程度,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测第一节 一元线性回归一、一元线性回归模型的基本概念若有两个变量和,其中为非随机变量(即可控变量),为随机变量且和有相关关系,则可用数学模型 近似地表示它们之间的关系式中是随机变量方程 称为回归方程(回归模型) 若一元回归方程是线性的,称为一元线性回归其数学模型为:=++这个回归模型中的随机误差,要求满足如下的高斯基本假设: (1)应当是服从正态分布的随机变量,即满足“正态性”(normal)的假设 (2)的均值为零,即E()=0,我们称满足“无偏性”的假设 (3)的方差等于某个常数,即=,这就是说,所有的分布的方差都相同(equal variance),即满足“共方差性”的假设。
(4)各个间相互独立,即对于任何两个随机误差和其协方差等于零,即,Cov(,)=0, )这称之为满足“独立性”(independent)的假设 综上所述,随机误差必须服从独立的相同分布 基于上述假定,随机变量的数学期望和方差分别是:E()=+ =,由此: ~N(+,) 这就意味着,当X=时,是一个服从正态分布的随机变量的某一个取值如果不考虑式中的误差项,就可以得到简单的方程: =+ 这一方程就称为Y对X的一元线性回归方程依据这一方程在直角坐标系中所作的直线就称为回归直线其中a、b通常称为回归模型的参数,a是回归直线的截距;b是回归直线的斜率(回归系数)二、一元线性回归模型的参数估计 回归模型中的参数与在一般情况下都是未知数,必须根据样本数据(,)来估计确定参数与值的原则是要使得样本的回归直线同观察值的拟合状态最好,即要使得偏差最小为此,可以采普通最小二乘法(Ordinary Least Square,OLS)来解决这个问题对应于每一个,根据回归直线方程可以求出一个,它就是的一个估计值。
估计值和观察值之间的偏差有n个观察值就有相应的n个偏差要使模型的拟合状态最好,就是说要使n个偏差的总和最小但为了计算方便起见,我们以误差的平方和最小为标准来确定回归模型的参数这就要求是个极小值 根据微积分中的极值定理,要使上式取极小值,其对与所求的偏导数应为0,即 经整理后可得: 解上式,可得: 记 于是,得到参数与的简单表达形式如下: 求出参数与以后,就可以得到回归模型 由此,只要给定了一个值,就可以根据回归模型求得一个来作为实际值的预测值我们以研究与开发(R&D)投入与国内生产总值(GDP)的关系为例来说明一元线性回归模型的求解问题1989-2006年,中国R&D投入与GDP相关统计数据如表13-1所示 表13-1:1989-2006年中国R&D投入与GDP相关数据序号年 份GDP (亿元)R&D(亿元)12006209407294322005183084.8236732004159878.31966.642003135822.81539.652002120332.71287.662001109655.21042.57200099214.6895.78199989677.1678.99199884402.3551.110199778973.0481.4711199671176.6404.4812199560793.734913199448197.922214199335333.919615199226923.516916199121781.5142.317199018667.8125.4318198916992.3112.31将观察值,(i=1,……,18)在平面直角坐标系中用点标出,所得的图称为散点图。
从图13-1可以看出,y(GDP)与x(R&D投入)之间大致呈现线性相关关系,可见一元线性回归模型适用于对y与x关系的回归分析图13-1:y(GDP)与x(R&D投入)关系的散点分布图根据上述求解回归系数的公式,可以求得与的值这里n=18 ∴由此得到y(GDP)对x(R&D投入)的一元线性回归模型:三、一元非线性回归模型的线性处理方法由于线性回归方模型比较简单,所以在遇到非线性回归模型时,最好通过变换将其转换为线性回归模型一些常用的非线性回归模型转换方法如下:(1)成长曲线模模型成长曲线模型为: 即令 则成长曲线模型就可转换为: (2)双曲线模型双曲线模型为: 令 则双曲线模型转换为:y’=a+bx’(3)幂函数模型幂函数模型为:y=axb 或y=ax-b (b>0)对幂函数两边取对数作变换 则幂函数模型转换为: (4)指数函数模型言之指数函数模型为:y=aebx 或y=ae-bx(b>0)两边取对数 令 则指数函数模型转换为:(5)倒指数函数模型倒指数函数模型为:或 (b>0,a>0)两边取对数后作变换y, ,则倒指数函数模型转换为: (6)对数函数模型对数函数模型为:y=a+bx作变换x, 则有y=a+b第二节 多元线性回归在公共管理研究中,很多情况下研究的变量是多个的,这就需要用多元的方法才能更好地描述变量间的关系。
就方法的实质来说,处理多元线性回归(multiple linear regression)的方法与处理一元线性回归的方法是基本相同的,只是多元线性回归的方法复杂些,计算量大些,我们通常都运用统计软件来进行处理一、数学模型和回归方程的求法设因变量y与自变量x1,x2,……,xk之间有关系式: 通过取样得到n组观测数据:(y1;x11,x21,……,xk1)(y2;x12,x22,……xk2) ……………………(yn;x1n,x2n,……xkn)其中xij是自变量xi的第j个观测值,yj是因变量y的第j个值,代入上式得到模型的数据结构式: 上述方程式为k元正态线性回归模型,其中b0,b1,……,bk及σ2是未知待估的参数多元线性回归模型也需要符合多元回归的高斯假设条件我们同样可以采用最小二乘法来估计回归系数 b0,b1,……,bk., 称使达到最小的为参数(b0,b1,……,bk)的最小二乘估计利用微积分知识,最小二乘估计就是对如下方程组进行求解: 其中 通常称上述的方程组为正规方程组,其中前k个方程的系数矩阵记为当L*可逆时,正规方程组有解,便可得b0,b1,……bk的最小二乘估计 即省略去随机项即可得到经验回归方程为:。
元线性回归方程的图形为维空间的一个平面,称为回归平面;称为回归常数项,当==…==0时,在有实际意义时,表示的起始值;(=、2、…、)称为因变量对自变量的偏回归系数(partial regression coefficient),表示除自变量以外的其余个自变量都固定不变时,自变量每变化一个单位,因变量平均变化的单位数值,确切地说,当>0时,自变量每增加一个单位,依变量平均增加个单位;当<0时,自变量i每增加一个单位,因变量平均减少个单位虽然采用传统的计算方法,求解多元线性回归模型的参数较为复杂,但使用SPSS工具来求解却是比较简单的二、总体回归模型的显著性检验上述的讨论是在y与x1,……,xk之间呈现线性相关的前提下进行的,所求的模型方程是否有显著意义,还需对y与诸xi间是否存性相关关系作显著性假设检验对是否有显著意义,可采用F检验方法F检验是指通过构造统计量来检查多元线性回归模型中所有解释变量对被解释变量的共同影响是否显著的方法可以证明多元线性回归的总离差平方和(SST)可分解为回归平方和(SSR)和残差平方和(SSE)两部分图13-2:总离差分解图从图13-2看到:因变量y的总变异由y与x间存在直线关系所引起的变异与残差两部分构成,即上式两端平方,然后对所有的n点求和,则有 =反映了y的总变异程度,称为y的总平方和,记为;反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为;反映了除y与x存在直线关系以外的原因,包括随机残差所引起的y的变异程度,称为残差平方和,记为SSE。
这样就可以得到:与此相对应,y的总自由度也划分为回归自由度与残差自由度两部分,即 (8-10)在直线回归分析中,回归自由度等于自变量的个数(k)减1,即;y的总自由度;残差平方和自由度于是:回归均方,残差均方多元线性回归模型的显著性检验的基本程序如下:第一步:提出假设:H0: b1=b2=…=bk=0;H1: b1、b2、…、bk不同时等于0第二步:构造统计量:上式中为个体数,为自变量。