
指导应用回归分析资料报告(第三版)何晓群 刘文卿 课后习题问题详解 完整版.doc
115页word第二章 一元线性回归分析思考与练习参考答案 一元线性回归有哪些根本假定?答: 假设1、解释变量X是确定性变量,Y是随机变量; 假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(εi)=0 i=1,2, …,nVar (εi)=s2 i=1,2, …,nCov(εi, εj)=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X之间不相关:Cov(Xi, εi)=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布εi~N(0, s2 ) i=1,2, …,n2.2 考虑过原点的线性回归模型Yi=β1Xi+εii=1,2, …,n误差εi〔i=1,2, …,n〕仍满足根本假定求β1的最小二乘估计解:得:2.3 证明〔2.27式〕,Sei =0 ,SeiXi=0 证明:其中:即: Sei =0 ,SeiXi=0回归方程E〔Y〕=β0+β1X的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明答:由于εi~N(0, s2 ) i=1,2, …,n所以Yi=β0 + β1Xi+ εi~N〔β0+β1Xi, s2)最大似然函数:使得Ln〔L〕最大的,就是β0,β1的最大似然估计值。
同时发现使得Ln〔L〕最大就是使得下式最小,上式恰好就是最小二乘估计的目标函数一样值得注意的是:最大似然估计是在εi~N(0, s2)的假设下求得,最小二乘估计如此不要求分布假设 所以在εi~N(0, s2 ) 的条件下,参数β0,β1的最小二乘估计与最大似然估计等价2.5 证明是β0的无偏估计证明: 证明证明: 证明平方和分解公式:SST=SSE+SSR证明:2.8 验证三种检验的关系,即验证:〔1〕;〔2〕证明:〔1〕〔2〕2.9 验证〔2.63〕式:证明:其中:2.10 用第9题证明是s2的无偏估计量证明:2.11 验证决定系数与F值之间的关系式证明:2.14 为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y〔万元〕和广告费用x〔万元〕,数据见表2.6,要求用手工计算:月份12345X12345Y1010202040(1) 画散点图〔略〕(2) X与Y是否大致呈线性关系?答:从散点图看,X与Y大致呈线性关系3) 用最小二乘法估计求出回归方程计算表XY1104100206〔-14〕2〔-4〕221011001013〔-7〕2〔3〕2320000200042010027727254044004034142〔-6〕2和15100和Lxx=10Lyy=600和Lxy=70和100SSR=490SSE=110均3均20均20回归方程为:(4) 求回归标准误差先求SSR〔Qe〕见计算表。
所以(5) 给出 的置信度为95%的区间估计;由于(1-a)的置信度下, 的置信区间是查表可得所以 的95%的区间估计为:〔7—3.182*1.915,7+3.182*1.915〕,即〔0.906,13.094〕所以 的95%的区间估计为:〔-1-3.182*6.351,-1+3.182*6.351〕,即〔-21.211, 19.211〕的置信区间包含0,表示不显著6) 计算x和y的决定系数说明回归方程的拟合优度高7) 对回归方程作方差分析方差分析表方差来源平方和自由度均方F值SSR4901490SSE1103SST6004F值=13.364>F(1,3)=10.13(当n=1,n=8时,α=0.05查表得对应的值为10.13),所以拒绝原假设,说明回归方程显著〔8〕做回归系数β1的显著性检验H0: β1=0t值=3.656>t(3)=3.182,所以拒绝原假设,说明x对Y有显著的影响8) 做相关系数R的显著性检验R值=0.904>R(3)=0.878,所以承受原假设,说明x和Y有显著的线性关系9) 对回归方程作残差图并作相应的分析残差图(略) .从残差图上看出,残差是围绕e=0在一个固定的带子里随机波动,根本满足模型的假设ei~N(0, s2 ), 但由于样本量太少, 所以误差较大.(10) 求广告费用为4.2万元时,销售收入将达到多少?并给出置信度为95%的置信区间.解: 当X0=4.2时, 所以广告费用为4.2万元时, 销售收入将达到28.4万元.由于置信度为1-α时,Y0估计值的置信区间为:所以求得Y0的95%的置信区间为: [ ,]预测误差较大.2.15 一家保险公司十分关心其总公司营业部加班的制度,决定认真调查一下现状。
经过十周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周新签发的保单数目,y为每周加班工作时间〔小时〕见表2.7表2..7周序号12345678910X825215107055048092013503256701215Y1、画散点图2、由散点图可以看出, x与y之间大致呈线性关系3、用最小二乘法求出回归系数由表可知:回归方程为: 4、求回归标准误差 故回归标准误差,=0.485、给出回归系数的置信度为95%的区间估计由回归系数显著性检验表可以看出,当置信度为95%时:的预测区间为[-0.701,0.937],的预测区间为[0.003,0.005].的置信区间包含0,表示不拒绝为零的假设6、决定系数由模型概要表得到决定系数为0.9接近于1,说明模型的拟合优度高7. 对回归方程作方差分析由方差分析表可知:F值=72.396>5.32(当n=1,n=8时,查表得对应的值为5.32)P值0,所以拒绝原假设,说明回归方程显著8、对的显著性检验从上面回归系数显著性检验表可以得到的t统计量为t=8.509,所对应的p值近似为0,通过t检验说明每周签发的新保单数目x对每周加班工作时间y有显著的影响。
相关系数显著性检验相关系数达到0.949,说明x与y显著线性相关10、对回归方程作残差图并作相应分析从残差图上看出,残差是围绕e=0随即波动,满足模型的根本假设11、该公司预计下一周签发新保单X0=1000,需要的加班时间是多少?当x=1000时,小时12、给出Y0的置信水平为95%的预测区间 通过SPSS运算得到Y0的置信水平为95%的预测区间为:〔2.5195,4.8870〕13 给出E〔Y0〕的置信水平为95%的预测区间通过SPSS运算得到Y0的置信水平为95%的预测区间为:〔3.284,4.123〕2.16 表是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和学生的人均经费投入x(美元).序号yx序号yx序号yx119583334618208163059351953826422202633114191809529673620460312432032535542020939328537214192752426800454221226443914382516034295294704669222462445173922482394762661048882327186434940209692509730678571024339905020412722454408271705536252338235944225892404292585341682620627282143226443402102450035472722795336644246402829112427431592821570292045223412297122717036212922080298046256102932133016837823022250373147260153705142652542473120940285348257884123152736039823221800253349291323608162169035683322934272950414808349172197431553418443230551258453766解答:〔1〕绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?由上图可以看出y与x的散点分布大致呈直线趋势。
〔2〕建立y对x的线性回归利用SPSS进展y和x的线性回归,输出结果如下:表1 模型概要RR2调整后的R2随机误差项的标准差估计值表2 方差分析表模型平方和自由度和平均F值P值1回归平方和1.000a残差平方和49总平方和50表3 系数表模型非标准化系数标准化系数t值P值B标准差回归系数1常数.000对学生的人均经费投入.312.835.0001) 由表1可知,x与y决定系数为,说明模型的拟合效果一般x与y线性相关系数R=0.835,说明x与y有较显著的线性关系2) ,说明回归方程显著3) 由表3 可见对的显著性t检验P值近似为零,故显著不为0,说明x对y有显著的线性影响4) 综上,模型通过检验,可以用于预测和控制x与y的线性回归方程为:〔3〕绘制标准残差的直方图和正态概率图图1 标准残差的直方图理论正态概率观测值概率图2 标准残差的正态概率P-P图由图1可见标准化后残差近似服从正态分布,由图2可见正态概率图中的各个散点都分布在45°线附近,所以没有证据证明误差项服从同方差的正态分布的假定是不真实的,即残差通过正态性检验,满足模型根本假设第3章 多元线性回归思考与练习参考答。
