好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

多元统计分析报告报告材料第四章多元回归分析报告报告材料.doc

64页
  • 卖家[上传人]:工****
  • 文档编号:463786910
  • 上传时间:2023-07-13
  • 文档格式:DOC
  • 文档大小:1.94MB
  • / 64 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • word第4章 多元回归分析简单说,回归分析是根据统计资料建立经验公式的统计方法例如统计假设干焊接点数据,从而建立由焊接点直径预报焊点剪切强度的预报公式;又如统计假设干棵松树的胸径与材积〔可利用木材体积〕,建立由胸径预报材积公式,也用到回归分析方法当然回归分析不只是建立预报公式,还要对预报误差的大小,预报公式的合理性等问题讨论,有着非常丰富的内容回归分析可用于预测和控制,在自然科学,社会科学和应用技术中都有重要应用,它是统计学最重要的工具回归分析方法和理论从Gauss提出最小二乘法开始,至今已近200年,目前仍在蓬勃开展,例如在回归诊断、维度缩减、半参数回归、非参数回归、LOGISTIC回归等方向不断有新的突破本章介绍参数回归分析模型与其参数估计、检验、模型选择等理论和有关计算方法参数回归分析主要分三类:线性回归、可以转化为线性回归的回归和非线性回归本章依次介绍这三类模型有关回归分析的一般理论可参见陈希儒〔1984〕,方开泰〔1988〕,Seber〔1976〕,何晓群〔1997〕,何晓群、X文卿〔2001〕、Richard〔2003〕Robert(1999)和王吉利〔2004〕提供了许多有趣的应用例子。

      首先让我们看一个例子:例4.1 对15个地区调查某种护肤霜销量得表4-1,其中y表示销量〔打〕,表示目标人口数〔千人〕,表示人均可支配收入〔美元〕试建立由目标人口和人均可支配收入预测销量的公式表4-1 护肤霜销量数据销量〔打〕y目标人口〔千人〕人均可支配收入〔美元〕162274245012018032542233753802131205283867862347169266378281983708192330245011619521375553256025243040202323724427144236266010315720882123702605这个问题中,每个地区销量受该地区目标人口数和人均可支配收入数影响,3个变量y、、间存在密切关系但是它们的关系不是确定性关系而是相关关系常见的变量间关系分为两大类:确定性关系和相关关系确定性关系也称为函数关系具有确定性关系时,自变量完全确定因变量的值例如存款的年利率c固定,那么存款数z与总利息y的关系就是确定性关系;z知道后,y就由y=cz确定又如自由落体的下落高度s与下落时间t的关系也是确定性关系现实世界中大量存在相关关系,具有相关关系的变量间不能完全确定,例如焊接点直径与焊点剪切强度〔焊接点被拉断所用的力〕是两个变量,它们关系密切,但是焊接点直径不能完全确定焊点剪切强度,焊接点直径是1毫米的焊点,剪切强度是不确定的。

      但总起来说,它比焊接点直径是2毫米的焊点,剪切强度要小,统计数据证明焊接点直径与焊点剪切强度近似存性关系,焊接点直径与焊点剪切强度就是相关关系又如学生平时成绩与期末考试成绩关系很密切,但是平时成绩不能完全确定期末考试成绩,平时成绩与期末考试成绩关系就是相关关系例4.1中,y、、间存在密切关系但是它们的关系不是确定性关系而是相关关系和就是自变量;被预报量称为因变量,也叫做响应变量或预报对象,例4.1中的y就是因变量回归分析的初步目的是,得到由自变量预报因变量的公式,以便通过自变量去预测或控制因变量对于线性回归模型中的自变量,有两种处理方法:一种当作确定性变量处理,另一种当作随机变量处理,所得计算公式一样本书采用前一种处理方法回归分析是建立预报公式的一种方法其一般步骤是:首先取得自变量和因变量的屡次观测值,这些观测值可能是实验得到的,也可能是调查出的;然后根据这些数据确定经验公式的类型,建立数学模型,列出待估参数;再用这些数据进展拟合,得到待估参数的估计值;最后作统计分析数据拟合是计算方法的内容,它也能解决回归分析中的数据拟合,但回归分析与计算方法的数据拟合不同,计算方法的数据拟合只估计未知参数,而回归分析不仅仅估计参数,而且要对拟合的结果作统计分析。

      最简单的回归模型是线性回归模型,本节就介绍线性回归模型我们从例4.1的观测数据出发,建立地区销量由该地区目标人口数和人均可支配收入数预报的经验公式,以此介绍多元线性回归模型建立过程对例4.1容易看出:目标人口数越多,地区销量越大;人均可支配收入数越大,地区销量越大但还会遇到随机因素的影响,从而3个变量y、、间是相关关系,于是建立数学模型 〔4.1〕其中是零均值随机变量,称为误差;其方差称为误差方差记为是未知的参数,如果知道它们的值,预报公式〔经验公式〕就有了,而且误差的大小也可以估计了,称为待估参数作为自变量,其观测值作为固定值在这个模型中自变量和未知参数都是线性出现的自变量和未知参数都是线性出现的回归模型称为线性回归模型为了估计未知参数,应当考虑观测值即表4.1的值在统计分析中,观测资料具有两重性:当给出具体数值时,它们是数据;当作理论分析时,它们是随机变量于是,由观测资料〔表4-1〕建立如下模型: (4.2)作为观测,一般的统计问题中,往往要求误差、…独立同分布,均值为零;根据实际需要,在回归分析中把这要求降低为假设有时还要进一步降低,例如何晓群、X文卿〔2001〕中所述。

      一般地,我们有定义4.1 (4.3)称为多元线性回归模型,其中是未知参数称为常数项或截距,是自变量,是因变量…间关系,一般回归分析理论根据实际需要,把常用的“误差观测值间独立同分布〞这一要求降低为“误差观测间方差一样,互不相关〞,即Gauss-Markov条件为了强调Gauss-Markov条件,称〔4.3〕为理论回归模型,它加上Gauss-Markov条件后,才得到以下定义4.2的整体回归模型为了确定线性回规模型的未知参数,必须配有自变量和因变量的假设干次观测值表 4-1给出15次观测值,其中n=15,m=2定义4.2 〔4.4〕称为整体回归模型,其中附有假设〔Gauss-Markov条件〕除非另外申明,本章中总假设Gauss-Markov条件成立为了缩小参数估计的随机性,通常还要求n比m大得多,M.Kendall〔1975〕甚至要求n>10m4.4)式可简写成矩阵形式以利理解和公式推演,令,,,,分别称为因变量向量、未知参数向量、残差向量、回归设计矩阵〔简称为设计矩阵〕,如此〔4.4〕可写为 〔4.5〕用矩阵语言,定义4.2即是说 附有假设称为整体线性回归模型。

      由于本章理论的需要,在 (4.5)式中.当n不大时总要求服从多元正态分布,当n很大时,由中心极限定理可以不要求正态分布通常还假定X的秩为 , ,Y观测值是实际问题中,通过观测或试验,有次观测值为了利用这些值估计(4.5)式中参数,通常采用普通最小二乘法,即选择适当使离差平方和最小定理4.1 假设的秩是〔m+1〕,如此的最小二乘估计是 〔4.6〕证明 将平方和对偏导,并令偏导数为零由矩阵微商公式得知应满足正规方程:,因为秩是m+1,定理得证其中是由〔4.6〕算出的估计值 实际计算〔4.6〕时,采用许多技巧,而不是直接作矩阵计算,限于篇幅,不再细述定义4.3 矩阵称为帽子矩阵引理4.1 ;证明 将代入,直接相乘可证定义4.4 称为经验回归方程〔经验公式〕,简称为回归方程将自变量第j次观测值代入回归方程所得回代值称为的预测值,预测向量记为 〔4.7〕定义4.5 称为第j次纪录观测的残差残差向量为 〔4.8〕对例4.1 代入公式〔4.6〕可得预测向量和残差向量分别是定义4.6 称为残差平方和误差方差,误差标准差的估计分别为〔4.9〕记,它称为回归平方和。

      〔162.2993-150.6〕2+〔121.4399-150.6〕2…+〔211.9481-150.6〕2=53834的估计具有如下性质(1) 〔是无偏估计〕2) ,〔是的无偏估计〕3) 是的线性无偏最小方差估计〔在的线性无偏估计中,方差最小〕即通常所称Gauss-Markov定理4) 正态性:假设如此;假设观测个数n很大,即使不服从正态分布,仍近似地有5) 单个参数的分布:假设如此的第i+1个分量,其中 是 对角线上第个元素从而可用估计 的标准差6) 令,假设如此总离差=假设再有条件满足,如此独立,它们与的商分别服从和从而(7) 假设如此SSE与独立8) 假设如此的极大似然估计与最小二乘估计一样证明 〔1〕因为所以,〔2〕因为所以于是〔3〕证明见方开泰〔1988〕〔4〕假设由知服从正态又由和,知当n很大时,即使不服从正态分布,由中心极限定理,可证近似正态〔5〕由〔4〕立即可得〔6〕因为,所以,而第一列全是1,所以另一方面,容易看出因为所以 其余局部证明见Seber〔1976〕7) 其中所以服从多元正态分布,而所以与独立,从而SSE与独立,即与独立由〔5〕,,而由〔2〕SSE除以服从;所以。

      9) 因为随机向量所以似然函数为使似然函数极大,必须最小4.3 假设检验 只要x的秩为m+1,正规方程就能建立.参数就能估计,(假设x的秩小于m+1,可以用广义逆处理)但这时存在两个问题:(1)y与是否有较好的线性关系?即回归模型是否有意义?如果真正的模型中 ,或的绝对值都很小,如此的值 对y影响都很小,不能起预报作用,我们认为y与没有较好的线性关系,回归模型没有意义2)回归模型能否简化,即中是否存在某个自变量,它与y无关或它能被其它自变量代替,因而回归模型中可以删去这个自变量?为此可以做如下两类检验一. 线性关系显著性检验即要检验定理4.2〔6〕指出SST=SSR+SSE,其中总离差SST反映因变量的发散程度;回归平方和SSR反映由回归引起的分散性,SSE反映误差变量的分散性假设成立,SSR/SSE应当很小,假设SSR/SSE很大,如此否认为此取统计量SSR/SSE由定理4.2〔6〕因此,只需计算F的值,并做F检验即可,假设F很大,如此否认而F的大小可由F分布的95%,99%分位数〔临界值〕决定,当F的值大于这些分位数时,认为SSR很大,如此否认例如对于例4.1,SSR=53834,SSE=68.026,n=15,m=2,F=(53834/2)/(68.026 /12)=4748.2。

      而查F分布表可得F(2,12)的95%,99%分位数分别是3.88和6.93由4748.2大于它们可知,在高度显著水平下否认,即线性关系是高度显著的回归模型线性关系显著性也有其他检验方法:复相关系数〔也称为决定系数〕平方,修正的复相关系数平方由于复相关系数平方与修正的复相关系数平方越大,线性关。

      点击阅读更多内容
      相关文档
      2025国开山东开大《土质学与土力学》形成性考核123答案+终结性考核答案.docx 中学综合素质知识点梳理【中学教师资格证】.docx 2025国开山东开大《特许经营概论》形成性考核123答案+终结性考核答案.doc 2025年高考英语全国一卷真题(含答案).docx 2025国开山东《农民专业合作社创建与管理》形成性考核123答案+终结性考核答案.docx 2025国开山东开大《自然现象探秘》形成性考核123答案+终结性考核答案.docx 2025国开山东《消费心理学》形成性考核123答案+终结性考核答案.doc 2025国开山东《小微企业管理》形成性考核123答案+终结性考核答案.doc 2025国开山东开大《资本经营》形成性考核123答案+终结性考试答案.docx 2025国开山东《小学生心理健康教育》形考123答案+终结性考试答案.docx 2025国开《视频策划与制作》形考任务1-4答案.docx 2025国开《亲子关系与亲子沟通》形考任务234答案+期末大作业答案.docx 2025国开电大《煤矿地质》形成性考核123答案.docx 2025国开电大《冶金原理》形考任务1234答案.docx 2025国开《在线学习项目运营与管理》形考任务1234答案.doc 2025国开电大《在线教育的理论与实践》阶段测验1-4答案.docx 2024 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 环保工程师---2023 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 2025国开《液压与气压传动》形考任务一参考答案.docx 2025年春江苏开放大学教育研究方法060616计分:形成性作业2、3答案.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.