
数据挖掘及其应用讲义线性回归逻辑回归.ppt
15页《数据挖掘及其应用讲义《数据挖掘及其应用讲义》线性回归、逻辑回归》线性回归、逻辑回归¡ 当当某某种种现现象象的的变变化化及及其其分分布布特特性性清清楚楚后后,,需需分分析析是是什什么么原原因因使使这这种种变变化化发发生生,,或或某某种种现现象象对对其其他他现现象象有有什什么么影影响响等等如如研研究究目目的的在在探探知知两两特特性性值值 与与 间间的的相相互互关关系系,,如如特特性性值值 可可以以自自由由变变动动,,则则可可用用各各种种测测试试方方法法研研究究 的的效效应应但但假假如如 不不能能自自由由变变动动((例例如如预预测测台台风风或或探探求求水水稻稻穗穗与与精精米米重重量量间间的的关关系系等等问问题题时时)),,可可利利用用事事先先求求得得的的 与与 间间的的关关系系来来推推测测 值值但但对对 与与 间间的关系,需再加解析后才能拟定其相互间的关系的关系,需再加解析后才能拟定其相互间的关系 ¡ 回回归归用用以以叙叙述述两两个个或或两两个个以以上上变变量量间间的的关关系系。
回回归归分分析析是是以以一一个个或或多多个个自自变变量量描描述述、、预预测测或或控控制制特特定定因因变变量量的的分分析析回回归归分分析析主主要要在在了了解解自变量与因变量间的数量关系主要目的:自变量与因变量间的数量关系主要目的:¡ ● ● 了解自变量与因变量关系方向及强度了解自变量与因变量关系方向及强度¡ ● ● 以自变量所建立模式对因变量作预测以自变量所建立模式对因变量作预测¡ 回归分析根据自变量个数的不同可以分为:回归分析根据自变量个数的不同可以分为:¡ ● ● 简单回归分析简单回归分析¡ ● ● 多元回归分析多元回归分析¡ 回归分析中变量的筛选原则:回归分析中变量的筛选原则:¡ ● ● 相关理论或逻辑相关理论或逻辑¡ ● ● 研究人员探讨变量关系来决定研究人员探讨变量关系来决定¡ 回归分析步骤:回归分析步骤:¡ ● ● 由由分分布布情情况况或或专专业业知知识识,,推推测测变变量量间间的的数数学学模模型¡ ● ● 用最小平方法推导正则方程用最小平方法推导正则方程。
¡ ● ● 决定回归方程决定回归方程¡ ● ● 用用图图形形证证明明所所求求的的方方程程曲曲线线与与测测定定值值的的分分布布是是否一致,以确定所选的数学模型是否全理否一致,以确定所选的数学模型是否全理¡ 模型假设及参数估计模型假设及参数估计假设简单回归模型可以用下式表示:假设简单回归模型可以用下式表示: 其中其中 为因变量;为因变量; 为自变量;为自变量; 为误差项;为误差项; 为为回归系数,其中回归系数,其中 为截距项,为截距项, 为模型的斜率为模型的斜率 误差项代表我们所拟合的回归直线不可能很理想,误差项代表我们所拟合的回归直线不可能很理想,因此认为因此认为““直线模型直线模型””可能有错,误差项代表可能的错误可能有错,误差项代表可能的错误。
回归模型假设的基本思想是误差项来自某一个正态分回归模型假设的基本思想是误差项来自某一个正态分布布 严格来说,线性回归模型的基本假设为:严格来说,线性回归模型的基本假设为: ● ● 正态性正态性————对任一固定对任一固定 值,值, 服从服从 ¡● ● 独立性独立性———— 和和 间相互独立间相互独立¡● ● 线性性线性性———— 是是 的线性函数的线性函数, ,即即¡● ● 方差齐次方差齐次————对于任意的对于任意的 ,有,有¡ 多元回归分析¡ 多多元元回回归归是是简简单单线线性性回回归归的的推推广广,,模模型型包包含含一一个个因因变变量量和和两两个个或或以以上上的的自自变变量量例例如如,,在在研研究究““销销售售量量 ””的的变变化化时时,,只只考考虑虑““广广告告投投资资 ””可可能能不不够够,,可可能能还还要要再再考考虑虑““销销售售人人员员的的数数量量 ””、、““特特定定产产品品的的价价格格 ””、、““个个人人可可支支配配所所得得 ””等等其其他他变变量量,,此此时时采采用用多多元元回回归归分分析析是是比比较较适适当当的的。
需需要要注注意意的的是是,,如如果果因因变变量量是是类类别别变变量量((例例如如因因变变量量““购购买买意意向向 ””为为二二分分变变量量时时,,也也就就是是 表表示示肯肯定定购购买买,, 表表示示不不一一定定购购买买)),,则则要要采采取取LogisticLogistic回回归归分分析 多元回归分析可以达到以下目的:多元回归分析可以达到以下目的: ● ● 了解因变量和自变量之间的关系是否存在,以及该了解因变量和自变量之间的关系是否存在,以及该关系的强度也就是以自变量所解释的因变量的变异关系的强度也就是以自变量所解释的因变量的变异部分是否显著,且因变量变异中有多大部分可以用自部分是否显著,且因变量变异中有多大部分可以用自变量来解释变量来解释 ● ● 估计回归方程,求算特定已知自变量的情况下因变估计回归方程,求算特定已知自变量的情况下因变量的理论值或预测值,达到预测目的量的理论值或预测值,达到预测目的 ● ● 评价特定自变量对因变量的贡献,也就是在控制其评价特定自变量对因变量的贡献,也就是在控制其他自变量不变的情况下,该自变量的变化所导至的因他自变量不变的情况下,该自变量的变化所导至的因变量变化情况。
变量变化情况 ● ● 比较各自变量在拟合中对的回归方程中相对作用的比较各自变量在拟合中对的回归方程中相对作用的大小,寻找最重要的和比较重要的自变量大小,寻找最重要的和比较重要的自变量多元回归模型 ¡该模型可以用下面的回归方程来估计该模型可以用下面的回归方程来估计¡其中,其中, 代表截距,代表截距, 代表回归系数(也就是偏回代表回归系数(也就是偏回¡归系数),一般都是通过常用的统计软件来估计,归系数),一般都是通过常用的统计软件来估计,¡统计软件还将同时给出标准的回归系数和对应的标统计软件还将同时给出标准的回归系数和对应的标¡准误差,这些统计量与简单回归中给出的相应的统准误差,这些统计量与简单回归中给出的相应的统¡计量的意义是一致的计量的意义是一致的 回归变量的选择回归变量的选择 ¡变量的选择原则:变量的选择原则:¡● ● 依据专家所提出的相关理论,参考相关研依据专家所提出的相关理论,参考相关研¡ 究文献¡● ● 依据研究人员所欲探讨的变量关系来决定依据研究人员所欲探讨的变量关系来决定¡ ¡ 在在建建立立回回归归方方程程时时,,可可能能会会涉涉及及很很多多自自变变量量。
然然而而有有些些变变量量可可能能并并不不重重要要,,太太多多的的变变量量会会促促使使模模型型变变量量过过于于复复杂杂;;因因此此,,需需要要对对大大量量的的自自变变量量进进行行必必要要的的筛筛选选,,用用尽尽可可能能少少的的自变量去解释因变量中最大比例的变异自变量去解释因变量中最大比例的变异逻辑回归逻辑回归¡ LogisticLogistic((中中文文称称为为罗罗吉吉斯斯))回回归归模模型型在在分分析析二二分分类类或或有有序序因因变变量量与与解解释释变变量量的的关关系系LogisticLogistic回回归归模模型型中中,,用用自自变变量量去去预预测测因因变变量量在在给给定定某某个个值值((如如1 1或或0 0))的的概概率率因因变变量量通通常常是是二二分分类类中中的的一一个个值值或或有有序序变变量量取取值值的的最最小小值值当当因因变变量量有有很很多多不不同同的的值值时时((如如::等等距距尺尺度度或或比比例例尺尺度度的的数数据据类类型型时时)),,通通常常使使用用简简单单回回归归模模型型而而不不用用LogisticLogistic回回归归模模型型对一个二分类的因变量,对一个二分类的因变量,LogisticLogistic回归模型的形式如下:回归模型的形式如下:¡ 其中,其中, 代表因变量的概率值,代表因变量的概率值, 代表代表 的第一个取的第一个取¡值,值,* *代表截距参数,代表截距参数, 代表斜率参数的向量,代表斜率参数的向量, 代表解代表解¡释变量的向量。
释变量的向量 ¡ ¡ ¡ 为较好的理解为较好的理解LogisticLogistic模型,我们先介绍模型,我们先介绍logitlogit变换和变换和¡LogisticLogistic分布,然后再加到分布,然后再加到logisticlogistic回归分析回归分析¡logitlogit变换变换: :¡ 上上式式变变换换称称为为logitlogit变变换换,,是是否否可可以以认认为为是是““log log it”it”((取取对对¡ 数)的意思将数)的意思将 由由 来表示,就得来表示,就得: :¡ 如果如果 是某些自变量是某些自变量 的线性函数的线性函数 ,则,则 就是就是¡ 的下列函数:的下列函数: ¡ ¡讨论讨论LogisticLogistic回归时,直接从回归时,直接从 式开始 ¡其中,其中, 的分布称为的分布称为LogisticLogistic分布。
分布¡ ¡ (1)(1)¡它的密度函数为它的密度函数为¡其中其中 式中的式中的p p表示(表示(1 1)式中的)式中的1-F(x),1-F(x),则有则有 ¡ 相应的相应的 从这里可以看出从这里可以看出logitlogit变换与变换与¡LogisticLogistic分分布布的的关关系系当当 时时,,相相应应的的分分布布称称¡为标准为标准LogisticLogistic分布,它的分布函数分布,它的分布函数 与分布密度与分布密度 ¡为为结束结束 。
