您所在位置：网站首页 > 建筑/环境 > 施工组织 > 机器学习入门：回归问题课件

机器学习入门：回归问题课件.ppt

40页

卖家[上传人]：M****1

文档编号：577313435

上传时间：2024-08-21

文档格式：PPT

文档大小：5.99MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 40 举报版权申诉马上下载

文本预览

下载提示

常见问题

机器学习入门：回归算法原理及应用人类学习过程认知认知模仿，实践模仿，实践反馈反馈再认知再认知？机器学习就是让计算机从大量的数据中学习到相关的规律和逻辑，然后利用学习来的规律来进行决策，推理和识别等什么是机器学习？测试数据发现规律测试结果评估规则邮件邮件XiYi：垃圾：垃圾or正常正常1.发件人邮件地址异常；2.标题含有“低价促销”3.…机器学习应用实例应用实例：1、对语言、文字的认知与识别2、对图像、场景、自然物体的认知与识别3、对规则的学习与掌握例如：下雨天要带伞，生病要吃药，天冷了要穿厚衣服等4、对复杂事物的推理与判断能力例如：好人与坏人的辨别能力，事物的正误的判断能力机器学习的种类根据学习方式的不同，可以分为监督学习，无监督学习和强化学习等几种类型监督学习（有指导）无监督学习（自学）强化学习（自我评估）机器学习三要素机器学习可以认为是一个在逐步发现和探索规律的过程学习过程主要包含以三个要素：l模型表示问题的影响因素(特征)有哪些？它们之间的关系如何？l模型评估什么样的模型是好的模型l参数优化如何高效的找到最优参数”回归“的由来英国人类学家F.Galton首次在《自然遗传》一书中，提出并阐明了“相关”和“相关系数”两个概念，为相关论奠定了基础。

其后，他和英国统计学家KarlPearson对上千个家庭的身高，臂长，拃长（伸开大拇指与中指两端的最大长度）做了测量，发现了一种现象回归问题应用场景回归分析属于有监督学习，简单有效，应用十分广泛：一个简单的例子回归分析回归分析研究的主要是因变量（目标）和自变量（经验）之间的依存关系按关系类型，又可分为线性回归分析和非线性回归分析学习过程如下：理想的拟合直线Linear Regression最小二乘算法最小二乘算法选择“最优回归方程”回归方程中包含的自变量个数越多，回归平方和就越大，残差平方和越小，预测值的置信区间也越小既要选择对预测影响显著的自变量，又要使回归的损失很小，这样才有利于预测选择“最优回归方程”的方法有：Ø最优子选择法（bestsubsetselection）Ø逐步选择法（stepwiseselection）Bestsubsetselection最优子集选择法（bestsubsetselection），即对n个预测变量的所有可能组合（共有2n-1）分别进行拟合，然后选择出最优模型。

StepwiseSelection逐步选择法按选择方式的不同，共分为三种：Ø前向逐步选择法（ForwardStepwiseSelection）Ø后向逐步选择法（BackwardStepwiseSelection）Ø逐步回归法（StepwiseRegression）基于最优子集回归方法的一些缺陷，逐步选择的优点是限制了搜索空间，从而提高了运算效率ForwardStepwiseSelection以零模型为起点，依次往模型中添加变量，直至加完所有的变量但每次优先将能够最大限度地提升模型效果的变量加入模型但无法保证找到的模型是所有2n-1个模型中最优的，且可能在前期将后来变得多余的变量纳入模型模型个数：[n(n+1)/2]+1BackwardStepwiseSelection以全模型为起点，逐次迭代，每次移除一个对模型拟合结果最不利的变量需满足样本量m大于变量个数n（保证全模型被拟合）而前向逐步选择即时在m

模型个数：[n(n+1)/2]+1StepwiseRegression该方法将前向选择与后项进行了结合，试图达到最优子集选择效果的同时也保留了前向和后向逐步选择在计算上的优势损失函数（lossfunction）损失函数(lossfunction)度量预测错误的程度，常记作L(Y,f(X))常见的损失函数有以下几种：0-1损失函数（0-1lossfunction）：缺点：无法度量损失的“严重程度”损失函数（lossfunction）平方损失函数（quadraticlossfunction）：对数损失函数（logarithmiclossfunction）:指数损失函数（exp-lossfunction）:梯度下降算法梯度下降法：是一种优化算法，通常也称为最速下降基本思想：Ø在下山时，如果想以最快的方式到达山底，应该沿着山势最陡的方向，也即山势变化最快的方向Ø同样，如果从任意一点出发，需要最快搜索到函数的最小值，那么也应该从函数变化最快的方向搜索Ø而函数变化最快的方向就是函数的负梯度方向梯度下降算法损失计算方法批量梯度下降法（BGD）：是梯度下降法最原始的形式，在更新每一参数时都使用所有的样本来进行更新。

随机梯度下降法（SGD）：它的具体思路是在更新每一参数时都使用一个样本来进行更新Mini-batchGradientDescent（MBGD）：它的具体思路是在更新每一参数时都使用一部分样本来进行更新可能存在的问题学习过程可能出现的问题：1）数据量过少（m

正则化可以很好的解决这一问题与“过拟合”相对的是“欠拟合”(underfitting)，这是指对训练样本的一般性质尚未学好L1范数与L2范数范数：范数是衡量某个向量空间（或矩阵）中的每个向量的长度或大小范数的一般化定义如下（实数p>=1）：L1范数：当p=1时，是L1范数，表示某个向量中所有元素的绝对值之和L2范数：当p=2时，是L2范数，表示某个向量中所有元素的平方和再开根号RidgeRegression正则化项是参数的L2范数时，整个回归方法就叫做岭回归相应损失函数：那么为什么叫做“岭”回归呢？ Lasso Regression lasso回归：参数范数为L1范数优势：不仅可以解决过拟合问题，而且可以在参数缩减过程中，将一些重复或不重要的参数直接缩减为零（删除），有提取有用特征的作用劣势：计算过程复杂，毕竟L1范数不是连续可导的L1正则与L2正则 L1正则与L2正则 L1正则与L2正则从贝叶斯角度来看，正则化相当于对模型参数引入了先验分布，即对模型参数加了分布约束：L1正则，模型参数服从拉普拉斯分布，只有很小的|w|，才能得到较大的概率，L2正则，模型参数服从高斯分布对大的|w|，概率较低，而在接近0的时候，概率变换缓慢，最终解的w趋于0附近。

L1正则与L2正则对模型加入参数的正则化项后，模型会尝试最小化这些权值参数而这个最小化就像一个下坡的过程，L1和L2的另一个差别就在于这个“坡”不同如下图：L1就是按绝对值函数的“坡”下降的，而L2是按二次函数的“坡”下降所以实际上在0附近，L1的下降速度比L2的下降速度要快另一种回归方法叫ElasticNet，它同时采用了L1和L2正则，以综合RidgeRegression和LassoRegression两者的优点既能稀疏化模型权重，又能保持岭回归的稳定性ElasticNet非线性模型回归问题讨论ü回归分析要有实际意义；ü异常值检测扩展内容在实际应用中，问题复杂多样，不同的问题可能需要不同的方法来解决除了以上所介绍的回归方法外，还有很多方法：比如基于生成模型的贝叶斯回归（Bayesian Regression），基于树模型的分类回归树（CART），基于集成方法的梯度提升树（GBDT）及XGboost等THANKS。

点击阅读更多内容