电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

机器学习简介及实例作业【行业内容】

23页
  • 卖家[上传人]:8**
  • 文档编号:183495209
  • 上传时间:2021-06-07
  • 文档格式:PPT
  • 文档大小:1.91MB
  • / 23 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、,机器学习,1,课件优选,什么是机器学习,现今,机器学习已应用于多个领域,远超出大多数人的想象,下面就是假想的一日,其中很多场景都会碰到机器学习: 假设你想起今天是某位朋友的生日,打算通过邮局给她邮寄一张生日贺卡。你打开浏览器搜索趣味卡片,搜索引擎显示了10个最相关的链接。你认为第二个链接最符合你的要求,点击了这个链接,搜索引擎将记录这次点击,并从中学习以优化下次搜索结果。然后,你检查电子邮件系统,此时垃圾邮件过滤器已经在后台自动过滤垃圾广告邮件,并将其放在垃圾箱内。接着你去商店购买这张生日卡片,并给你朋友的孩子挑选了一些尿布。结账时,收银员给了你一张1美元的优惠券,可以用于购买6罐装的啤酒。之所以你会得到这张优惠券,是因为款台收费软件基于以前的统计知识,认为买尿布的人往往也会买啤酒。然后你去邮局邮寄这张贺卡,手写识别软件识别出邮寄地址,并将贺卡发送给正确的邮车。当天你还去了贷款申请机构,查看自己是否能够申请贷款,办事员并不是直接给出结果,而是将你最近的金融活动信息输入计算机,由软件来判定你是否合格。,2,课件优选,机器学习问题的几个实例,机器学习问题到处都是,它们组成了日常使用的网络

      2、或桌面软件的核心或困难部分。苹果的Siri语音理解系统就是实例。以下,是几个真正有关机器学习到底是什么的的实例。 1、垃圾邮件检测:根据邮箱中的邮件,识别哪些是垃圾邮件,哪些不是。这样的模型,可以程序帮助归类垃圾邮件和非垃圾邮件。这个例子,我们应该都不陌生。 2、信用卡欺诈检测:根据用户一个月内的信用卡交易,识别哪些交易是该用户操作的,哪些不是。这样的决策模型,可以帮助程序退还那些欺诈交易。 3、数字识别:根据信封上手写的邮编,识别出每一个手写字符所代表的数字。这样的模型,可以帮助程序阅读和理解手写邮编,并根据地利位置分类信件。 4、语音识别:从一个用户的话语,确定用户提出的具体要求。这样的模型,可以帮助程序能够并尝试自动填充用户需求。带有Siri系统的iPhone就有这种功能。 5、人脸识别:根据相册中的众多数码照片,识别出那些包含某一个人的照片。这样的决策模型,可以帮助程序根据人脸管理照片。某些相机或软件,如iPhoto,就有这种功能。,3,课件优选,什么是机器学习,1、林轩田:机器学习想做的事情,简单的说是要从资料中归纳出有用的规则。大数据说的是对大量的资料做分析,而人工智能说的

      3、是让机器看起来更聪明,两者都可以使用机器学习来做核心的工具。 我们可以举 2012 年的 KDD-Cup 做例子,当年腾讯给的题目之一,是希望能从大量的线上广告资料中,找出“这个广告到底会不会被点击”的规则,如果机器能找出有用的规则,我们就会有更高“智能”的广告系统了。 2、ArthurSamuel定义的机器学习(1959) “在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域” 3、通俗讲,机器学习,两部分:首先是“机器”,这个机器一般其实指的就是“电脑”其次学习,这个学习也分为两部分,一是“数据”二是“算法”。其实和人是一样的,比如你父母教你认识“打棒球”这个体育运动的时候。肯定要给你看打棒球的图片或者视频,或者需要跟你描述这个运动,这些就是“数据”。至于说“算法”的话,描述本身就是一种算法。比如他们告诉你“拿着球棒,这样那样挥舞击球的就是棒球”。这样,在没有他们帮助的情况下,再给你一个新的打棒球的图片,你也认出这是打棒球4、简单讲就是,总结过去,预测未来。,4,课件优选,什么是机器学习,5,课件优选,机器学习问题的类型,关于机器学习,有一些常见的分类。以下这些分类

      4、,是我们在研究机器学习时碰到的大多问题都会参考的典型。 分类:标记数据,也就是将它归入某一类,如垃圾/非垃圾(邮件)或欺诈/非欺诈(信用卡交易)。决策建模是为了标记新的未标记的数据项。这可以看做是辨别问题,为小组之间的差异性或相似性建模。 回归:数据被标记以真实的值(如浮点数)而不是一个标签。简单易懂的例子如时序数据,如随着时间波动的股票价格。这个建模的的决策是为新的未预测的数据估计值。 聚类:不标记数据,但是可根据相似性,以及其他的对数据中自然结构的衡量对数据进行分组。可以从以上十个例子清单中举出一例:根据人脸,而不是名字,来管理照片。这样,用户就不得不为分组命名,如Mac上的iPhoto。 规则提取:数据被用作对提议规则(前提/结果,又名如果)进行提取的基础。这些规则,可能但不都是有指向的,意思是说,这些方法可以找出数据的属性之间在统计学上有说服力的关系,但不都是必要的涉及到需要预测的东西。有一个找出买啤酒还是买尿布之间关系的例子,(这是数据挖掘的民间条例,真实与否,都阐述了期望和机会)。,6,课件优选,实例详解机器学习如何解决问题,7,课件优选,什么是机器学习?,机器学习可以分为

      5、无监督学习(unsupervised learning)和有监督学习(supervised learning),在工业界中,有监督学习是更常见和更有价值的方式,下文中主要以这种方式展开介绍。如下图中所示,有监督的机器学习在解决实际问题时,有两个流程,一个是离线训练流程(蓝色箭头),包含数据筛选和清洗、特征抽取、模型训练和优化模型等环节;另一个流程则是应用流程(绿色箭头),对需要预估的数据,抽取特征,应用离线训练得到的模型进行预估,获得预估值作用在实际产品中。在这两个流程中,离线训练是最有技术挑战的工作(在线预估流程很多工作可以复用离线训练流程的工作),所以下文主要介绍离线训练流程。,8,课件优选,什么是模型(model)?,模型,是机器学习中的一个重要概念,简单的讲,指特征空间到输出空间的映射;一般由模型的假设函数和参数w组成(下面公式就是Logistic Regression模型的一种表达,在训练模型的章节做稍详细的解释);一个模型的假设空间(hypothesis space),指给定模型所有可能w对应的输出空间组成的集合。工业界常用的模型有Logistic Regression(简

      6、称LR)、Gradient Boosting Decision Tree(简称GBDT)、Support Vector Machine(简称SVM)、Deep Neural Network(简称DNN)等。,9,课件优选,为什么要用机器学习解决问题?,1、目标问题需要价值巨大,因为机器学习解决问题有一定的代价; 2、目标问题有大量数据可用,有大量数据才能使机器学习比较好地解决问题(相对于简单规则或人工); 3、目标问题由多种因素(特征)决定,机器学习解决问题的优势才能体现(相对于简单规则或人工); 4、目标问题需要持续优化,因为机器学习可以基于数据自我学习和迭代,持续地发挥价值。,10,课件优选,对问题建模,本文以DEAL(团购单)交易额预估问题为例(就是预估一个给定DEAL一段时间内卖了多少钱),介绍使用机器学习如何解决问题。首先需要: 1、收集问题的资料,理解问题,成为这个问题的专家; 2、拆解问题,简化问题,将问题转化机器可预估的问题。 深入理解和分析DEAL交易额后,可以将它分解为如下图的几个问题:,11,课件优选,为什么要用机器学习解决问题?,1、目标问题需要价值巨大,因为机

      7、器学习解决问题有一定的代价; 2、目标问题有大量数据可用,有大量数据才能使机器学习比较好地解决问题(相对于简单规则或人工); 3、目标问题由多种因素(特征)决定,机器学习解决问题的优势才能体现(相对于简单规则或人工); 4、目标问题需要持续优化,因为机器学习可以基于数据自我学习和迭代,持续地发挥价值。,12,课件优选,模型选择,对于DEAL交易额这个问题,我们认为直接预估难度很大,希望拆成子问题进行预估,即多模型模式。那样就需要建立用户数模型和访购率模型,因为机器学习解决问题的方式类似,下文只以访购率模型为例。 实际问题选择模型,需要转化问题的业务目标为模型评价目标,转化模型评价目标为模型优化目标;根据业务的不同目标,选择合适的模型,具体关系如下: 通常来讲,预估真实数值(回归)、大小顺序(排序)、目标所在的正确区间(分类)的难度从大到小,根据应用所需,尽可能选择难度小的目标进行。对于访购率预估的应用目标来说,我们至少需要知道大小顺序或真实数值,所以我们可以选择Area Under Curve(AUC)或Mean Absolute Error(MAE)作为评估目标,以Maximum l

      8、ikelihood为模型损失函数(即优化目标)。综上所述,我们选择spark版本 GBDT或LR,主要基于如下考虑:1)可以解决排序或回归问题;2)我们自己实现了算法,经常使用,效果很好;3)支持海量数据;4)工业界广泛使用。,13,课件优选,准备训练数据,深入理解问题,针对问题选择了相应的模型后,接下来则需要准备数据;数据是机器学习解决问题的根本,数据选择不对,则问题不可能被解决,所以准备训练数据需要格外的小心和注意: 注意点: 1、待解决问题的数据本身的分布尽量一致; 2、训练集/测试集分布与线上预测环境的数据分布尽可能一致,这里的分布是指(x,y)的分布,不仅仅是y的分布; 3、y数据噪音尽可能小,尽量剔除y有噪音的数据; 4、非必要不做采样,采样常常可能使实际数据分布发生变化,但是如果数据太大无法训练或者正负比例严重失调(如超过100:1),则需要采样解决。,14,课件优选,抽取特征,完成数据筛选和清洗后,就需要对数据抽取特征,就是完成输入空间到特征空间的转换(见下图)。针对线性模型或非线性模型需要进行不同特征抽取,线性模型需要更多特征抽取工作和技巧,而非线性模型对特征抽取要求

      9、相对较低。,15,课件优选,特征归一化,特征抽取后,如果不同特征的取值范围相差很大,最好对特征进行归一化,以取得更好的效果,常见的归一化方式如下:,16,课件优选,特征选择,特征抽取和归一化之后,如果发现特征太多,导致模型无法训练,或很容易导致模型过拟合,则需要对特征进行选择,挑选有价值的特征。,17,课件优选,训练模型,完成特征抽取和处理后,就可以开始模型训练了,下文以简单且常用的Logistic Regression模型(下称LR模型)为例,进行简单介绍。设有m个(x,y)训练数据,其中x为特征向量,y为label,;w为模型中参数向量,即模型训练中需要学习的对象。所谓训练模型,就是选定假说函数和损失函数,基于已有训练数据(x,y),不断调整w,使得损失函数最优,相应的w就是最终学习结果,也就得到相应的模型。,18,课件优选,优化算法,19,课件优选,优化模型,经过上文提到的数据筛选和清洗、特征设计和选择、模型训练,就得到了一个模型,但是如果发现效果不好?怎么办?【首先】反思目标是否可预估,数据和特征是否存在bug。【然后】分析一下模型是Overfitting还是Underfitt

      10、ing,从数据、特征和模型等环节做针对性优化。,20,课件优选,Underfitting & Overfitting,所谓Underfitting,即模型没有学到数据内在关系,如下图左一所示,产生分类面不能很好的区分X和O两类数据;产生的深层原因,就是模型假设空间太小或者模型假设空间偏离。所谓Overfitting,即模型过渡拟合了训练数据的内在关系,如下图右一所示,产生分类面过好地区分X和O两类数据,而真实分类面可能并不是这样,以至于在非训练数据上表现不好;产生的深层原因,是巨大的模型假设空间与稀疏的数据之间的矛盾。 在实战中,可以基于模型在训练集和测试集上的表现来确定当前模型到底是Underfitting还是Overfitting,判断方式如下表:,21,课件优选,PPT模板下载: 行业PPT模板: 节日PPT模板: PPT素材下载: PPT背景图片: PPT图表下载: 优秀PPT下载: PPT教程: Word教程: Excel教程: 资料下载: PPT课件下载: 范文下载: 试卷下载: 教案下载:,总结,综上所述,机器学习解决问题涉及到问题建模、准备训练数据、抽取特征、训练模型和

      《机器学习简介及实例作业【行业内容】》由会员8**分享,可在线阅读,更多相关《机器学习简介及实例作业【行业内容】》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.