数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第8章
109页1、第八章 分类与预测,2,第八章 目录,8.1 分类过程 8.2 决策树分类 8.3 前馈神经网络分类 8.4 贝叶斯分类 8.5 回归分析 8.6 本章小结,3,引言(1),分类的任务是通过分析由已知类别数据对象组成的训练数据集,建立描述并区分数据对象类别的分类函数或分类模型(也常常称作分类器)。 分类的目的是利用分类模型预测未知类别数据对象的所属类别。,4,引言(2),分类和聚类是两个容易混淆的概念,事实上它们具有显著区别。在分类中,为了建立分类模型而分析的数据对象的类别是已知的,然而,在聚类时处理的所有数据对象的类别都是未知的。因此,分类是有指导的,而聚类是无指导的。,5,引言(3),数据分类与数值预测都是预测问题,都是首先通过分析训练数据集建立模型,然后利用模型预测数据对象。但是,在数据挖掘中,如果预测目标是数据对象在类别属性(离散属性)上的取值(类别),则称为分类;如果预测目标是数据对象在预测属性(连续属性)上的取值或取值区间,则称为预测。 例如,对100名男女进行体检,测量了身高和体重,但是事后发现,a和b两人忘了填写性别,c和d两人漏了记录体重。现在根据其他96人的情况,推
2、断a和b两人的性别是分类,而估计c和d两人的体重是预测。,6,8.1 分类过程(1),分类过程分为两个阶段:学习阶段与分类阶段,如图8.1所示,图中左边是学习阶段,右边是分类阶段。 图8.1 分类过程,7,8.1 分类过程(2),1. 学习阶段 (1)建立分类模型:通过分类算法分析训练数据集建立分类模型。 训练数据集S中的元组或记录称为训练样本,每个训练样本由m+1个属性描述,其中有且仅有一个属性称为类别属性,表示训练样本所属的类别。属性集合可用矢量X=(A1, , Am, C)表示,其中Ai(1im)对应描述属性,可以具有不同的值域,当一个属性的值域为连续域时,该属性称为连续属性(Numerical Attribute),否则称为离散属性(Discrete Attribute);C表示类别属性,C=(c1, c2, , ck),即训练数据集有k个不同的类别。,8,8.1 分类过程(3),分类算法有决策树分类算法、神经网络分类算法、贝叶斯分类算法、k-最近邻分类算法、遗传分类算法、粗糙集分类算法、模糊集分类算法等。分类算法可以根据下列标准进行比较和评估。 1)准确率。涉及分类模型正确地
3、预测新样本所属类别的能力。 2)速度。涉及建立和使用分类模型的计算开销。 3)强壮性。涉及给定噪声数据或具有空缺值的数据,分类模型正确地预测的能力。 4)可伸缩性。涉及给定大量数据,有效地建立分类模型的能力。 5)可解释性。涉及分类模型提供的理解和洞察的层次。 分类模型有分类规则、判定树等。,9,8.1 分类过程(4),(2)评估分类模型的准确率:利用测试数据集评估分类模型的准确率。 测试数据集中的元组或记录称为测试样本。 分类模型正确分类的测试样本数占总测试样本数的百分比称为该分类模型的准确率。如果分类模型的准确率可以接受,就可以利用该分类模型对新样本进行分类。否则,需要重新建立分类模型。,10,8.1 分类过程(5),评估分类模型准确率的方法有保持(holdout)、k-折交叉确认等。 保持方法将已知类别的样本随机地划分为训练数据集与测试数据集两个集合,一般,训练数据集占2/3,测试数据集占1/3。分类模型的建立在训练数据集上进行,分类模型准确率的评估在测试数据集上进行。 k-折交叉确认方法将已知类别的样本随机地划分为大小大致相等的k个子集S1, , Sk,并进行k次训练与测试。第
4、i次,子集Si作为测试数据集,分类模型准确率的评估在其上进行,其余子集的并集作为训练数据集,分类模型的建立在其上进行。进行k次训练得到k个分类模型,当利用分类模型对测试样本或者新样本进行分类时,可以综合考虑k个分类模型的分类结果,将出现次数最多的分类结果作为最终的分类结果。,11,8.1 分类过程(6),2. 分类阶段 分类阶段就是利用分类模型对未知类别的新样本进行分类。 数值预测过程: 与数据分类过程相似。首先通过分析由预测属性取值已知的数据对象组成的训练数据集,建立描述数据对象特征与预测属性之间的相关关系的预测模型,然后利用预测模型对预测属性取值未知的数据对象进行预测。 数值预测技术主要采用回归统计技术,例如,一元线性回归、多元线性回归、非线性回归等。,12,8.2 决策树分类 8.2.1 决策树(1),决策树:一棵决策树由一个根节点,一组内部节点和一组叶节点组成。每个内部节点(包括根节点)表示在一个属性上的测试,每个分枝表示一个测试输出,每个叶节点表示一个类,有时不同的叶节点可以表示相同的类。,13,8.2.1 决策树(2),图8.2 判断顾客是否购买计算机的决策树,14,8.2
《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第8章》由会员E****分享,可在线阅读,更多相关《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第8章》请在金锄头文库上搜索。
逍遥游复习 知识点整理
近现代法德关系史 高三展示课3稿
当代大学生人生信仰及追求的调查研究
长相思 纳兰性德-ppt课件
课件:危机意识 一
英语ppt演讲关于阿甘正传
发达国家基础教育改革的动向与趋势 修改版
中国民间美术 课件.ppt
生物质发电技术与系统 课程ppt 第1章 生物质发电技术现状及发展趋势 2学时 -----2016
现代信号处理思考题 含答案
执业药师继续教育 抑郁症的药物治疗 100分
小学生的成长档案模板不用修改 万能型
增订六版 现代汉语 上册 第二章文字 思考与练习答案
国家财政ppt课件
加拿大英语介绍
六年级统计图的选择课件
中学生成长档案ppt
中国现代文学史期末复习整理
lohi和hihilo训练对女子赛艇运动员运动能力影响的比较研究
风雨贾平凹阅读答案
2024-04-11 25页
2024-04-11 37页
2024-04-11 28页
2024-04-11 31页
2024-04-11 36页
2024-04-11 29页
2024-04-11 22页
2024-04-11 27页
2024-04-11 34页
2024-04-11 32页