
采用数据挖掘技术中ID3决策树算法分析学生成绩.doc
6页采用数据挖掘技术中ID3决策树算法分析学生成绩论文导读:在学校管理工作中,特别是对学生的成绩管理工作中,普遍存在的问 题是学生成绩数据量过于庞大,但对这些数据的处理还停留在初级的数据备份、 查询及简单统计阶段,并没有对大量的成绩数据进行深入地分析,加以捕捉有利 于教学管理工作的信息,这是对教学信息资源极大的浪费数据挖掘技术正是解 决这个问题的可行而有效的方法本文使用ID3决策树算法生成决策树分析学生 成绩优良与哪些因素有关,并利用事后修剪法对决策树进行修剪,最后由决策树 产生分类规则关键词:数据挖掘技术,ID3决策树算法,学生成绩1.引言当前,职业技术教育随着社会发展和科技进步,其办学软硬件层次正逐步 升级,办学规模和社会影响力也成倍增长在学校管理工作中,特别是对学生的 成绩管理工作中,普遍存在的问题是学生成绩数据量过于庞大,但对这些数据的 处理还停留在初级的数据备份、查询及简单统计阶段,并没有对大量的成绩数据 进行深入地分析,加以捕捉有利于教学管理工作的信息,这是对教学信息资源极 大的浪费数据挖掘技术正是解决这个问题的可行而有效的方法本文使用ID3 决策树算法生成决策树分析学生成绩优良与哪些因素有关,并利用事后修剪法对 决策树进行修剪,最后由决策树产生分类规则。
2.数据挖掘的方法和技术数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计 分析方法、模糊数学方法及科学计算可视化技术,以数据库为研究对象,形成了 数据挖掘的方法和技术可分为以下六大类:归纳学习法、仿生物技术、公式发 现、统计分析方法、模糊数学方法、可视化技术信息论方法(决策树方法)是归纳学习法中的一类信息论方法是利用信 息论的原理建立决策树在知识工程领域,决策树是一种简单的知识表示方法, 它将事例逐步分类成代表不同的类别由于分类规则是比较直观,易于理解,该 类方法的实用效果好,影响较大由于该方法最后获得知识表示形式是决策树, 故一般称它为决策树方法这种方法一般用于分类任务中决策树是通过一系列规则对数据进行分类的过程它提供一种在什么条件 下会得到什么值的类似规则的方法决策树是以实例为基础的归纳学习算法从 一组无次序、无规则的元组中推理岀决策树表示形式的分类规则它采用自顶向 下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同的属性值从 该节点向下分支,叶节点是要学习划分的类从根节点到叶节点的一条路径就对 应着一条分类规则,整个决策树就对应着一组析取表达式规则信息论方法中较有特色的方法有:ID3,IBLE方法。
目前己形成了多种决策 树算法,女UCLS、 ID3、 CHAID、 CART、 FACT、 C4.5、 GINI,SEE5、 SLIQ、 SPRINT等其中最著名的算法是Quinlan提出的ID 3算法2.决策树的生成决策树的生成分为学习及测试两个阶段决策树学习阶段采用自顶向下的 递归方式决策树算法分成两个步骤:一是树的生成,开始时所有数据都在根节 点,然后递归地进行数据划分,直至生成叶节点二是树的修剪,就是去掉一些 可能是噪音或者异常的数据决策树停止分割的条件有:一个节点上的数据都是 属于同一个类别;没有属性可以再用于对数据进行分割建立一颗决策树可能只要对数据库进行几遍扫描之后就能完成,这也意味 着需要的计算资源较少,而且可以很容易的处理包含很多预测变量的情况,因此 决策树模型可以建立得很快,并适合应用到大量的数据上3.ID3算法决策树归纳的基本算法是贪心算法,它以自顶向下递归的方法构造决策树著名的决策树归纳算法ID3算法的基本策略如下:•树以代表训练样本的单个节点开始•如果样本都在同一个类中,则这个节点成为树叶节点,并用该类标记•否则,算法使用称为信息增益的基于爛的度量作为启发信息,选择能够 最好的将样本分类的属性,该属性成为该节点的测试或判定属性。
在这里,我们 假设所有的属性都是分类的,即取离散值连续值的属性必须离散化•对测试属性的每个已知的值创建一个分支,并据此划分样本•算法使用类似的方法,递归地形成每个划分上的样本决策树一旦一个 属性出现在一个节点上,就不必在该节点的后代上考虑这个属性•整个递归过程在下列条件之一成立时停止:(1 )给定节点的所有样本属于同一类2) 没有剩余属性可以用来进一步划分样本,这时候将该节点作为树叶, 并用剩余样本中所出现最多的类型作为叶子节点的类型3) 某一分枝没有样本,在这种情况下,以训练样本集中占多数的类创 建一个树叶但是,ID3算法也存在着如下不足:(1) 不能够处理连续值属性,ID3算法最初定义时是假设所有属性值是离散 的,但在现实环境中,很多属性值是连续的2) 计算信息增益时偏向于选择取值较多的属性,这样不太合理3) 对噪声较为敏感,所谓噪声是指训练集中属性值或类别给错的数据4) 在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导 致算法的低效5) 只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳 时程序无法运行4. 树的剪枝当决策树创建时,由于数据中的噪声和孤立点,许多分枝反映的是训练中 的异常。
剪枝方法处理这种过分适应数据问题通常,这种方法使用统计度量, 剪去最不可靠分枝,这可带来较快的分类,提高决策树独立于测试数据正确分类 的能力有两种常用的剪枝方法:先剪枝方法(prepruning ),通过提前停止树的构造而对树剪枝一旦停止, 节点成为树叶该树叶持有子集样本中出现最频繁的类在构造树时,如统计意 义下的2、信息增益等度量,可以用于评估分裂的优良性如果在一个节点划分 样本将导致低于预定义阈值的分裂,则给定子集的进一步划分将停止然而,选 择一个适当的阈值是困难的较高的阈值可能导致过分简化的树,而较低的阈值可能使得树的简化太少后剪枝方法(postpruning ),它由完全生长的树剪去分枝通过删除节点的分枝,剪掉树节点,代价复杂性剪枝算法是后剪枝算法的一个实例在该算法 中,最下面的未被剪枝的节点成为树叶,并用它先前的分枝中最频繁的类进行标 记对于树中每一个非树叶节点,算法计算该节点上的子树被剪枝后可能出现的 期望错误率然后,使用每个分枝的错误率,结合沿每个分枝观察的权重评估, 计算不对该节点剪枝的期望错误率如果剪去该节点,导致较高的期望错误率, 则保留该子树;否则剪去该子树产生一组逐渐被剪枝的树之后,使用一个独立 的测试集评估每棵树的准确率,就能得到具有最小期望错误率的决策树。
也可以交叉使用先剪枝和后剪枝,形成组合式方法后剪枝所需的计算比 先剪枝多,但通常产生更可靠的树5. 从决策树提取分类规则从决策树提取分类规则时,规则使用ifthen的形式表示出来,对从根到树 叶的每一条路径创建一条规则,沿着路径上的每一个属性•值对,形成规则前件 (IF部分)的一个合取项叶节点包含类预测,形成规则后件(THEN部分L ifthen 规则易于理解,特别是当给定的树很大时而且便于规则匹配等操作6. 结论数据挖掘虽然还是一门新兴的数据分析技术,但已经具有了强大的生命力, 其研究取得了令人瞩目的成就,己经成功地应用到了许多领域可以说,有数据 积累的地方,就有数据挖掘技术的用武之地,这是因为它直接与经济和决策紧密 相连。
