数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第9章
48页1、1,第九章 异常检测,2,第九章 目录,9.1 概 述 9.2 基于距离的异常检测 9.3 基于密度的异常检测 9.4 基于图的异常检测 9.5 本 章 小 结,3,9.1 概述,9.1.1 异常概念 9.1.2 异常的成因 9.1.3 异常检测方法,4,9.1.1 异常概念,异常是数据集中的小比例对象。通常,异常对象被称为离群点、例外(Outlier)、野点等。异常检测是一个有趣的数据挖掘任务,其目标是发现与大部分其他对象不同的对象。异常检测也称偏差检测(deviation detection)或例外挖掘(exception mining),它是发现新知识、新类别的一条有效途径。 异常检测可以分为两个子问题:1)定义在给定的数据集合中什么样的数据认为是不一致的; 2)找到一个有效的方法挖掘这样的异常。,5,9.1.2 异常的成因,常见的异常成因有: 1)数据来源于不同的类。一个数据对象可能不同于其他数据对象(即异常),因为它属于一个不同的类型或类。 2)自然变异。属于同类的数据对象由于自然变异出现了异常。 3)数据测量或收集误差。数据测量和收集过程中出现的误差是另一个异常源。例如,由
2、于人的错误、测量设备的问题或存在噪声,测量值可能被错误记录。,6,9.1.3 异常检测方法(1),对于不考虑数据空间或时间的基本异常检测方法大致可以分成四类: 基于统计分布的异常检测(Distribution-based outlier detection) 基于偏差的异常检测(Deviation-based outlier detection) 基于距离的异常检测(Distance-based outlier detection) 基于密度的异常检测(Density-based outlier detection)。,7,基于统计分布的异常检测方法对给定的数据集假设了一个分布或概率模型(例如,正态分布或泊松分布),然后根据模型采用不和谐检验识别异常。异常是那些同模型不能完美拟合的对象。 基于偏差的异常检测不使用统计检验或基于距离的度量来识别异常对象。相反,它通过检查一组对象的主要特征来识别异常。“背离”这种描述的对象认为是异常。 基于距离的异常检测指定参数pct和dmin,如果数据集合D中的对象至少有pct部分与对象o的距离大于dmin,则称对象o是以pct和dmin为参数的基于距离
3、的异常,记为DB(pct,dmin)。 基于密度的异常检测不将异常看作一种二元性质,而是使用局部异常因子(LOF)来评估一个对象是异常的程度。该程度依赖于对象相对于其邻域的孤立情况。,9.1.3 异常检测方法(2),8,9.1.3 异常检测方法(3),当考虑对象间的空间关系时,常用的异常检测方法有两种: 基于图的异常检测(Graph-based outlier detection) 基于多维空间的异常检测(Multi-dimensional space-based outlier detection),9,9.1.3 异常检测方法(4),基于图的异常检测以图的连通性为基础。异常定义为属性值明显不同于其空间连通近邻的数据对象,这样的异常常常称为空间异常。 基于多维空间的异常检测也是检测空间异常,只是其空间邻域的定义与基于图的异常检测方法中的定义不同。在基于多维空间的异常检测中,空间邻域的定义基于欧几里德距离,而在基于图的异常检测中,空间邻域的定义基于图的连通性。,10,9.2 基于距离的异常检测,9.2.1 嵌套-循环(Nested-Loop,NL)算法 9.2.2 基于单元(Cell-
4、Based)的算法,11,9.2.1 嵌套-循环(Nested-Loop,NL)算法(1),主要思想:假设N是数据集中对象数,缓冲区的大小为数据集大小的B%,算法将整个缓冲区分成两个阵列,分别称为第一阵列和第二阵列。将数据集中的数据划分成块,每块大小为0.5B%。对象以块为单位读入阵列中,然后直接计算数据对象间的距离。第一阵列中的每个对象都有一个计数器,用于记录对象dmin邻域内的对象数目。某个计数器的值一旦大于一个异常的dmin邻域内最多对象数目M=N(1-pct) ,该计数器就停止计数。,12,算法:嵌套-循环(NL)算法(D,dmin,M) 输入:数据对象集合D,邻域半径dmin,一个异常的dmin邻域内最多对象数目M 输出:D中的异常对象 步骤: (1)用数据集D中的一个数据块填充第一阵列 (2)for 第一阵列中每个数据对象ti,do (2.1)counti=0 (2.2)for第一阵列中的每个对象tj (2.2.1)if dist(ti,tj)dmin,then counti+1 /dist()是距离函数 (2.2.2)if countiM,then 标记ti不是一个异常,
《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第9章》由会员E****分享,可在线阅读,更多相关《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第9章》请在金锄头文库上搜索。
逍遥游复习 知识点整理
近现代法德关系史 高三展示课3稿
当代大学生人生信仰及追求的调查研究
长相思 纳兰性德-ppt课件
课件:危机意识 一
英语ppt演讲关于阿甘正传
发达国家基础教育改革的动向与趋势 修改版
中国民间美术 课件.ppt
生物质发电技术与系统 课程ppt 第1章 生物质发电技术现状及发展趋势 2学时 -----2016
现代信号处理思考题 含答案
执业药师继续教育 抑郁症的药物治疗 100分
小学生的成长档案模板不用修改 万能型
增订六版 现代汉语 上册 第二章文字 思考与练习答案
国家财政ppt课件
加拿大英语介绍
六年级统计图的选择课件
中学生成长档案ppt
中国现代文学史期末复习整理
lohi和hihilo训练对女子赛艇运动员运动能力影响的比较研究
风雨贾平凹阅读答案
2024-03-21 39页
2024-03-21 41页
2024-03-21 40页
2024-03-21 34页
2024-03-21 33页
2024-03-21 35页
2024-03-21 21页
2024-03-21 45页
2024-03-21 33页
2024-02-20 85页