数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第6章
61页1、第六章 关联分析,2,第六章 目录,6.1 问题定义 6.2 Apriori算法 6.3 频繁项集的紧凑表示 6.4 FP-growth算法 6.5 本章小结,3,引例(1),关联分析的一个典型应用是购物篮分析。所谓购物篮分析就是在某商店的销售事务数据集中分析该商店的“大部分顾客会在一次购物中同时购买什么商品?”,以便对商品促销、布局等提供帮助。 例如,如果某食品商店通过购物篮分析得知“大部分顾客会在一次购物中同时购买面包和牛奶”,那么该食品商店通过降价促销面包有可能同时提高面包和牛奶的销量。 再例如,如果某儿童用品商店通过购物篮分析得知“大部分顾客会在一次购物中同时购买奶粉和尿片”,那么该儿童用品商店通过将奶粉和尿片分别放置在相距较远的地方,中间放置一些其他常用儿童用品,可能诱发顾客在购买奶粉和尿片时一路购买其他商品。,4,引例(2),在购物篮分析中,我们用关联规则表示“在一次购物中同时购买的商品”的关联关系,用关联规则的支持度与置信度反映该关联规则对“大部分顾客”成立。 例如,在一次购物中同时购买面包和牛奶的关联关系可以用关联规则表示为:bread=milk。如果该关联规则的支持度
2、为5%、置信度为70%,则表示全部顾客中5%同时购买面包和牛奶,购买面包的顾客中70%同时购买牛奶。,5,引例(3),购物篮分析只是关联分析的一种形式与应用。事实上,关联分析可以分为许多种类。 1)根据分析的模式类型,可以分为项集模式、子序列模式与子结构模式。 2)根据分析的规则类型,可以分为关联规则和相关规则。 3)根据规则的值类型,可以分为布尔关联规则与量化关联规则。 4)根据规则的数据维(或谓词),可以分为单维关联规则与多维关联规则。 5)根据规则的抽象层,可以分为单层关联规则与多层关联规则。,6,6.1 问题定义(1),设I=i1,i2,im是项集合;T=t1,t2,tn是事务集合,其中 。A=B称为T中的关联规则,其中 。 在事务集合T中,包含 的事务占全部事务的百分比称为T中关联规则A=B的支持度,记为 。 在事务集合T中,包含 的事务占包含A的事务的百分比称为T中关联规则A=B的置信度,记为 。,7,6.1 问题定义(2),设min_sup是最小支持度阈值;min_conf是最小置信度阈值。如果事务集合T中的关联规则A=B同时满足 support(A=B)min_sup
3、confidence(A=B)min_conf 则A=B称为T中的强关联规则。 关联规则挖掘就是在事务集合中挖掘强关联规则。,8,6.1 问题定义(3),关联规则挖掘算法主要包括两个步骤: (1)产生频繁项集(支持度测试) 包含k个项的集合称为k-项集,记为Ik。 在事务集合T中,包含某k-项集Ik的事务数称为T中Ik的支持计数(或出现频率),记为sup_count(Ik)。 在事务集合T中,包含某k-项集Ik的事务占全部事务的百分比称为T中Ik的支持度,记为support(Ik)=P(Ik)。 设n是事务集合T中的事务数,即n=|T|。如果T中某k-项集Ik的支持计数满足 sup_count(Ik)nmin_sup 即support(Ik)min_sup 则Ik称为T中的频繁k-项集。所有T中的频繁k-项集集合记为Lk。,9,6.1 问题定义(4),产生频繁项集就是找出支持度大于等于最小支持度阈值的关联规则。 例如,如果项集a,b,c是频繁3-项集,即support(a,b,c)=P(a,b,c)min_sup,那么, support(a=bc)=support(b=ac)=supp
4、ort(c=ab) = support(ab=c)=support(ac=b)=support(bc=a) = P(a,b,c)min_sup (2)产生强关联规则(置信度测试) 产生强关联规则就是在由频繁项集的项组成的关联规则中,找出置信度大于等于最小置信度阈值的关联规则。 在上述两个步骤中,关键是第一步骤,它的效率影响整个关联规则挖掘算法的效率。因此,关联规则挖掘算法的核心是频繁项集产生方法。,10,6.2 Apriori算法 6.2.1 频繁项集产生(1),1. Apriori性质 定理6.1 如果一个项集Ii是频繁项集,则它的所有非空子集Ij一定也是频繁项集。该定理也称为Apriori性质。 证明: sup_count(Ij)sup_count(Ii) sup_count(Ii)nmin_sup sup_count(Ij)nmin_sup 证毕。,11,6.2.1 频繁项集产生(2),根据Apriori性质,Apriori算法的基本思想是: 首先,扫描一次事务集合,找出频繁1-项集集合L1。 基于L1,产生所有可能频繁的2-项集,即候选2-项集集合C2(连接); 基于L1,优化
《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第6章》由会员E****分享,可在线阅读,更多相关《数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅 第6章》请在金锄头文库上搜索。
逍遥游复习 知识点整理
近现代法德关系史 高三展示课3稿
当代大学生人生信仰及追求的调查研究
长相思 纳兰性德-ppt课件
课件:危机意识 一
英语ppt演讲关于阿甘正传
发达国家基础教育改革的动向与趋势 修改版
中国民间美术 课件.ppt
生物质发电技术与系统 课程ppt 第1章 生物质发电技术现状及发展趋势 2学时 -----2016
现代信号处理思考题 含答案
执业药师继续教育 抑郁症的药物治疗 100分
小学生的成长档案模板不用修改 万能型
增订六版 现代汉语 上册 第二章文字 思考与练习答案
国家财政ppt课件
加拿大英语介绍
六年级统计图的选择课件
中学生成长档案ppt
中国现代文学史期末复习整理
lohi和hihilo训练对女子赛艇运动员运动能力影响的比较研究
风雨贾平凹阅读答案
2024-04-11 25页
2024-04-11 37页
2024-04-11 28页
2024-04-11 31页
2024-04-11 36页
2024-04-11 29页
2024-04-11 22页
2024-04-11 27页
2024-04-11 34页
2024-04-11 32页