好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据库中关联规则.docx

6页
  • 卖家[上传人]:tang****xu2
  • 文档编号:167778269
  • 上传时间:2021-02-15
  • 文档格式:DOCX
  • 文档大小:31.14KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 数据库中关联规则摘要:现在全球经济发展正在进入信息 经济时代,各种形式的信息大量地产生和收 集导致了信息爆炸,如何采用基于关联规则 的数据挖掘技术发现超市事务数据库中的 关联规则是本文所研究和探讨的重点关键词:数据挖掘电子商务关联规则1引言目前,在需要处理大数据量的科研领域 中,数据挖掘受到越来越多的关注我们可 以利用数据挖掘技术从海量数据中发现有 用信息,帮助商家了解客户以往的需求趋势, 并预测未来,从而给商家带来巨大的利润 在数据挖掘领域,采用关联规则在大型事务 数据库中进行数据挖掘是一个重要的研究 内容关联规则是美国旧MAlmadenResearchCenter 的 RabeshAgrawal等人于1993年首先提出的 KDDff究中的一个重要课题关联规则挖掘 的一般对象是事务数据库,这种数据库的主 要应用在零售业,比如超级市场的销售管理关联规则就是发现事务数据库中不同商品 之间是否存在某种关联关系通过这些规则 找出顾客购买行为模式,如购买了某一商品 对购买其他商品的影响 发现这样的规则可 以应用于商品货架设计、货存安排以及根据 购买模式对用户进行分类2关联规则描述目前关联规则挖掘主要考虑支持度和置信度两个阈值。

      设 X是项集,T是数据库 DB中的任意一个记录X的支持度是指支持 X的记录数与全体记录数的比,Support=| {T|T X, TEDB} |/|DB| o 蕴涵关 系X==>Y在数据库DB中的置信度是指同时 支持X和Y的记录数与支持X的记录数之比, 即:Confidence^ {T|T X Y,TGDB} |/| {T|TX,TEDB] I支持度可理解为在DB中随机抽 取一个记录,该记录同时支持 X和Y的概率 置信度可理解为在支持 X的记录全体中随机 取一个记录,该记录支持 Y的概率3发现关联规则的操作步骤目前,由于条码技术的发展,顾客在超 市中购买商品的信息可以很方便的被存放 在数据库中,针对数据库中大量的数据,我 们如何发现它们之间存在的关联是本文主 要讨论的问题关联规则的挖掘问题就是在 超市事务数据库DB中找出具有用户给定的 最小支持度和最小置信度的关联规则 关联规则的挖掘对市场调节和争取顾客方面的 应用是极有价值的因此,有必要采用快速 算法从超市事务数据库中挖掘关联规则 由超市事务数据库发现关联规则挖掘可以分 以下两步完成:1) 找出超市事务数据库DB中所有大于 等于用户指定最小支持度的项目集, 具有最 小支持度的项目集称为频繁项集。

      2) 利用频繁项集生成所期望的关联规 则,即这些规则必须满足最小支持度 min_supp和最小置信度 min_conf事实上,第一步的任务是迅速高效地找 出超市事务数据库DB中全部频繁项集,数 据挖掘所面临的最大的挑战是计算效率问 题,解决这一问题的途径是产生高效的数据挖掘算法,但从超市事务数据库中产生频繁 项集即费时又占用空间,所以说第一步是关 联规则挖掘的核心问题, 是衡量关联规则挖 掘算法的标准当找到所有的频繁项集后, 相应的关联规则将很容易生成, 目前大多数的关联规则挖掘算法研究是针对第一步而 提出的,本文重点讨论第一个问题4由超市事务数据库发现关联规则的总 体设计在现有的不少关联规则发现算法中, 最著名的仍然是本人在他们自己的 AIS算法基础上于1994年提出的Apriori 算法, Apriori算法的基本思想是:利用“频繁项 集的所有非空子集都必须也是频繁的”这 一定理对事务数据库进行多遍扫描众所周知,对数据库的扫描伴随繁重的 磁盘I/O任务,Apriori算法中,扫描次数 较多,这样就大大限制了挖掘算法的速度 因此,在实际的应用中,减少对事务数据库 的扫描次数,有效地减少数据的吞吐,将会 有效提高算法的效率。

      为了高效率的由超市 事务数据库中发现关联规则,本系统在Apriori算法的基础上采用基于划分的算法 该算法只对事务数据库 DB扫描两次,大大 减少了 I/O操作,从而提高了算法的效率通过划分方法进行数据挖掘的过程如 下图所示:本系统的总体设计包含三部分:在服务器端第一次扫描超市事务数据 库中的表,按照超市事务数据库中不同项集 的数量,以及兼顾客户端计算机硬件配置, 对其进行数据分块,分块的大小选择要使得 每个分块可以被放入主存在各个客户端计算机上,利用并行技术 分别访问服务器上的数据分块,求出各数据 分块所对应的局部频繁项集, 并将所求局部 频繁项集存入服务器的一个指定表中在服务器端,汇总各个分块数据生成的 局部频繁项集,第二次扫描超市事务数据库 中的总表,最终生成全局频繁项集系统的总体设计可以如下图 2应用程序 总体设计所示一旦由超市事务数据库 DB中的事务找 出频繁项集,由它们产生强关联规则是直截了当的所谓的强关联规则是指满足最小支 持度和最小置信度的规则5结论随着计算机硬件的降价, 利用并行处理 的思想,划分的数据块分给多个处理机并行 计算各数据块的局部频繁项集,然后各分块 所求的局部频繁项集汇总到服务器上, 再次扫描数据库最终求出全局频繁项集。

      这种将 关联规则挖掘算法与并行处理相结合的方 式能更大的提高算法的效率今后,如何能 够更有效的提高关联规则算法执行的效率, 怎样设计更有效、更实用的算法,是我们进 一步需要思考的问题数据库中关联规则。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.