
Apriori算法在网络教学平台自动推荐学习资源功能中的应用.doc
8页Apriori算法在网络教学平台自动推荐 学习资源功能中的应用卢小华歷山西工商学院摘要:主要研宄丫数据挖据关联规则中挖掘频繁项集的Apriori算法在教学平台中的 应用,以学生进入课程中心进行学习的日志记录作为原始数据,采用Apriori算 法分析知识网页间的关联,根据关联规则进行学习资源的个性化推荐,从而满足 不同学生的学习需求关键词:关联规则;Apriori算法;教学平台;学习资源推荐;作者简介:卢小华(1981—),女,山西五台人,工程硕士,现就职于山西工商学院计 算机信息工程学院,研宄方向:数据挖掘;作者简介:刘静(1981—),男,山两朔州人,现就职于山丙工商学院网络中心,教育 技术学专业收稿日期:2016-07-06基金:山四工商学院《C语言程序设计精品课程建设项目管理研究》,编号:201549Application of Apriori Calculation in Network Teaching Platform to Automatically Recommend Learning Resources FunctionLu Xiaohua Liu JingComputer Information Engineering College ofShanxi Technology and Business University;Abstract:This paper mainly studies the data digging, according to the association rules Apriori algorithm for mining frequent itemsets in the application of the teaching platform, into the heart of the course on the students to 1 earn the logging as raw data, USES the Apriori algorithm analysis knowledge web page,the correlation between learning resources according to association rules of personalized recommendation, to meet different learning needs of students.Keyword:association rule;八priori calculation; teaching platform; study material recommend;Received: 2016-07-06引言随着信息技术和网络技术的快速发展,各大高校均构建了网络教学平台,但是现 有的教学平台缺乏个性化功能设计,不能根据不同需求进行学习资源的自动化推 荐,因此在教学平台的设计中,加入数据挖据中基于关联规则的Apriori算法对 于提高学生的学习效果是很有意义的。
1关联规则的相关概念假设用字母I)代表数据库中所有事务的集合,而每个事务用字母T來表示,事务的标识符用TID来表示,且 并假设用字母I来表示数据库中所有数据项的集合,其中每一项用Tm来表示,T为T的子集假定A、B均为项集,均是T的非 空子集,且A和B的交集不为空,则说明A和B是相关联的项集,既A=>B这个推 算公式就称为D中A和B的关联规则[1]1.1 支持度(support)1)1)中项集X出现的次数称为支持度计数2) 在数据事务集合D中,项目集A所在的事务数与D中总的事务数的百分比称之 为A在D中的支持度,记作s叩(八)位1 o3) 关联规则的一般形式为:A=〉B,其含义为A出现的同吋也导致B出现则A=>B 的支持度为:support (A=〉B) =suppport (A U B) =P (A U B) =T (A U B) /1D |其中|T(AUB)|代表AUB的事务数,|D|表示事务总数,支持度代表了关联规则的 频度[3]1.2最小支持度由用户自设的支持度的一个阈值,记作minsup1.3 置信度(confidence)是指数据库事务D中A和B同时出现的次数与A出现的次数之比。
confidence (A=>B) = (support (AUB))/ (support (A))1.4最小置信度是用户设定的衡量置信度的一个阈值,表示关联规则的最低准确率,记作 minconf1.5频繁项目集对一个项目集X,如果support (X)彡min_sup,称X为频繁项H集,频繁k项集的集 合通常记为uui1.6较强规则如果 support (A=〉B) >minsup 且 confidence(A=>B) ^minconf,称关联规则 A=>B 为较强规则1. 7先验性质如果一个项集是频繁的,那么它的所有子集(不括空集)也一定是频繁的[5]2关联规则挖掘的经典算法Apriori 算法2.1算法的基本思想Apriori算法又叫逐层搜索迭代方法,它是用第k项集搜索第k+1项集这1算 法的基本思想为:第一,首先对整个事务数据库进行扫描,统计其中每一项出现的 次数第二,找出所有支持度>用户设定的最小支持度的项集第三,将满足条件 的所有项集作为一个集合赋给频繁1项集L第四,通过U自身连接生成候选项 集,将候选项进行计数,与最小支持度进行比较,将满足条件的所有项集作为一个 集合赋给频繁2项集的集合L2。
第五,采用同样的方法通过L2自身连接查找频繁 3项集U第六,循环执行以上操作,直到不能产生频繁项集为止在查找频繁项 集的过程中可使用先验性质判断进行剪枝操作第七,利用以上操作步骤生成的 频繁项集计算关联规则m2.2算法的核心步骤八priori算法的核心是使用LkH找出1<现k彡2,主要步骤为连接和剪枝:1) 连接将与其自身通过连接运算生成候选k项集的集合,用Ck来表示假 设1:和L是Uh中的项集,b[j]表示b的第j,如果b =12 ) (1,=12 ) (ll[k-2]=l2[k-2]) (Uk-l] 3) 算法伪代码表示如下2.4由频繁项集产生关联规则1) 生成每个频繁项集1的非空子集[10]2) 如果(support count (1))/(support count (s)) ^min conf,则输出规则 “s=〉(l-S) ”,其中min_Conf代表最小置信度阈值3 Apriori算法在平台教学资源推荐中的应用Apriori算法挖掘过程分为四步:第一,对于进行挖掘的数据信息进行整理,形成 一个计算机能处理的数据库;第二,从数据库中把具有一定价值的数据项整理出来;第三,把整理过的数据项转换成算法能够处理的事务;第四,根据预先所设定 的最小支持度得到频繁项集;第五,根据频繁项级级预先设定的最小置信度得到 事务间的关联规则[11]实例分析:采用Apriori算法挖掘学生进入课程中心进行课程学习的访问口志, 找出访问较频繁的知识点页而,判断学生的兴趣棊于学生频繁进行学习的页而, 获取学生的学习需求趋势,找出频繁项集,进行个性化学习资源的推荐3.1 Date Collection数据收集在数据挖掘前期工作中是非常重要的,收集学生访问平台知识点网贞的 记录,随机抽取了 4条记录,如表1所示。 表1学生访问知识点网页记录数据表 下载原表3.2 Data Processing把数据表转换成事务数据库D,例题中共有4个事务,即|D|=4,其中C代表C语 言,CJ代表C++, CS代表C#,J代表计算机基础,P代表Photoshop,转换后记录如 表2所示表2学生访问知识点网页的事务数据 下载原表将事务数据表转化成布尔矩阵,如表3所示表3学生访问知识点网页的布尔矩阵图 下载原表3. 3 Data Mining按照算法的两个步骤进行关联规则挖掘,在本例中假设最小支持度计数为2,即 min_sup=2,最小置信度为65%o1)使用候选项集找出所有频繁项集在查找L,时,将事务数据库中所有的事务进行扫描,将所有项的出现次数进行统 计,从而确定C,,从C:中把大与等于最小支持度阈值的项取出来,组成集合赋给Lb 如图1所示: 图1候选项集Cl和频繁项集L1的产生 下载原图 2)通过L,其自身连接产生C2_候选两项集的项集,计算(:2中两项集出现的次数, 然后将其值与最小支持度比较,不小于最小支持度的项集赋给L2图2候选项集C2和频繁项集L2的产生 下载原图3) U与自身连接生成C3_候选三项集的项集,计算C3中两项集出现的次数,然后 将其值与最小支持度比较,不小于最小支持度的项集赋给L3。 图3候选项集C3和频繁项集L3的产生 下载原图4) L3与自身连接不再生成频繁项集,因此算法结束3.4 Association Rule通过分析结果发现C语言和C++、C#两门课程之间存在着密切的关联,将得到的 关联规则结果存放到关联规则表中,在学生选择学>J C语言课程时平台自动推荐 学习C++、C#,如图4所示图4平台自动推荐学习资源界面图 下载原图4结语随着internet的迅速发展,网络教学平台的应用己成为网络教育的一种主流模 式数据挖掘技术中Apriori算法在教学平台中的应用可以为学生自动推荐个性 化的学习资源,从而可以满足不同学习者的学习需求,提高学习效果和质量参考文献[1] 林炳源.基于FP树的关联规则算法改进研究.林炳源[D].赣州:江四理工大 学,2012.[2] Jiavei Han,Micheline Kamber,Jian Pei. Date Mining Concepts andTechiques Third Edition[M], Bei Jing:China Machine Press.2012.[3] 李文静.浅谈数据挖掘中的分类算法[J].甘肃科技纵横,2007(3):2.[4] 刘芳.基于双向搜索的关联规则挖掘算法研究[D].重庆:重庆邮电大学,2011.[5] 谢亮.基于主从关系数据模型的关联规则挖掘研宄[D].合肥:合肥工业大 学,2009.[6] 樊妍妍.基于数据挖掘的个性化教学辅助系统的研究与设计[D].合肥:安 徽大学,2011.[7] R obert C ool ey,Bam shad M obasher,Jai deep Sri vast ava[M].D at aPreparat i on f or M i ni ng W orl d W i de W eb Brow si ng Pat t erns. Know1 edge and Tnf orm at i on Syst em s, 1999.[8] 范明.数据挖掘概念与技术[M].孟小峰,译.北京:机械工业出版社,2012.[9] Fayyad U. Data min。
