
基于粗糙集约简的web日志挖掘研究与实现.pdf
52页河北工业大学 硕士学位论文 基于粗糙集约简的Web日志挖掘研究与实现 姓名:翟晓菲 申请学位级别:硕士 专业:计算机应用技术 指导教师:顾军华 20091201 基于粗糙集约简的 Web 日志挖掘研究与实现 iv 基于粗糙集约简的基于粗糙集约简的 Web 日志挖掘研究与实现日志挖掘研究与实现 摘摘 要要 随着 Internet 技术的快速发展,互联网已经成为人们日常生活中从外界获取信息不可 缺少的手段从政府机关和各企业公司到个人生活,都离不开互联网但是随着网络技术 的发展,Web 网站的规模与复杂度也在不断地增长,导致了 Internet 网络资源过于广泛, 这使得广大的访问者迷失在大量的网络资源中, 无法找到自己关注的信息 各个网站经营 者想要提高自己网站的访问量, 需采用各种手段与工具优化网站, 以提供给用户一个个性 化的服务解决这一问题的一个有效方法是将数据挖掘理论与技术应用到 Web 日志上, 即 Web 日志挖掘(也称 Web 使用挖掘) 数据挖掘是信息系统智能化的重要手段之一, 是从大量的模糊的、不完全的、随机的数据中挖掘出有效的、有意义的知识和规则 Web 日志挖掘的数据主要来源于网站服务器端、客户端、代理服务器端,由于网站每 天的访问量是非常巨大的,所以 Web 日志数据一般会是大量的、冗余的、不确定的。
而 粗糙集理论是一种处理不精确、不相容、不完全数据的有效工具粗糙集约简理论在处理 海量数据,消除冗余知识等方面取得了很好的效果在 Web 日志挖掘的模式发现阶段前, 应用粗糙集的属性约简理论可以去掉 Web 日志中的大量冗余数据,精简原有知识,从而 提高模式挖掘的效率 本文首先阐述了粗糙集理论的基础知识, 为后面粗糙集属性约简理论的研究做了一个 理论铺垫从粗糙集约简代数定义出发,研究了各种约简算法,并比较了几种约简算法的 特点和性能 针对属性重要度的代数和信息两种不同表示方式的讨论后, 得出对论域中对 象的分类,从不一致对象的角度出发,定义了新的属性很重要度,并提出了基于哈希表的 计算方法, ,最后提出改进的启发式属性约简算法经实验证明,该算法的性能要优于一 般的算法文章还研究了 Web 日志挖掘的概念以及相关技术,并在现实的 Web 日志数据 上进行 Web 日志挖掘过程的实施 关键词关键词::粗糙集,属性约简,信息熵,Web 日志挖掘,关联规则挖掘 河北工业大学硕士学位论文 v WEB LOG MINING RESEARCHAND IMPLEMENTATIN BASED ON ROUGH SET ATTRIBUTE REDUCATION ABSTRACT With the rapid development of Internet technology, Internet has become an essential mean for people to obtain information from the outside world in daily life. At the same time, internet has become the necessary part for government agencies, enterprises and the personal life. However, with the development of network technology, the scale and complexity of the Web site are also continuously expanding, which leads to too wide Internet network resources. This brings great difficulty to visitors to find out the information of interest and makes them lost in the network recourse of so large number. To improve visits of the web site, site operators need to optimize the site by using various means and tools to provide users a personalized service. An effective way to solve this problem is applying the theory and technology of data mining to the Web log, i.e. Web log mining (also named as Web usage mining). As an important mean to achieve intelligentization of information systems, data mining is to extract the effective and meaningful knowledge and rules from a lot of vague, incomplete, and random data. The data of Web Log Mining mainly come from the Web server side, the client, and the proxy server. Owing to the huge number of daily visits to the web site, the Web log data tend to be vast, redundant, and uncertain. The Rough Set theory is an effective tool to deal with imprecise, incompatible, incomplete data. At this point, the Rough Set Attribute Reduction theory has achieved a excellent effect in dealing with mass of data and eliminating redundant knowledge etc. Before the model discovery stage of Web Log Mining, the application of attribute reduction theory of rough set can get rid of a large number of Web logs redundant data and streamline the existing knowledge, which thereby enhances the efficiency of pattern mining. 基于粗糙集约简的 Web 日志挖掘研究与实现 vi In this paper, the basics of rough set theory are firstly introduced as theoretical matting for the following study on the attribute reduction theory of Rough Set. Next, begin with the definiti- on of thealgebra view of rough set, a variety of reduction algorithm is studied and the characteri- stics and performance of each reduction algorithms are compared. After the discussion on the two different views of algebra and information of the attribute importance, the classification of domain objects is obtained. From the perspective of inconsistent objects, a new attribute import- ance is defined, andAhash based algorithm to calculating is proposed. Finally, a novel heuristic attribute reduction algorithm is are developed based on the new attribute importance. And, The novel algorithm is proved by experiments to be superior to the general algorithms in performan- ce. The concept and related technologies of Web log mining are also investigated in this paper, and the Web log mining process is carried out based on the real Web log data. KEYWORDS:rough set, attribute reduction, information entropy, web log mining 河北工业大学硕士学位论文 iii 原创性声明原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成 果。
除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公 开发表或者没有公开发表的作品的内容对本论文所涉及的研究工作做出贡献的其他个人 和集体,均已在文中以明确方式标明本学位论文原创性声明的法律责任由本人承担 学位论文作者签名:日期: 关于学位论文版权使用授权的说明关于学位论文版权使用授权的说明 本人完全了解河北工业大学关于收集、保存、使用学位论文的规定同意如下各项内 容: 按照学校要求提交学位论文的印刷本和电子版本; 学校有权保存学位论文的印刷本和 电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索 以及提供本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有关部门或者 机构送交论文的复印件和电子版; 在不以赢利为目的的前提下, 学校可以适当复制论文的 部分或全部内容用于学术活动 (保密的学位论文在解密后适用本授权说明) 学位论文作者签名:日期: 导师签名:日期: 河北工业大学硕士学位论文 1 第一章第一章绪论绪论 1- 1 论文的研究背景和意义论文的研究背景和意义 数据挖掘(Data Mining)是从海量数据中探寻有益的知识用于决策辅助,目前己成为国际上信 息决策领域最前沿研究方向之一[1]。
近年来,伴随着网络的普及,数据信息更加体现出了多样化、不 规则化、 数据量大等特点 而数据挖掘也同时从挖掘文本数据、 企业数据向着更广泛的挖掘 Web 转化 两者的结合生成了一个热门的新兴的研究领域Web 挖掘(Web Mining)从广义上解释就是通过数据挖 掘技术来分析与网站相关的知识随着 Web 技术的发展,各种网站数量每天都在激剧增加,及时了解 用户的需求和特点,为每个用户提供个性化、智能化的服务,就变得尤其重要 其中网站浏览记录(Web Log) ,记录了使用者每次访问网站的一些资料,它最能反映使。
