好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于web结构信息与kohonen神经网络的web使用挖掘研究.pdf

72页
  • 卖家[上传人]:E****
  • 文档编号:117977939
  • 上传时间:2019-12-11
  • 文档格式:PDF
  • 文档大小:675.34KB
  • / 72 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 太原理工大学 硕士学位论文 基于Web结构信息与Kohonen神经网络的Web使用挖掘研究 姓名:张征 申请学位级别:硕士 专业:计算机应用技术 指导教师:马建芬 20090501 太原理工大学硕士研究生学位论文 I 基于 Web 结构信息与 Kohonen 神经网络的 Web 使用挖掘研究 摘 要 随着 Web 在信息共享、电子商务和提供服务方面的广泛应用,许 多的企业投入大量资金建立自己的网站用于发布信息、为自己的产品和服 务作宣传、进行电子商务活动,它们急切需要了解这些投资产生的效益和 作用,以便改进企业的战略,获得更多的商业机会,为用户提供更完善的 服务所以,理解用户的访问模式对这些企业来说至关重要,数据挖掘为 解决此问题提供了思路 数据挖掘最初主要使用在数据库上,但数据挖掘的对象并不局限于数 据库,现在人们已经将数据挖掘的知识应用到了 Web 领域上,用来从网络 信息当中挖掘出潜在的、有用的模式来基于 Web 的挖掘又分为三类,对 日志的挖掘是属于其中的使用挖掘作为记录了人们访问情况的网络日志 特别是服务器日志,由于日志数据有着固定的结构,更容易进行挖掘,而 受到研究者的青睐。

      本文对于数据挖掘的定义、数据挖掘的任务、数据挖 掘中的对象、数据挖掘的分析方法都做了很详尽的论述 用户访问模式代表了用户访问网站的兴趣通过挖掘用户访问模式, 可以改进 Web 服务器的性能、 改善网站结构、 识别电子商务中潜在的客户, 提高对用户服务的质量 本文采用了基于 Web 结构信息与 Kohonen 神经网络相结合的方式来进 行用户访问模式的挖掘,并采用数据库存储过程来自动化实现数据预处理 过程,主要内容如下: (1)Web 结构信息的获取 大型的 Web 站点页面有成千上万,直接在页面级别基础上进行用户会 话聚类分析是不大可能的,但是 Web 站点子模块和一级目录名称只有有限 的几十个,所以可以将用户访问一级目录下所有页面信息都汇聚到一级目 录,从而反应出用户对于某个一级目录感兴趣的程度 (2)Kohonen 神经网络 Kohonen 神经网络的工作原理是将任意维输入模式在输出层映射成一 维或二维离散图形,并保持其拓扑结构不变此外,网络通过对输入模式 的反复学习,可以使权重向量空间与输入模式的概率分布趋于一致,即权 太原理工大学硕士研究生学位论文 II 重向量空间能反映输入模式的统计特征。

      这种自组织聚类过程是在系统自 主、无监督的条件下完成的 (3)Web 结构信息与 Kohonen 算法的接口实现 将 Web 结构信息与 Kohonen 算法通过向量形式实现了业务与算法输入 之间的接口,将用户访问页面的兴趣点汇聚到一级目录层次,并进行用户 会话聚类分析,获得有价值的用户会话群及其群特征 (4)数据预处理过程的优化 本文数据预处理阶段采用数据库存储过程实现,可以动态的加载更新 数据及执行数据预处理的各个步骤,可以采用定时调度的方式来自动实现 数据预处理过程另外在数据预处理步骤中增加了 Web 站点结构信息的获 取,动态的获取在一定周期内用户访问一级目录下的页面访问次数 本文最后采用某高校网站用户访问日志数据来构建原型系统,并和其 它聚类算法进行比较实验表明,本文提出的模型能较好的挖掘用户访问 模式 关键词:Web 结构信息,用户访问模式,聚类,Kohonen 神经网络,核心页 面 太原理工大学硕士研究生学位论文 III RESEARCH ON WEB USAGE MINING BASED ON WEB STRUCTURE INFORMATION AND KOHONEN NEURAL NETWORK ABSTRACT Web technology has been applied in many fields such as information sharing, E-Business and online service. Many companies invest huge amounts of money into constructing websites to issue their information, make Ads for their products and do E-Business on the Internet. These companies are urgently wondering the effect of their investment, so they can make their business strategies appropriately, find new business chances and improve their services. In order to achieve this objective, it is very important for companies to acquire and understand the access pattern of their users, and data mining resolves this problem. Initially, data mining is mainly applied in getting knowledge from the database. As the development of Web technology, data mining is used in the web. Web-based data mining has three categories.Web log mining belongs to the web usage mining. The web log as the record of users’ visitation, especially the web server log, has a fixed structure, and is easier to carry out the data mining. Because of this character, web log is favored by researchers. In this paper we discuss the definition, the roles and the methods of data mining in details. User access pattern represents users interests in websites. Relying on analysis and discovery of the pattern through user log files, it can improve the performance of the web server, reconstruct the website, find the potential customers of e-commerce and enhance the quality of web services. In this paper, we apply the combination of web structure information and Kohonen neural network approach to mining user access pattern. Furthermore, we use database stored procedures to automate the process of data pre-processing implementation. The main contents are as follows: 太原理工大学硕士研究生学位论文 IV (1) Access web structure information For large-scale websites have thousands of pages, direct analysis of the page level based on user session cluster is impossible. But the amount of son modules and the corresponding first level directory name are limited. So all the pages user accessed could be collected to the first level directory, which reflect the interest degree of user for a certain first level directory. (2) Kohonen neural network Kohonen neural network working principle is to arbitrary-dimensional input mode at the output layer mapping into one-dimensional or two-dimensional discrete graphics, and to maintain its topology unchanged. In addition, the network through the input mode of the repeated study, can make the weight vector space with the input mode of the probability distribution of line, that is, the weight vector space can reflect the statistical characteristics of input mode. Under the conditions of unsupervised completed, this process of self-organizing clustering systems are autonomous, under the conditions of unsupervised completed. (3) The implementation of interface between web structure information and Kohonen algorithm The implementation of interface between web structure information and Kohonen algorithm is vector. We collect the visitors’ interest points in the first level directory-level, make the cluster analysis of user sessions, and collect valuable information of the visitors’ session groups and characteristics. (4) Optimize the process of data pre-processing In this paper, data pre-processing stage of implementation adopts database stored procedures. We can dynamically load the updated data and the implementation of the。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.