好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于Web使用挖掘的网站优化研究.pdf

75页
  • 卖家[上传人]:jiups****uk12
  • 文档编号:38623055
  • 上传时间:2018-05-05
  • 文档格式:PDF
  • 文档大小:1.23MB
  • / 75 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 摘 要 I摘 要 近年来,数据挖掘(Data Mining,简称 DM),受到国际人工智能与数据库界的广泛重视但是随着网络时代的到来,传统的数据挖掘的对象发生了改变,这对于数据挖掘和知识发现提出了新的挑战,Web 挖掘正是这样的背景下提出的Web 挖掘就是从 Web 世界的各种数据中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的过程Web 挖掘已经成为 Web 信息决策的重要手段,而 Web 使用挖掘因为其获得挖掘数据的便利性及准确性,更是成为 Web 挖掘中的重要研究方向之一 目前我国的互联网已经十分普及,成为人们获取各种信息的主要手段之一互联网与实体经济不断融合,利用互联网改造和提升传统产业,带动了传统产业结构调整和经济增长方式的转变,互联网已经成为我国发展低碳经济的新型战略性产业工信部发布的互联网产业数据显示,截至 2009 年底,国内网站数量达到 323 万个,年增长率 12.3%, 网民人数达到 4. 04 亿, 信息产业占国内生产总值的比重达到 10%左右随着互联网产业的不断发展,网站之间的竞争达到了白热化程度,如何在日益激烈的网站竞争中脱颖而出是网站决策者面临的主要问题。

      “以用户为核心”的网站构建思想已经成为趋势这就需要网站经营者了解用户对于网站访问的感受,同时根据用户的需要及时对于网站进行合理的改进,从而赢得用户的青睐日志文件是网站能够直接获得的最为全面的用户访问记录,日志文件中记录了用户访问过程的全部信息Web 使用挖掘正是从 Web 日志文件中发现用户的访问习惯和访问模式,从而对于网站的运行布局和结构进行优化,进而提升网站的用户满意度 本文结合“江苏招生考试网”的真实运行数据,通过 Web 使用挖掘技术对于网站的运行日志文件进行全面的挖掘分析,从中发现用户的访问习惯和访问模式,进而发现网站的运行现状以及页面之间的关联性、时序性,最终根据挖掘结果帮助网站决策者制定优化策略,这对于网站适应未来发展趋势、加快自身发展、应对竞争和挑战有着极具价值的现实意义 论文创新之处主要体现于: 全面梳理了 Web 使用挖掘的相关理论知识; 针对 Web使用挖掘的整个过程进行了深入探讨, 特别针对数据预处理中的主要问题提出相应的解决办法;在理论研究的基础上,综合运用计算机技术、数据库技术、数据挖掘等手段,建立了“基于 Web 使用挖掘的网站优化系统” ,为 Web 使用挖掘的实际应用做出了有益的尝试。

      关键词:关键词:数据挖掘,Web 使用挖掘,数据预处理,关联规则Abstract IIAbstract In recent years, Data Mining has being paid fairly attention by international artificial intelligence and data base field. With web age’s coming, objects of traditional data mining change, which brings the new challenge to data mining as well as knowledge discovery. And Web mining, introduced from such a background, that is a course of recognizing effective, new, potencially useful, comprehensible mode. It has become a significant means for web information decision-making, meanwhile, become an essential academic interest of web mining for mining data’s convenience and accuracy. Our country internetwork’s prevalence promotes itself to become one of the main manners for people achineving kinds of information. It brings along traditional industry’s structural readjustment and economic growth manner’s tranforming through gradual convergence of internet and the real economy, or utilization of transforming, advancing traditional industry. Internetwork has become our country’s new type strategic industry of low-carbon economy development. Internet industrial data announced by Ministry of Industry and Information Technology shows that until the end of 2009, domestic web sites reach 3,230,000; annual rate of growth is 12.3%; netizen reach 4.04 hundred million; information industry holds about 10% in GDP. With the gradual development of internet industry, competitions between web sites is to the fierce degree. How to occupy the top point in this fierce competition is a main problem confronted by web decision-makers. “User-centering”, the trend of web buliding, demands web operators understanding users’ visiting recept, then according to it, transforming relative improvement for users’ satisfication. Log files are the most direct complete records of user visit and contain the whole information about user visiting process. Hence,Web mining finds out users’ visiting habit and visting mode from log files in order to realize web running placement and structural optimization, and then rising users’ satisfication degree. This paper does an entire mining analysis of web running log files, basing on the real data from “Jiang Su enrollment examination web site”. It assits web site dicision-maker to make optimizational strategy finally by mining consequnce which is formed by discovering relevance explores the overall process of web minning, especially on the resolving methods to data pretreatment; builds “web mining optimizaition system”, basing on the theoratical study and means of applying computer technology, data base technology and data mining; does an profitable attempt of web mining practice and application. Key words:Data Mining, web Usage Mining, Data Preprocessing , Association Rule 第 1 章 绪论 3第 1 章 绪论 1.1 研究背景及意义 随着信息时代的到来,人类所面对的数据量越来越大,信息过量几乎成为人人需要面对的问题。

      人们已经不单纯需要数据本身所具有的意义,对于大量数据背后所隐含知识的需求越发强烈,传统的数据处理手段已经远远不能满足人们的需要我们需要更高层次的技术手段,从数据背后发现“知识”,为管理者提供决策依据数据挖掘技术正是在此基础上应运而生的,它是从大量的数据中寻找出有价值的信息和知识的一种手段数据挖掘已成为数据库系统和人工智能方面重要的研究方向[1] 与此同时,Web 技术的不断发展,其应用已经遍布教育、科研、医疗、军事、体育等社会生活的各个方面Web 上的数据正以每天新增一百万个页面的速度增长,页面数目已超过 10 亿 由于其获取信息方便的特点, 网络已成为信息检索的主要对象[2]为了更好的适应未来信息网络化社会的需要,提高工作效率,各类网站的实施和广泛应用是未来发展的趋势 由于对网络的依赖程度不断加深,人们已经从单纯的“被动浏览”发展到“主动寻找”截至 2009 年底,国内网站数量达到 323 万个,网站的运行效率和效果越来越受到人们的关注以政府网站为例,“2009 年中国政府网站绩效评估报告”显示我国政府网站服务公众的办事指数较低,办事的整体水平不够理想,与用户的需求有较大差距网站建设的指导思想从“以站点为中心”向“以用户为中心”转变成为必然。

      据中国互联网络信息中心(China Internet Network Information Center, 简称 CNNIC)公布的最新调查结果,2010 年我国的网民数量已经达到了 4.57 亿人,互联网普及率攀升至 34.3%[3]面对日益竞争激烈的“网络市场”,如何“吸引和挽留”用户成为各个网站最为关切的问题这就要求网站对于网站内的信息进行有效的组织利用,尽可能多的了解用户的爱好和价值取向,更好的优化网站设计,为用户提供个性化服务,这些将成为今后网站间竞争和生存的主要依据 但是,如何从这些位于分布式环境中的海量数据挖掘和抽取潜在的、用户感兴趣的有用模式和隐藏的知识成为一个重要而非常有意义的课题Web 挖掘技术正是以此为目标应运而生的数据挖掘是利用多种分析工具从海量数据中发现模型和数据间关系的过程[4]Web 挖掘技术是将传统的数据挖掘技术与 Web 技术结合起来,并综合运用了统计学、计算机网络、数据库与数据仓库等众多领域的技术[5] Web 使用挖掘是数据挖掘的重要组成部分,其主要目的就是从网站服务器中的大量访问信息中挖掘出用户最为关心的问题,例如:访问时间、访问频率以及访问爱好等。

      并通过分析被访问资源的重要性和相互之间的关系,从而对网站的结构和设计进江苏科技大学硕士学位论文 4行合理。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.