大数据技术论文
8页1、数据预处理技术调查研究摘要:随着互联网的快速发展,第四次工业革命浪潮的到来。大数据在二十一世纪里成为了互联网领域最为重要的一部分。因此调查大数据的数据预处理技术在医疗领域的应用情况。关键词:大数据;数据采集;数据预处理;医疗。引言:随着大数据技术的发展,大数据的应用越来越广泛,以及所衍生出的大数据产业也在逐步完善。各国政府也都开始重视大数据在本国的发展。为此,本文希望阐述大数据中数据采集和数据预处理技术的基本原理及调查数据预处理在各领域的应用情况。1、 数据采集二十一世纪是大数据时代,那么什么是大数据?业界公认的大数据应当满足4v的特性(variety、velocity、value、volume)及数据的种类多、体量大、处理速度快、价值密度低。大数据时代我们不应该只谈论它的表面,而要更深入的了解它的技术实现过程及发展前沿。大数据技术分为几个步骤:数据的采集、数据的预处理、数据的分析、数据的可视化。这几个步骤最终得以挖掘出有价值的信息以便更好地做各种决策指导。数据的采集是大数据预处理的前提,要想做大数据的后续工序必须要有数据的来源才能进行。数据的采集顾名思义就是数据的收集过程。数据的采集
2、途径有很多种,可以从各企业的数据库系统中获取。这种方式是比较直接的数据采集,没有过多复杂的操作。直接把数据从中引入即可完成。此外,还可以通过实时的调查研究采集数据,此过程需要制定适合的调查方法以适应不用的场景进行的数据采集。实时调查得到的数据也比较真实可靠,但需要一定的时间与人力。可以通过物联网系统采集数据,物联网系统数据是数据获取的重要组成部分。它可以通过各种传感器来捕获数据,所产生的数据量是巨大的。如今是web2.0的时代互联网产生的数据同样巨大,我们也可以从互联网中进行数据的采集来获取数据。互联网中的数据有来自各种的通讯交流平台,有来自各种网页中的内容,复杂多样。有结构化的、半结构化的、非结构化的数据。网页数据的采集最重要的一种工具是网络爬虫。网络爬虫是一种按照一定的规则、自动爬取网页数据的程序或脚本。网络爬虫一般会选择用Python语言来编写,因为Python语言中的类库更加的丰富强大。网页的展示是通过浏览器向服务器发送请求与此同时当服务器收到请求时就会响应并发送相关的数据返回给浏览器并展示页面。而网络爬虫就是模拟浏览器向服务器发送请求的过程以获取所需的数据。1爬虫可以分为几个
3、重要的模块即数据采集模块、数据处理模块和数据模块。数据采集模块就是网络爬虫爬取数据并存取数据的过程。数据处理模块把爬取到的空链接和重复的内容进行过滤处理以提高数据的质量。数据模块:经过处理的数据可以分为3类。第一类是SiteURL,即需要抓取数据的网站URL信息;第二类是SpiderURL,即已经抓取过数据的网页URL;第三类是Content,及经过抽取的网页内容。爬虫的基本工作流程:第一步:从SiteURL中抽取一个或多个目标链接写入URL队列,作为爬虫爬取信息的起点;第二步:爬虫的网页分析模块从URL队列中读取链接;第三步:从Internet中获取该链接的网页信息;第四步:从当前网页中抽取新的网页链接;第五步:将获取的网页内容值写入数据库的Content,并将此URL存入SpiderURL; 第六步:从网页内容中抽取所需属性的内容值;第七步:从数据库中读取已经爬取过内容的网页地址即Spider中的链接地址;第八步: 将抽取出的URL和已经抓取过的URL进行比较以过滤URL ;第九步:如果该网页地址没有被抓取过,则将该地址写入SiteURL;如果已经被抓取过则放弃存储此网页链接。网络
4、爬虫是按照一定规则来抓取数据的而这些规则称之为爬虫的抓取策略。爬虫的抓取策略有三种方式分别是:深度优先遍历策略、宽度优先遍历策略、反向链接数策略。深度优先遍历策略是纵向遍历的策略,当一条纵向路径遍历完之后才进行另一条路径的遍历。宽度优先遍历策略是横向遍历的策略,当一层路径遍历完之后才进行下一层路径的遍历。反向链接数策略是按照一个链接的子链接数的多少来进行的遍历,如果一个链接的子链接的数目较多说明此链接较为重要就会优先遍历,反之推后遍历。2、 数据预处理2.1什么是数据预处理数据预处理是大数据技术的重要环节,想要更好更高效地完后续的步骤数据预处理是不可缺少的步骤。数据采集步骤所采集的数据部分是不完整,不一致的数据。这类数据称之为脏数据。脏数据很难进行挖掘,或挖掘出的结果不乐观,价值密度特别的低。脏数据没什么价值反而会干扰数据挖掘的结果,所以这些脏数据往往会在数据挖掘之前把它剔除掉,以便提高数据挖掘的质量。数据预处理的方法有:数据清洗、数据集成、数据变换、数据归约等。数据清洗即对数据进行审查和校正的过程,把重复的数据删除和纠正错误的无效的数据。数据集成即把来源不同的、格式不一致的数据有机地
《大数据技术论文》由会员吾畏分享,可在线阅读,更多相关《大数据技术论文》请在金锄头文库上搜索。
会计英文求职信[精选]
医药代表求职信[精选]
体育训练员的英文求职信[精选]
厨师求职信[精选]
中专会计求职信[精选]
商务英语学生的英文求职信[精选]
会计求职信[精选]
医院求职信[精选]
专业求职信[精选]
2022年某公司kpi管理体系文件
2022年有关KPI的探讨
2022年安徽电信KPI确定程序
2022年华为集成供应链kpi审视汇报材料isc-int-zxp-2
2022年关键绩效指标的设定培训课件
2022年KPI绩效考核体系
2022年某咨询云南电信KPI方案
2022年中联的KPI考评设计建设体系
2022年电信KPI确定程序
2022年某咨询协信KPI
2022年超高压输电公司KPI设计报告(汇报稿)
2022-08-08 21页
2024-02-06 3页
2023-10-05 12页
2023-12-22 21页
2024-01-12 1页
2022-10-19 17页
2023-11-20 46页
2023-08-04 3页
2023-06-14 2页
2023-12-09 3页