好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

《大数据导论》教学课件—02大数据采集与准备.pptx

45页
  • 卖家[上传人]:sat****105
  • 文档编号:292178948
  • 上传时间:2022-05-13
  • 文档格式:PPTX
  • 文档大小:833.75KB
  • / 45 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第2章 大数据采集与准备提纲2.1大大数据数据来源与采集来源与采集2.2大数据采集工具大数据采集工具2.3数据准备数据准备2.1 大数据来源与采集2.1.1大数据来源大数据来源从数据采集的来源看,目前大数据的主要数据来源有三个途径,分别是物联网从数据采集的来源看,目前大数据的主要数据来源有三个途径,分别是物联网系统、互联网系统、互联网Web系统和传统信息系统系统和传统信息系统物联网的物联网的数据占据了整个大数据百分之九十以上的份额,可以说没有物联网就数据占据了整个大数据百分之九十以上的份额,可以说没有物联网就没有大数据物联网的数据大部分是非结构化数据和半结构化没有大数据物联网的数据大部分是非结构化数据和半结构化数据Web系统是另一个重要的数据采集渠道,随着系统是另一个重要的数据采集渠道,随着Web2.0的发展,整个的发展,整个Web系统系统涵盖了大量的价值化数据,而且这些数据与物联网的数据不同,涵盖了大量的价值化数据,而且这些数据与物联网的数据不同,Web系统的数系统的数据往往是结构化数据,而且数据的价值密度比较据往往是结构化数据,而且数据的价值密度比较高、高、传统信息系统也是大数据的一个数据来源,虽然传统信息系统的数据占比较小,传统信息系统也是大数据的一个数据来源,虽然传统信息系统的数据占比较小,但是由于传统信息系统的数据结构清晰,同时具有较高的可靠性,所以传统信但是由于传统信息系统的数据结构清晰,同时具有较高的可靠性,所以传统信息系统的数据往往也是价值密度最高的。

      息系统的数据往往也是价值密度最高的2.1.2 大数据采集技术1.数据采集分类数据采集分类传统传统的数据采集(的数据采集(DataAcQuisition,DAQ): 又称数据获取,是指从又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程a)a)按采集频率分,可分为静态数据采集、低频数据采集和高频数据采集按采集频率分,可分为静态数据采集、低频数据采集和高频数据采集;b)b)按按采集结构分,可分为结构化数据采集、半结构化数据采集和非结构化采集结构分,可分为结构化数据采集、半结构化数据采集和非结构化数据采集数据采集;c)c)按采集按采集方式分,可分为定时采集和实时采集方式分,可分为定时采集和实时采集大数据的数据采集的来源广泛,数据量巨大,数据类型丰富,包括结构化,半大数据的数据采集的来源广泛,数据量巨大,数据类型丰富,包括结构化,半结构化,非结构化类型的数据,多采用分布式数据库技术存储与处理不同结结构化,非结构化类型的数据,多采用分布式数据库技术存储与处理不同结构类型数据的适用技术对比见构类型数据的适用技术对比见表所示表所示。

      1)系统日志采集方法)系统日志采集方法很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的的Flume,Kafka以及以及Sqoop等,这些工具均采用分布式架构,能满足每秒数百等,这些工具均采用分布式架构,能满足每秒数百MB的日的日志数据采集和传输需求志数据采集和传输需求2)网络数据采集方法)网络数据采集方法网络数据采集是指通过网络爬虫或网站公开网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息该方等方式从网站上获取数据信息该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储它支持图片、音频、视频等文件或附件的采集,附件与正文可以自构化的方式存储它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联除了网络中包含的内容之外,对于网络流量的采集可以使用除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或或DFI等带宽管理技术等带宽管理技术进行处理进行处理。

      3)数据库采集系统)数据库采集系统企业不断产生的业务数据会直接写入数据库,通过数据库采集系统可直接与企业业务企业不断产生的业务数据会直接写入数据库,通过数据库采集系统可直接与企业业务后台服务器结合,能根据分析需求采集数据并进行针对性的分析后台服务器结合,能根据分析需求采集数据并进行针对性的分析2.1.2 大数据采集技术2.2 大数据采集工具2.2.1网络爬虫网络爬虫网络爬虫是一个自动下载网页资源的程序,它根据既定的抓取目标,网络爬虫是一个自动下载网页资源的程序,它根据既定的抓取目标,有选择地访问万维网上与目标相关的网页链接,获取所需要的网页信有选择地访问万维网上与目标相关的网页链接,获取所需要的网页信息与搜索引擎不同,爬虫并不太追求大的覆盖,而是将目标定位为息与搜索引擎不同,爬虫并不太追求大的覆盖,而是将目标定位为抓取与某一个特定主体内容相关的网页,为面向主题的用户查询准备抓取与某一个特定主体内容相关的网页,为面向主题的用户查询准备数据资源数据资源通用爬虫框架的工作通用爬虫框架的工作流程流程:步骤步骤1:确定种子:确定种子URL,并存入待抓取的,并存入待抓取的URL列表;列表;步骤步骤2:从待抓取的:从待抓取的URL列表中随机提取一个列表中随机提取一个URL,发送到,发送到URL下载器;下载器;步骤步骤3:URL下载器开始下载页面,如果下载成功,将页面发送给下载器开始下载页面,如果下载成功,将页面发送给URL解析器,同时把解析器,同时把URL存入已抓取的存入已抓取的URL列表;如果下载失败,将列表;如果下载失败,将URL重新存入待抓取的重新存入待抓取的URL列表,重复步骤列表,重复步骤2;步骤步骤4:URL解析器开始解析页面,将获得的新的解析器开始解析页面,将获得的新的URL存入待抓取的存入待抓取的URL列表,同时将需要列表,同时将需要的、有价值的数据存入数据库;的、有价值的数据存入数据库;步骤步骤5:重复步骤:重复步骤2至步骤至步骤4,直到待抓取的,直到待抓取的URL列表为空列表为空。

      2.2.1 网络爬虫 1.认识网页结构认识网页结构爬虫代码解析2.2.1 网络爬虫2.2.1 网络爬虫2.2.2其他数据采集工具1.FlumeFlume是是Apache旗下的一款开源的、高可用的,高可靠的,分布式的海量日志采集、旗下的一款开源的、高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同支持在日志系统中定制各类数据发送方,用于收集数据;同时,时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力Flume的工作原理类似于一节一节的水管(的工作原理类似于一节一节的水管(Agent),每个),每个Agent由由Source、Channel、Sink三个组件组成三个组件组成2.KafkaKafka是是Apache软件基金会旗下的一个开源流处理平台,由软件基金会旗下的一个开源流处理平台,由Scala和和Java编写,是一种编写,是一种高吞吐量的高吞吐量的分布式分布式发布订阅消息系统,它可以水平扩展,高可用,速度快,已经运行在发布订阅消息系统,它可以水平扩展,高可用,速度快,已经运行在数千家公司的生产环境中数千家公司的生产环境中。

      Kafka可以处理消费者在网站中的所有动作流数据,这些动作涵盖了网页浏览,搜索和可以处理消费者在网站中的所有动作流数据,这些动作涵盖了网页浏览,搜索和其他用户的行动等,是完成网络上的许多社会功能的必然行为这些行为数据通常因为其他用户的行动等,是完成网络上的许多社会功能的必然行为这些行为数据通常因为吞吐量的要求需通过处理日志和日志聚合来解决吞吐量的要求需通过处理日志和日志聚合来解决2.2.2其他数据采集工具3.SqoopSqoop(发音:发音:skup)是是Apache软件基金会旗下的一款开源工具,主要用于在软件基金会旗下的一款开源工具,主要用于在Hadoop(Hive)与传统的数据库与传统的数据库(MySQL、Postgres等等)间进行数据的传递它可以将一间进行数据的传递它可以将一个关系型数据库(例如个关系型数据库(例如 :MySQL、Oracle、Postgres等)中的数据导进到等)中的数据导进到Hadoop的的HDFS中,也可以将中,也可以将HDFS的数据导进到关系型数据库中的数据导进到关系型数据库中2.3 数据准备经过数据采集阶段后,我们根据大数据应用的需求采集了大量的数据,但是现经过数据采集阶段后,我们根据大数据应用的需求采集了大量的数据,但是现实世界的数据很多是实世界的数据很多是“脏脏”数据,即存在不完整(缺少属性值或仅仅包含聚集数数据,即存在不完整(缺少属性值或仅仅包含聚集数据)、含噪声(包含错误或存在偏离期望的离群值等错误数据)、不一致(不据)、含噪声(包含错误或存在偏离期望的离群值等错误数据)、不一致(不同采集源得到的数据可能存在量纲不同、属性含义不同等问题)等。

      而我们在同采集源得到的数据可能存在量纲不同、属性含义不同等问题)等而我们在使用数据过程中对数据有一致性、准确性、完整性、时效性、可信性、可解释使用数据过程中对数据有一致性、准确性、完整性、时效性、可信性、可解释性等要求如何将这些性等要求如何将这些“脏脏”数据有效地转换成高质量的专家数据,就涉及到数数据有效地转换成高质量的专家数据,就涉及到数据准备(据准备(DataPreparation)工作,有统计表明,在一个完整的大数据分析与)工作,有统计表明,在一个完整的大数据分析与数据挖掘过程中,数据准备工作要花费数据挖掘过程中,数据准备工作要花费60%-70%的时间的时间在数据准备阶段采用的在数据准备阶段采用的技术技术数据清洗数据集成数据转换数据规约2.3 数据准备2.3.1 数据清洗数据清洗(数据清洗(DataCleaning)过程包括遗漏数据处理,噪声数据处理,以及不一致数据处理过程包括遗漏数据处理,噪声数据处理,以及不一致数据处理1.遗漏数据处理遗漏数据处理1)忽略该条记录)忽略该条记录2)手工填补遗漏值)手工填补遗漏值3)利用默认值填补遗漏值)利用默认值填补遗漏值4)利用均值填补遗漏值)利用均值填补遗漏值5)利用同类别均值填补遗漏值)利用同类别均值填补遗漏值6)利用最可能的值填补遗漏)利用最可能的值填补遗漏值值2)聚类分析方法)聚类分析方法通过聚类分析方法可帮助发现异常数据。

      相似或相邻近的数据聚合在一起形成了各个聚通过聚类分析方法可帮助发现异常数据相似或相邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,自然而然就被认为是异常数据类集合,而那些位于这些聚类集合之外的数据对象,自然而然就被认为是异常数据2.3.1 数据清洗2.噪声数据处理噪声数据处理噪声是指被测变量的一个随机错误和变化下面通过给定一个数值型属性(如价格)来噪声是指被测变量的一个随机错误和变化下面通过给定一个数值型属性(如价格)来说明平滑去噪的具体方法说明平滑去噪的具体方法1)分箱方法)分箱方法Bin方法通过利用应被平滑数据点的周围点(近邻),对一组排序数据进行平滑排序方法通过利用应被平滑数据点的周围点(近邻),对一组排序数据进行平滑排序后的数据被分配到若干桶(称为后的数据被分配到若干桶(称为Bins)中2.3.1 数据清洗3)人机结合检查方法)人机结合检查方法通过人机结合检查方法,可以帮助发现异常数据通过人机结合检查方法,可以帮助发现异常数据例如,利用基于信息论的方法可帮助识别手写符号库中的异常模式,所识别出的异常模例如,利用基于信息论的方法可帮助识别手写符号库中的异常模式,所识别出的异常模式可输出到一个列表中,然后由人对这一列表中的各异常模式进行检查,并最终确认无式可输出到一个列表中。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.