第四章大数据处理技术课件.pptx
94页机器学习与大数据技术作者:牟少敏教授第1页,共94页第四章大数据处理技术p大数据简介p大数据处理框架p大数据面临的挑战p大数据技术第2页,共94页创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介1.概念Wiki百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合IDC(国际数据公司)报告:大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值目前大数据的研究热点主要包括:大数据基础理论、大数据存储与分析技术、大数据与云计算、大数据存储管理和查询技术、Hadoop性能优化和功能增强、商业智能分析、自然语言处理和大数据可视化计算等第3页,共94页创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介2.特点大数据的“大”并不仅仅在于数据量大,同时数据的收集、存储、管理以及共享等任务赋予大数据的“大”更多的含义学术界已经总结了大数据的许多特点,包括数据量大、多样性、价值密度低、高速度等,一般用4V来概括p 数据量大(Volume)p 多样性(Variety)p 价值密度低(Value)p 高速度(Velocity)第4页,共94页。
创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介数据量大有两个含义:一是全球的数据量的增长惊人;二是指数据体量大,从TB级别跃升到PB级别根据IDC的统计,2011年全球数据总量大约为1.8ZB,到2020年将可能达到35ZB,年均增长率超过40%计算机存储单位的换算关系如下:1KB=1024B;1MB=1024KB;1GB=1024MB;1TB=1024GB;1PB=1024TB;1EB=1024PB;1ZB=1024EB;1YB=1024ZB;1BB=1024YB;1NB=1024BB;1DB=1024NB通过上面的换算关系我们可以看出,全球产生的数据量是非常惊人的但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量分析、挖掘和实时处理如此大规模的数据需要智能的算法、强大的数据处理平台和新的数据处理技术的支持p 数据量大(Volume)第5页,共94页创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介大数据的数据类型繁多,非结构化数据越来越多,有很多不同的类型,如:网络日志、声音、文本、地理位置信息、图像和视频等这些多类型的数据对数据的存储和处理能力提出了更高要求。
目前,非结构化数据占数据总增长量的80-90%,比结构化数据增长快10倍到50倍p 多样性(Variety)第6页,共94页创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介价值密度低意味着数据的价值与数据总量的大小成反比关系,即数据量虽然很大,但有价值的数据和知识可能较少以公安视频监控系统为例,常年24小时不间断视频监控过程中,可能有用的数据仅仅只有几分钟如何通过强大的机器算法更迅速地挖掘数据的价值,成为目前大数据背景下亟待解决的难题p 价值密度低(Value)第7页,共94页创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介这里的速度不仅指与数据存储相关的增长速率,也包括数据流动的速度数据产生和更新的频率高,也是大数据的一个重要特征在数据量非常庞大的情况下,需要对数据进行快速、实时的处理,处理速度应满足实际应用的需要p 高速度(Velocity)第8页,共94页创新与贡献研究意义选题背景第四章4.1.2 大数据类型 4.1 大数据简介p 结构化数据能够用统一的结构表示的数据称之为结构化数据,如数字、符号等,可以用二维表结构表示第9页,共94页创新与贡献研究意义选题背景第四章4.1.2 大数据类型 4.1 大数据简介p 非结构化数据p 半结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据。
一个非结构化数据由基本属性、语义特征、底层特征以及原始数据四个部分构成,且四部分数据之间存在各种联系目前,非结构化数据的种类繁多,例如:新浪微博、Facebook等消息文本数据;优酷、爱奇艺或腾讯视频等用户生成的视频数据;监控语音数据、基因组序列数据、气象监测数据和交通视频监控数据等针对不同的非结构数据,其收集方式是不一样的半结构化数据是介于结构化数据和非结构化数据之间的数据,例如HTML文档就属于半结构化数据它一般是自描述的,数据的结构和内容混在一起,没有明显的区分第10页,共94页创新与贡献研究意义选题背景第四章4.1.3 大数据应用 4.1 大数据简介p 企业大数据应用大数据应用是利用大数据分析结果为用户提供辅助决策,发掘潜在价值的过程p 物联网大数据应用 第11页,共94页创新与贡献研究意义选题背景第四章4.1.3 大数据应用 4.1 大数据简介目前,大数据主要应用于企业内部,商业智能是大数据技术的典型应用企业内部应用大数据技术,可以在多个方面提升企业的生产效率和竞争力在市场方面,利用大数据关联分析,可以更准确地了解消费者的使用行为,挖掘新的商业模式;在销售规划方面,通过大量数据的比较,可以优化商品价格;在运营方面,可以提高企业运营效率和满意度,优化劳动力投入,避免产能过剩,降低人员成本;在供应链方面,利用大数据技术进行库存优化和物流优化等工作,可以缓和供需之间的矛盾、控制预算开支。
p 企业大数据应用第12页,共94页创新与贡献研究意义选题背景第四章4.1.3 大数据应用 4.1 大数据简介物联网不仅是数据的重要来源,还是大数据应用的主要市场在物联网中,现实世界中的每个物体都可以是数据的生产者和消费者,由于物体种类繁多,物联网的应用也层出不穷各种物流企业正在积极使用大数据技术开发新型物联网系统例如,快递公司为了跟踪公司车辆的位置和预防引擎故障,在其货车上装有传感器、无线适配器和GPS系统,这些设备可以优化货车行车线路p 物联网大数据应用第13页,共94页创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术 4.2 大数据技术大数据的获取是大数据分析和处理的前提,大数据获取的数据可分为两大类:静态非实时数据和动态实时数据各种历史数据,如历年的病虫害数据属于静态数据,这些数据大都是由纸质或电子表格组成实时数据一般是通过多种的传感器或软件实时获取的,由存储设备存储例如:通过温度、湿度等传感器采集到的温度、湿度实时数据第14页,共94页创新与贡献研究意义选题背景第四章1.数据获取技术4.2 大数据技术狭义上的数据获取是指利用一种装置,将来自各种数据源的数据自动收集到一个装置中。
广义上的数据获取是指获取信息的过程,分为数据采集、数据传输和数据预处理三部分数据采集是指从特定数据生产环境获得原始数据的技术随着互联网、电子商务、社交网络等互联网新兴技术的普及和应用,图像、视频、日志等网络数据呈现爆炸性增长p 传感器p 日志文件p 系统日志采集p Web 爬虫第15页,共94页创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术传感器是一种能将感受到的声音、温度、压力、电流、振动和距离等类型的信息,按一定规律转换为电信号或其他形式的信息输出的装置,常用于获取各种信息,特点是数字化、多功能化、系统化、智能化和网络化p 传感器(与下一页传感器内容重复)4.2 大数据技术第16页,共94页创新与贡献研究意义选题背景第二章4.2.1 数据获取与预处理技术p 日志文件日志是广泛使用的数据采集方法,由数据源系统产生,以特殊的文件格式记录系统的活动,例如WEB服务器通常要在访问日志文件中记录网站用户的点击、键盘输入、访问行为以及其它属性等和物理传感器相比,日志文件可以看作是“软件传感器”4.2 大数据技术第17页,共94页创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
p 系统日志采集4.2 大数据技术第18页,共94页创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术爬虫是指为搜索引擎下载并存储网页的程序,是搜索引擎和Web缓存等的主要数据采集方式Web爬虫数据采集过程由选择策略、重访策略、礼貌策略以及并行策略决定选择策略决定哪个网页将被访问;重访策略决定何时检查网页是否更新;礼貌策略防止过度访问网站;并行策略则用于协调分布的爬虫程序爬虫的基本步骤是,顺序地访问初始队列中的一组URLs,并为所有URLs分配一个优先级;从队列中获得具有一定优先级的URL,下载该网页,随后解析网页中包含的所有URLs并添加这些新的URLs到队列中;不断重复上述步骤,直到爬虫程序停止为止传统的Web爬虫应用已较为成熟,随着更丰富更先进的Web应用的出现,一些新的爬虫机制已被用于爬取互联网应用的数据p Web 爬虫4.2 大数据技术第19页,共94页创新与贡献研究意义选题背景第四章2.数据预处理技术现实世界直接获取的数据由于受数据采集设备异常、录入数据错误、数据传输异常、数据转换不一致及部分技术受限等众多因素的影响,数据中普遍存在的缺陷主要表现在以下3个方面:1)不完整性,缺少有价值的属性或者有价值的属性有缺损;2)噪声,数据中包含错误信息,或者存在着部分偏离期望值的孤立点;3)不一致性,数据的不一致性主要体现在数据结构的不一致性、标号的不一致性和数据值的不一致性。
从需求的角度来看,一些数据分析工具和技术对数据质量有着严格的要求,如果没有高质量的数据作为基础,数据分析挖掘结果往往差强人意,合理的决策更无从谈起因此,通过数据预处理来提高数据的质量是大数据处理技术的重要环节4.2 大数据技术第20页,共94页创新与贡献研究意义选题背景第四章2.数据预处理技术为了得到高质量的数据,数据预处理之前需要制定和明确统一的数据质量标准,在数据预处理的过程需要做到以下4个基本要求:1)检测并除去数据中所有明显的错误和噪声;2)尽可能地减小人工干预和用户的编程工作量,并且容易扩展到其它数据源;3)与数据转化相结合;4)要有相应的描述语言来指定数据转化和数据清洗操作,所有这些操作应该在一个统一的框架下完成4.2 大数据技术第21页,共94页创新与贡献研究意义选题背景第四章1.数据获取技术数据预处理是指在进行主要的分析处理以前,对数据进行的一些处理p 数据清洗p 数据集成p 数据变换p 数据规约处理方式:4.2 大数据技术第22页,共94页创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术数据清洗是指在数据集中发现不准确、不完整的数据,然后对这些数据进行修正或删除,消除数据不一致的问题,提高数据质量。
数据清洗能够提高数据分析的准确性,是数据预处理中非常重要的一步但是数据清洗需要复杂的关系模型,这会给系统带来额外的计算开销,因此需要在数据清洗模型的复杂性和分析结果的准确性之间进行平衡p 数据清洗4.2 大数据技术第23页,共94页创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术数据集成是在逻辑上和物理上把来自不同数据源的数据合并成一致的数据存储的过程,核心任务是将互相关联的分布式异构数据源集成到一起,减少结果数据集中冗余和不一致问题,提高挖掘过程的准确性和速度数据集成按照处理对象的不同可分为基本数据的集成,多级视图的集成,模式的集成以及多粒度数据的集成常见的数据集成方法有联邦数据库,中间件集成方法和数据仓库方法三种下面重点介绍数据仓库方法数据仓库方法是一种基于数据复制的方法,基本思想是将多个不同数据源的数据复制到数据仓库中,方便用户访问数据仓库通过以下3个步骤来完成数据集成:1)提取:。

卡西欧5800p使用说明书资料.ppt
锂金属电池界面稳定化-全面剖析.docx
SG3525斩控式单相交流调压电路设计要点.doc
话剧《枕头人》剧本.docx
重视家风建设全面从严治党治家应成为领导干部必修课PPT模板.pptx
黄渤海区拖网渔具综合调查分析.docx
2024年一级造价工程师考试《建设工程技术与计量(交通运输工程)-公路篇》真题及答案.docx
【课件】Unit+3+Reading+and+Thinking公开课课件人教版(2019)必修第一册.pptx
嵌入式软件开发流程566841551.doc
生命密码PPT课件.ppt
爱与责任-师德之魂.ppt
制冷空调装置自动控制技术讲义.ppt


