
大数据技术和应用.pptx
23页单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,大数据时代,大数据技术和应用,一,.,什么是大数据?,大数据的概念,大数据,(big data,mega data),,或称巨量,资料,,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产,大数据的,4V,特点,Volume,(,大量,),Velocity,(,高速,),Variety,(,多样,),Value,(,价值,),大数据的,4V,特性,大,数据的,4,个“,V”,,或者说特点有四个层面,:,第一,,数据体量巨大从,TB,级别,跃升到,PB,级别,;,位,、,bit(,比特,,Binary,Digits):,存放以为二进制数,,即,0,或,1,,最,小,的,存储,单位,字节,byte:8,个二进制位为一个字节,(B),1,KB,=1024B 1,MB,=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB 1EB=1024PB 1ZB=1024EB 1YB=1024ZB 1BB=1024YB),第二,,数据类型繁多,网络上提到,的网络日志、视频、图片、地理位置信息等等,。
第三,,价值密度低以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,第四,,处理速度快1,秒定律最后这一点也是和传统的数据挖掘技术有着本质的不同业界将其归纳为,4,个“,V”Volume,,,Variety,,,Value,,,Velocity,大数据的收集方式,物联网,云计算,移动互联网,车联网,,、平板电脑、,PC,遍布,地球各个角落的各种各样的传感器,大数据的收集方式,物,联网、云计算、移动互联网、车联网、、车联网、,PC,以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式大数据领域的技术,Hadoop,Hadoop,是一个由,Apache,基金会,所开发的,分布式系统,基础,架构Hadoop,是一个能够对大量数据进行分布式处理的软件框架但是,Hadoop,是以一种可靠、高效、可伸缩的方式进行处理的Hadoop,是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对,Hadoop,失败的节点重新分布处理Hadoop,是高效的,因为它以并行的方式工作,通过并行处理加快处理速度Hadoop,还是可伸缩的,能够处理,PB,级数据。
此外,,Hadoop,依赖于社区服务器,因此它的成本比较低,任何人都可以使用Hadoop,原本来自于谷歌一款名为,MapReduce,的编程模型包谷歌的,MapReduce,框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集Hadoop,得以在大数据处理应用中广泛应用得益于其自身在,数据提取,、,变形,和,加载,(ETL),方面上的天然优势Hadoop,的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像,ETL,这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储Hadoop,的,MapReduce,功能实现了将单个任务打碎,并将碎片任务,(Map),发送到多个节点上,之后再以单个数据集的形式加载,(Reduce),到数据仓库里它,主要有以下几个优点:,高可靠性,Hadoop,按位存储和处理数据的能力值得人们信赖高扩展性,Hadoop,是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中高效性,Hadoop,能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快高容错性,Hadoop,能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
Storm,什么是,Storm,?,如果只用一句话来描述,storm,的话,可能会是这样:分布式实时计算系统按照,storm,作者的说法,,storm,对于实时计算的意义类似于,hadoop,对于批处理的意义,在,淘宝,,storm,被广泛用来进行实时日志处理,出现在实时统计、实时风控、实时推荐等场景中一般来说,我们从类,kafka,的,metaQ,或者基于,hbase,的,timetunnel,中读取实时日志消息,经过一系列处理,最终将处理结果写入到一个,分布式存储中,,提供给应用程序访问我们每天的实时消息量从几百万到几十亿不等,数据总量达到,TB,级对于我们来说,,storm,往往会配合分布式存储服务一起使用在我们正在进行的个性化搜索实时分析项目中,就使用了,timetunnel+hbase+storm+ups,的架构,每天处理几十亿的用户日志信息,从用户行为发生到完成分析延迟在秒级其他大数据技术,Apache,Drill,为了,帮助企业用户寻找更为有效、加快,Hadoop,数据查询的方法,,Apache,软件基金会近日发起了一项名为“,Drill”,的开源项目Apache Drill,实现了,Googles Dremel.,RapidMiner,RapidMiner,是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。
它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价,Pentaho BI,Pentaho,BI,平台不同于传统的,BI,产品,它是一个以流程为中心的,面向解决方案,(Solution),的框架其目的在于将一系列企业级,BI,产品、开源软件、,API,等等组件集成起来,方便商务智能应用的开发,HPCC,HPCC,,,High Performance Computing and Communications(,高性能计算与通信,),的缩写1993,年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为,HPCC,计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题,大数据的,应,应用,大数据在,风,风电领域,的,的应用,首先,结合了,大,大数据分,析,析和天气,建,建模技术,的,的能源电,力,力系统能,够,够提高风,电,电的可靠,性,性以往,对,对风资源,的,的预测不,够,够精准,,在,在风能无,法,法贡献预,期,期功力时,,,,火电就,要,要作为后,备,备电力这,这样,电,网,网对风电,的,的依赖程,度,度越高,,需,需要建设,后,后备电站,的,的成本就,越,越高。
另,外,外,启用,火,火电站的,就,就等于向,环,环境中释,放,放碳排然,然而,在,大,大数据分,析,析的帮助,下,下,温度,、,、气压、,湿,湿度、降,雨,雨量、风,向,向和风力,等,等变量都,得,得到充分,考,考虑,对,风,风电的预,测,测更加精,准,准电网,调,调度人员,可,可以提前,做,做好调度,安,安排,也,有,有助于电,网,网消纳更,多,多风电除了做到更精,准,准的预测,,,,检测和,采,采集风机,的,的运转数,据,据、风场,的,的运营数,据,据还有利,于,于风机制,造,造商更好,地,地改善风,机,机的性能,,,,风电场,业,业主在追,求,求风场效,益,益最大化,时,时也离不,开,开大数据,大数据的,核,核心价值,大数据的,核,核心价值,是,是什么?,无论是大数据,在,在农业的,应,应用也好,,,,工业的,应,应用也好,,,,抑或是,在,在金融行,业,业的应用,也,也好,最,终,终都是通,过,过大数据,技,技术来获,知,知事情发,展,展的真相,,,,最终利,用,用这个“,真,真相”来,更,更加合理,的,的配置资,源,源也就是说,大,大数据的,核,核心价值,就,就是:优,化,化资源,配,配置,大数据的,核,核心价值,网上相关,研,研究表明,:,:,要实现大数,据,据的核心,价,价值,还,需,需要前两,个,个重要的步骤,第一步是通过,“,“,众包,”的形式,收,收集海量,数,数据,,第二步是通过,大,大数据的,技,技术途径,进,进行“,全量数据,挖,挖掘,”,最,后,后利用,分,分析结,果,果进行,“,“,资源优,化,化配置,”。
通过“,众,众包”,产,产生和,收,收集数据,高德地图,、,、百度,地,地图都,有,有实时,路,路况的,功,功能,,但,但大家,有,有没有,想,想过实,时,时路况,的,的数据,是,是怎么,收,收集的,?,?实际,上,上经过,了,了三个,阶,阶段,,开,开始是,跟,跟交通,口,口的一,些,些公司,合,合作,,获,获取交,通,通流量,监,监测设,备,备的数,据,据,这,个,个方法,缺,缺陷很,明,明显,,一,一个是,受,受制于,人,人,一,个,个是想,扩,扩大监,测,测范围,就,就要部,署,署大量,设,设备,,费,费时费,力,力,而,且,且还受,法,法律制,约,约于,是,是一些,专,专门做,路,路况的,公,公司开,始,始用出,租,租车当,浮,浮动车,收,收集数,据,据但,这,这种办,法,法还是,无,无法覆,盖,盖大量,的,的大小,路,路段,,随,随着移,动,动互联,网,网的普,及,及,高,德,德地图,的,的,APP,能够实,时,时上传,大,大量机,动,动车的,速,速度和,位,位置信,息,息,经,过,过去噪,和,和综合,分,分析,,就,就形成,了,了覆盖,率,率极高,的,的实时,路,路况信,息,息。
这,就,就是一,个,个典型,的,的“众,包,包”过,程,程通过,“,“全,量,量数,据,据挖,掘,掘”,获,获知“真,相,相”,这些数据,不,不是,通,通过,采,采样,得,得来,的,的,,就,就是,真,真真,切,切切,的,的“,全,全量,数,数据,”,”我,我们,再,再也,不,不用,通,通过,“,“管,中,中窥,豹,豹”,的,的形,式,式来,推,推测,全,全局,,,,而,是,是直,接,接通,过,过“,上,上帝,视,视角,”,”来,窥,窥视,真,真相,这,就,就是,大,大数,据,据的,魅,魅力,,,,我,们,们获,得,得了,前,前所,未,未有,的,的获,取,取真,相,相的,能,能力,,,,而,且,且对,于,于大,型,型互,联,联网,公,公司,来,来说,,,,即,使,使是,PB,级别,的,的数,据,据分,析,析也,是,是准,实,实时,的,的,,我,我们,下,下一,个,个小,时,时就,能,能够,得,得知,上,上一,个,个小,时,时的,全,全量,数,数据,分,分析,结,结果,,,,这,样,样的,能,能力,是,是前,所,所未,有,有的,大数,据,据的,核,核心,价,价值,“,“,资源,优,优化,配,配置”,前段时间,,,,滴,滴,滴打,车,车曾,通,通过,投,投票,和,和订,单,单分,析,析的,方,方式,得,得出,了,了北,上,上广,深,深四,地,地的,加,加班,大,大楼,排,排行榜。
但,但事实,真,真的,是,是即,使,使加,班,班很,晚,晚也,很,很难,打,打到,车,车啊,啊,啊!,所,所以,滴,滴滴,打,打车,更,更名,为,为“,滴,滴滴,出,出行,”,”之,后,后,,也,也抛,出,出了,他,他们,伟,伟大,的,的愿,景,景,,那,那就,是,是利,用,用大,数,数据,分,分析,实,实时,综,综合,调,调度,“,“快,车,车”,、,、“,专,专车,”,”、,“,“出,租,租车,”,”、,“,“顺,风,风车,”,”甚,至,至是,滴,滴滴,巴,巴士,的,的资,源,源,,实,实现,全,全局,的,的交,通,通资,源,源优,化,化事,事实,也,也是,如,如此,,,,滴,滴,滴的,司,司机,们,们越,来,来越,多,多的,需,需要,完,完成,“,“指,派,派任,务,务”,,,,而,不,不是,集,集中,去,去抢,高,高净,值,值客,户,户也,也许,对,对于,个,个别,单,单体,来,来说,他,他们,的,的利,益,益降,低。






![河南新冠肺炎文件-豫建科[2020]63号+豫建科〔2019〕282号](http://img.jinchutou.com/static_www/Images/s.gif)





