
数据挖掘与大数据技术应用课件37672.pptx
64页标题,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,数据挖掘与大数据技术应用,目录,一、大数据的来源,二,、什么是大数据,四、大数据的应用,五、成功案例,三、大数据的关键性技术,引言,电影,点球成金,基于历史数据,利用数据建模定量分析不同球员特点,合理搭配,重新组队;,打破传统思维,通过分析比赛数据,寻找“性价比”最高球员,运用数据取得成功;,2011,年布,拉德,皮特主演的,点球成金,是一部美国奥斯卡获奖影片,所讲述的是皮特扮演的棒球队总经理利用计算机数据分析,对球队进行了翻天覆地的改造,让一家不起眼的小球队能够取得巨大的成功数据本质是生产资料和资产,仅供开采,162,年,仅供开采,45,年,仅供开采,60,年,不可再生资源,VS,数据,过去,3,年数据总量被以往,4,万年还多,2013,年,10,分钟的信息总量将达,1.8ZB,2010,年全球数据总量,1.2ZB,,年增长,50%,数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资料数据爆炸式增长(每分钟,),Twitter,上发布,98000+,新微博,13000+,个,iPhone,应用下载,Skype,上,37,万,+,分钟的语音通话,上传,6600,张新照片到,flickr,发出,1.68,亿,+,条,Email,YouTube,上上传,600+,新视频,淘宝光棍节,10680+,个新订单,Facebook,上更新,69.5,万,+,条新状态,12306,出票,1840,+,张,数据资产管理的挑战,数据资产管理的挑战,需要,不同,“,看,”,数据的方式,7,可视:结构化资料,15%,未视:半,/,非结构化数据,85%,DB/DW,主管们看的,战情数位仪表板,其实是残缺的,10,万,GB,10,万,TB,需要更高性价比的数据计算与储存方式,8,数据库,数据仓库,计算更快,存储更省,85,%,半,/,非结构化的,Log/Web page/Email/PDF/Image/Full-text/MS-Office file,9,需要,不同的数据管理策略,当我们想要扩充时,,才发觉:,架构只能,scale-up,,,scale-out,不易,处理时间过长,,time-to-value,受限,成本过高,,cost-efficiency,受,限,15%,结构化的,DB/DW,遗憾,残缺,每天几百,GB,、几,TB,的资料,且持续成长中,储存,Storing,在收数据的同时做必要的前置处理,(pre-processing),,并区分数据处理的优先等级,(prioritizing),计算,Processing,如何,有效的避免,因硬件毁坏所导致的资料损毁,管理,Managing,如何从中挖掘出所关注事件的,pattern,或,behavior,分析,Analyzing,超越企业现有,IT,的数据解决能量,10,中央政府对大数据的重视程度,11,习近平,政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的,应用,,,2014,年,3,月,8,日,“大数据”首次写入政府工作报告,奥巴马,“,将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。
李克强:,加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质李克强,经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务,汪洋,数据为王,财政工作离不开大数据,目录,二,、什么是大数据,三、大数据的应用,四、成功案例,一、大数据的来源,三、大数据的关键性技术,13,Social Media,Machine/Sensor,DOC/Media,Web,Clickstream,Apps,Call Log,Log,什么,是数据,?,半结构化,/,非结构化数据,4,什么是大数据?,何为大?数据度量,1Byte,=,8,Bit,1KB,=,1,024,Bytes,1MB,=,1,024,KB,=,1,048,576,Bytes,1GB,=,1,024,MB,=,1,048,576,KB,=,1,073,741,824,Bytes,1TB,=,1,024,GB,=,1,048,576,MB,=,1,099,511,627,776,Bytes,1PB,=,1,024,TB,=,1,048,576,GB,=1,125,899,906,842,624,Bytes,1EB,=,1,024,PB,=,1,048,576,TB,=,1,152,921,504,606,846,976,Bytes,1ZB,=,1,024,EB,=,1,180,591,620,717,411,303,424,Bytes,1YB,=,1,024,ZB,=,1,208,925,819,614,629,174,706,176,Bytes,3/13/2012,6,什么是大数据?,红楼梦含标点87万字(不含标点853509字),每个汉字占两个字节:1汉字=16bit,=,2*8位=2bytes,1GB,约等于,671部红楼梦,1TB,约等于,631,903,部,1PB,约等于,647,068,911部,美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB,),中国国家图书馆:2631万册,1EB,=,4000倍,美国国会图书馆存储的信息量,600美元的硬盘就可以存储全世界所有的歌曲,MGI估计,全球企业,2010,年在硬盘上存储了超过,7EB(1EB,等于,10,亿,GB),的新数据,同时,消费者在,PC,和笔记本等设备上存储了超过,6EB,新数据,7,数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务,什么是大数据?,大数据的解释,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据就是“未来的新石油”大数据带来的思维变革,更乱,不是因果关系而是相关关系,更多,不是随机样本而是全部数据,更杂,不是精确性而是混杂性,大数据带来的思维变革(更多),人口大普查,全数据模式,随机采样,样本模式,大数据应用,全,数据模式,是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记;,主要特点是调查组织高度集中性,普查对象的全面完整性;,人口大普查耗时耗费,一般来讲是十年一次,新中国成立以来共进行了,6,次人口大普查;,人口大普查是一种典型的全数据模式;,大数据时代,小数据时代,大数据带来的思维变革(更多),人口大普查,全数据模式,随机采样,样本模式,大数据应用,全,数据模式,人口大普查是一种耗时耗费的工程,一般是以十年为单位;,各国每年需要进行几百次的小规模人口调查,采取随机采样分析的方式,这是一种样本模式;,源于实用并且很好的创新!,随机采样分析是小数据时代的产物,;,大数据时代,小数据时代,大数据带来的思维变革(更多),人口大普查,全数据模式,随机采样,样本模式,大数据应用,全,数据模式,我们已具备了大数据的各种技术能力,思维需要转换到大数据的全数据模式:样本,=,全部,;,大,数据不用随机分析法这样的捷径,而采用所有数据的方法;,这里的“大”是相对的,相扑,比赛所有数据存储还不需要一个,TB,,但是是所有的数据!,在大数据时代采用随机采样法,就像在汽车时代骑马一样,虽然特定情况下仍可采样随机采样法,但是慢慢地我们会放弃它;,大数据时代,小数据时代,大数据带来的思维变革(更多),Google,利用网络大数据预测流感,基于全数据进行相扑比赛的作弊分析,埃齐奥尼的,Farecast,有,10,万亿条数据预测机票价格,乔布斯的癌症抗争,自身所有,DNA,和肿瘤,DNA,排序,大数据带来的思维变革(更杂),从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;,大数据的简单算法比小数据的复杂算法更有效;,IBM,的,机器翻译,VS Google,的机器翻译;,纷繁,的数据越多越好;,大,数据时代要求我们重新审视数据精确性的优略;,大,数据不仅让我们不再期待精确性,也让我们无法实现精确性;,错误,不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;,混杂,性,不是竭力避免,而是标准途径;,大数据带来的思维变革(更好),佛教,三世因果经,主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。
佛教关于因果报应的解释,原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象哲学范畴的因果关系,大,数据的相关关系,而不强调因果关系;(舍恩伯格),,,其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;,舍恩伯格对大数据的相关性解释,Kaggle,,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半为什么?,探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”,大数据的,4V,特征,Volume,非结构化数据的超大规模和增长,总数据量的,8090%,比结构化数据增长快,10,倍到,50,倍,是传统数据仓库的,10,倍到,50,倍,Value,大量的不相关信息,对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能,Vs,传统商务,智能),Velocity,实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,Variety,大数据的异构和多样性,很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义,Big Data,大数据,TB,PB,EB,Streams,Real time,Near time,Batch,Structured,Unstructured,Semi-structured,All the above,大数据的,4V,特征(,Volume,),1B,ity,1KB,1MB,1GB,1TB,1PB,1EB,1ZB,1YB,1PB,相当于,50%,的全美学术研究图书馆藏书信息内容,5EB,相当于至今全世界人类所讲过的话语,1ZB,如同全世界海滩上的沙子数量总和,1YB,相当于,7000,位人类体内的微细胞总和,一般情况下,大数据是以,PB,、,EB,、,ZB,为单位进行计量的,大数据的,4V,特征(,Velocity,),8,22,54,132,215,327,现在及未来几年内美国的移动网络数据流量增长(,PB/,月),源自英国,Coda,研究咨询公司,大数据的增长速度快,大数据的处理速度快,实时数据流处理,的,要求,是,区别大数据引用和传统数据仓库,技术,,BI,技术的关键差别,之一;,1s,是临界点,对于大数据应用而言,必须要在,1,秒钟内形成答案,否则处理结果就是过时和无效的,;,大数据的,4V,特征(,Variety,),行业,/,企业内,数据,互联网数据,物,联网数据,大,数据,数据来源多,企业内部多个应用系统的数据、互联网和物联网的兴起,带来了微博、社交网站、传感器等多种来源。
数据类型多,保存在关系数据库中的结构化数据只占少数,,7080%,的数据是如图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据关联性,强,数据之间频繁交互,比如游客在旅行途中上传的图片和日志,就与游客的位置、行程等信息有了很强的关联性大数据的,4V,特征(,Value,),挖掘大数据的价值类似,沙里。
