
大数据导论教学课件汇总整本书电子教案全套教学教程完整版电子教案最新).pptx
368页第一章数据与大数据时代1.1从数据到大数据1.2大数据的概念1.3大数据思维1.5大数据处理流程数据科学与大数据技术导论of3811.6大数据应用1.4数据科学的内涵1.1 从数据到大数据第一章数据和大数据时代of3821数据及数据的作用知识金字塔DIKW数据:原始素材,客观事物性质或状态的描述,文字、图形、图像、视频等类型信息:排序,筛选,公式等加工处理后有逻辑的数据知识:提炼信息之间的联系、行动的能力,完成任务智慧:关心未来,具有预测的能力1.1 从数据到大数据第一章数据和大数据时代of3831数据及数据的作用数据的作用:志愿填报历年、各省、文理科、各专业分数线历年高校各专业分数线、线上、线下、位次、最高、最低、平均等;历年、各高校、各专业在各省的招生人数三年或五年高校招生趋势:位次变化、均值变化、最值变化、招生人数变化等志愿填报规则从知识中,发现规律,做出决策,填报志愿:可能出现2种情况:如愿或失意,体现智慧1.1 从数据到大数据of384来自大量传感器的机器数据科学研究及行业多结构专业数据来自“大人群”泛互联网数据智能终端拍照、拍视频发微博、发其他互联网数据2.海量的数据的产生随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,于是“大数据”时代到来。
第一章数据和大数据时代of38512008年9月,美国自然(Nature)杂志专刊Thenextgoogle,第一次正式提出“大数据”概念22011年2月1日,科学(Science)杂志专刊Dealingwithdata,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”32011年5月,麦肯锡研究院发布报告Bigdata:Thenextfrontierforinnovation,competition,andproductivity,第一次给大数据做出相对清晰的定义:“大数据是指其大小超出了常规数据库工具获取、储存、管理和分析能力的数据集数据”变身“大数据”,“开启了一次重大的时代转型”大数据”这一概念的形成,有三个标志性事件3大数据的到来第一章数据和大数据时代1.1 从数据到大数据大数据数据源整合进行存储、清洗、挖掘、分析后得出结果直到优化企业管理提高效率云计算、硬件性价比的提高以及软件技术的进步智能设备、传感器的普及,推动物联网、人工智能的发展计算力 运行、计算速度越来越快存储 存储成本下降 存储容量增加 智能分析实现信息对等解放脑力,机器拥有人的智慧of386(1)大数据的技术支撑1.1 从数据到大数据第一章数据和大数据时代of387存储:存储成本的下降云计算出现之前云计算出现之后云计算出现前,数据存储成本是非常高的。
例如,公司要建设网站,需要购置和部署服务器,安排技术人员维护服务器,保证数据存储的安全性和数据传输的畅通性,还会定期清理数据,腾出空间以便存储新的数据,机房整体的人力和管理成本都很高云计算出现后,数据存储服务衍生出了新的商业模式,数据中心的出现降低了公司的计算和存储成本例如,公司现在要建设网站,不需要去购买服务器,不需要去雇用技术人员维护服务器,可以通过租用硬件设备的方式解决问题存储成本的下降,也改变了大家对数据的看法,更加愿意把1年、2年甚至更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发现数据之间的关联和价值正是由于存储成本的下降,才能为大数据搭建最好的基础设施1.1 从数据到大数据第一章数据和大数据时代of388计算力:运算速度越来越快l集中式处理:AI芯片:CPU(Intel)、GPU(NVIDIA)、美国Cerebras的WSE(WaferScaleEngine,世界最大的芯片)l分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光;lHDFS为海量的数据提供了存储;lMapReduce则为海量的数据提供了并行计算,从而大大提高了计算效率;lSpark、Storm、Impala等各种各样的技术进入人们的视野。
海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析等多个环节,如果计算速度不够快,很多事情是无法实现的所以,在大数据的发展过程中,计算速度是非常关键的因素第一章数据和大数据时代1.1 从数据到大数据of389智能:机器拥有理解数据的能力大数据带来的最大价值就是“智慧”,大数据让机器变得有智慧,同时人工智能进一步提升了处理和理解数据的能力例如:谷歌AlphaGo大胜世界围棋冠军李世石阿里云小Ai成功预测出我是歌手的总决赛歌王12iPhone上智能化语音机器人Siri上与大家聊天的微软小冰34第一章数据和大数据时代1.1 从数据到大数据of3810美国著名管理学家爱德华戴明所言:“我们信靠上帝除了上帝,任何人都必须用数据来说话1)有数据可说在大数据时代,“万物皆数”,“量化一切”,“一切都将被数据化”数据无处不在、无时不有、无人不用,数据就像阳光、空气、水分一样常见2)说数据可靠大数据中的“数据”真实可靠一切事物都存在着时空一致性的同构关系这意味着任何事物的属性和规律,只要通过适当编码,均可以通过统一的数字信号表达出来2)大数据的意义“用数据说话”、“让数据发声”,已成为人类认知世界的一种全新方法。
1.1 从数据到大数据第一章数据和大数据时代第一章数据与大数据时代1.1从数据到大数据1.2大数据的概念1.3大数据思维数据科学与大数据技术导论of38111.5大数据处理流程1.6大数据应用1.4数据科学的内涵of38121.大数据的定义第一章数据和大数据时代1.2 大数据的概念麦肯锡(全球管理咨询公司):大小超出典型数据库软件工具收集、存储、管理和分析能力的数据集百度百科:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产of38132.大数据的结构第一章数据和大数据时代1.2 大数据的概念国家粮食总产量(亿吨)耕地面积(亿亩)占世界耕地比例(%)中国5.0118.158.06美国3.6329.5513.15印度2.1625.511.32巴西1.3312.95.76加拿大0.5110.24.52澳大利亚0.317.653.45(1)结构化数据)结构化数据结构化数据,也称作行数据,是以先有结构、后有数据先有结构、后有数据的方式生成的数据特点:数据以行为单位,一行数据表示一个实体信息,每一行数据的属性相同,下表给出了主要农业国粮食产量与耕地情况,它们是结构化数据结构化数据。
2)非结构化数据)非结构化数据非结构化数据是指数数据据结结构构不不规规则则或或不不完完整整、没没有有预预先先定定义义的的数数据据模模型型,很难用关系数据库的二维逻辑表来表现的数据,比如办办公公文文档档、文文本本、图图片片、图图像像和和音音频频/视视频频信息等等都是非结构化数据of38142.大数据的结构第一章数据和大数据时代1.2 大数据的概念(3)半结构化数据)半结构化数据半结构化数据是介于结构化数据和非结构化数据之间结构化数据和非结构化数据之间的数据半结构化数据包含相关标记,用来分隔语义元素以及对记录和字段进行分层因此,也被称为自描述结构自描述结构半结构化数据中,同一类实体可以有不同属性,而且这些属性的顺序也可不同XML格式数据JSON格式数据 18.7 75.2 58.8 1703.9 1387.2 1156.2 8104.3部分地区主要作物产量(万吨):北京:小麦:18.7,玉米:75.2,河北:稻谷:58.8,玉米:1703.9,小麦:1387.2,广西:稻谷:1156.2,甘蔗:8104.35 V特征种类多(Variety)速度快(Velocity)价值高(Value)体量大(Volume)大数据与传统数据相比,数据来源广、维度多、类型杂,各种机器仪表在自动产生数据的同时,人自身的生活行为也在不断创造数据;不仅有企业组织内部的业务数据,还有海量相关的外部数据。
随着现代感测、互联网、计算机技术的发展,数据生成、储存、分析、处理的速度远远超出人们的想象力,这是大数据区别于传统数据或小数据的显著特征大数据有巨大的潜在价值,但同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这无疑给我们开发海量数据增加了难度和成本of3815从2013年至2020年,人类的数据规模将扩大50倍,每年产生的数据量从TB转向PB、从PB增长到ZB级别,且每18个月翻一番真实性(Veracity)3.大数据的5V特征第一章数据和大数据时代1.2 大数据的概念数据的有效性、真实性以及数据提供者信誉值得研究第一章数据与大数据时代1.1从数据到大数据1.2大数据的特征1.3大数据思维数据科学与大数据技术导论of38161.5大数据处理流程1.6大数据应用1.4数据科学的内涵1.3 大数据思维of3817第一章数据和大数据时代 科学界一般认为,科学方法分为实验、理论和计算三大类,与三大科学方法相对的是三大科学思维p实验科学-实证思维:以实验为基础,以物理学科为代表p理论科学-理论思维:以推理和演绎为特征,以数学学科为代表p计算科学-计算思维:以设计和构造为特征,以计算机学科为代表。
1)科学研究的三种方法及思维 计算机科学家计算机科学家吉姆吉姆格雷格雷认为,鉴于数据的爆炸性增长,数据密集范式理应并且已经从第三范式即计算范式中分离出来,成为一个独特的科学研究范式,即“第四范式第四范式”数据密集型:数据科学数据思维(2)科学发现的第四范式1.数据思维的由来 社会科学研究将面临对传统方法的颠覆性挑战,新的研究范式将会建立,一个社会科学研究的全新时代到来1.3 大数据思维of3818第一章数据和大数据时代2.大数据时代下的数据思维全样本而非抽样:数据不抽样,而是全部数据互联网、物联网的发展,数据数字化程度大大提高,类型丰富案例:乔布斯与癌症治疗1.3 大数据思维of3819第一章数据和大数据时代重视数据的复杂性,弱化精确性数据结构多样、海量,允许不精确;可用简单方法实现较好的智能案例:谷歌翻译,数据混杂是关键2.大数据时代下的数据思维1.3 大数据思维of3820第一章数据和大数据时代关注数据的相关性,而非因果关系:是相关关系,不是因果关系案例大数据背景下,让许多看似毫不相干的现象之间发生一定的关联,使人们能够更简捷、更清晰地认知事物和把握局势,真正的价值所在1)啤酒与尿布(2)谷歌与流感2.大数据时代下的数据思维第一章数据与大数据时代1.1从数据到大数据1.2大数据的特征1.3大数据思维数据科学与大数据技术导论of38211.5大数据处理流程1.6大数据应用1.4数据科学的内涵1.4 数据科学的内涵of3822第一章数据和大数据时代1.数据科学的内涵2010年,DrewConway首次明确探讨了数据科学的学科定位问题,是交叉型学科。
数据科学家需要掌握三大方面的能力:数学与统计知识、领域实战经验和黑客精神,三个要素知识、实战和精神(黑客精神是“热衷挑战+主张分享+追求创新)1.4 数据科学的内涵of3823第一章数据和大数据时代2.数据科学新解2016年,Gartner在他的博客上用韦恩图重做了数据解决方案,并使其更漂亮和更加基于数据科学图中“危险区”被替换为“数据工程师”(这种表达被许多科学家认同)第一章数据与大数据时代1.1从数据到大数据1.2大数据的特征1.3大数据思维1.5大数据处理流程数据科学与大数据技术导论of38241.6大数据应用1.4数据科学的内涵1.5 大数据处理流程of3825采 集利用多个数据库来接受传感、利用多个数据库来接受传感、社交、互联网等客户端数据社交、互联网等客户端数据导入/预处理。
