
大数据技术概论 第1章 大数据概论.pptx
22页大数据技术与应用 第1章 大数据概论 导学 一、内容与要求 1.了解大数据的主要来源,掌握大数 据的特点和大数据的处理流程 2.了解四层堆栈式技术架构 3.了解大数据的整体技术 4.了解大数据分析四种典型工具 5.了解大数据未来发展趋势 二、重点、难点 本章重点是了解大数据的特点、特 征和大数据未来发展趋势 本章的难点是了解大数据技术架构 和整体技术 大数据(BigData)指的是所涉及的资料量规模巨大到 无法通过目前主流软件工具,在合理时间内达到撷取、管 理、处理、并整理成为帮助企业经营决策更积极目的的资 讯 2014 年,每天会有 2.3ZB量的数据产生 (IBM, 2015) 1ZB=1024EB 1EB=1024PB 1PB=1024TB 1TB=1024GB 这是一个什么概念? 1.1大数据技术简介 1.1.1IT产业的发展简史 IT产业的几个发展阶段如下: 1、硬件时代(80年代) 代表公司:IBM,HP,Apple,联想,东芝,索尼; 代表产品:服务器,台式电脑,笔记本 电脑 2、软件时代(90年代) 代表公司:微软,Oracle,Adobe,用友; 代表产品:Windows,Oracle,Office,财务 软件 3、互联网时代(2000年代) 代表公司:yahoo! 亚马逊,google,facebook,twitter,新浪,阿里,腾讯,百度;代表产品 :三大门户网站,百度搜索,,人人网,淘宝,天猫,京东, 4、移动互联时代(2010年代) 代表公司:腾讯,字节跳动,美图科技; 代表产品:,今日头条,口袋购物,嘀嘀打车 ,美图秀秀,墨迹天气,高德地图 5、物联网时代(现在) 物联网时代,智能硬件(智能手环,google眼镜等)只是物联网的一部分,电视,冰箱,洗 衣机,汽车,实时路况,空的车位都能连上网,可以实时查看,远程控制,互联联将真正实现连接人 与信息,连接人与人(社交),连接人与商品(电商),连接人与服务(O2O),连接物与物(物联 网),互联网将连接一切! 1.1.2大数据的主要来源 信息管理系统 企业内部使用的信息系统,如办公自动化、业务管理系统等。
主要是通 过用户输入和系统的二次加工的方式生成的数据,多为结构化数据 网络信息系统 如电子商务系统、社交网络、社会媒体等这类系统多为半结构化或无 结构化数据,与前者的区别在于,内部使用不接入外部公共网络 物联网系统 通过传感器获取外界的物理、化学、生物等数据信息 科学实验系统 主要用于学术科学研究,其环境是预先设定的,数据既可以是由真实实 验产生,也可以通过模拟方式获取仿真的 1.1.3数据生成的三种主要方式 从数据库技术诞生以来,产生大数据的方式主要经过 了三个发展阶段: 被动式生成数据 采用数据库技术阶段数据的产生是被动的,数据时随着业务系统的运行 产生的 主动式生成数据 Web2.0、移动互联网的发展使人们可以随时随地通过移动终端生成数据 ,人们开始主动地生成数据 感知式生成数据 感知技术的发展促进了数据生成方式发生了根本性的变化,如遍布城市 各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据 1.1.4大数据的特点 传 统 数 据大 数 据 数据产生方式被动采集数据主动生成数据 数据采集密度采样密度较低,采样数据有限 利用大数据平台,可对需要分析事件的数据 进行密度采样,精确获取事件全局数据 数据源 数据源获取较为孤立,不同数 据之间添加的数据整合难度较大 利用大数据技术,通过分布式技术、分布式 文件系统、分布式数据库等技术对多个数据源 获取的数据进行整合处理 数据处理方式 大多采用离线处理方式,对生 成的数据集中分析处理,不对实 时产生的数据进行分析 较大的数据源、响应时间要求低的应用可以 采取批处理方式集中计算;响应时间要求高的 实时数据处理采用流处理的方式进行实时计算 ,并通过对历史数据的分析进行预测分析 1.1.5大数据的处理流程 大数据处理的基本流程 1.1.6大数据的数据格式 结构化信息:这种信息可以在关系数据库中找到,多 年来一直主导着IT应用,是关键任务OLTP(联机事务处 理)系统业务所依赖的信息。
另外,这种信息还可对结 构数据库信息进行排序和查询 半结构化信息:包括电子邮件、文字处理文件及大量 保存和发布在网络上的信息 非结构化信息:该信息在本质形式上可认为主要是位 映射数据 1.1.7大数据的特征 大数据呈现出“4V+1O”的特征,具体如下: 数据量大(Volume) 多样化(Variety) 数据价值密度化(Value) 速度快,时效高(Velocity) 数据是的(On-Line) 1.1.8大数据的应用领域 RFID传感器 军事侦察 社会网络、数据 天文学 摄影档案馆视频档案 医疗记录 互联网搜索索引 网络日志 生物、基因组学 大规模的电子商务 1.2大数据的技术架构 大 数 据 的 四 层 堆 栈 式 技 术 架 构 1.3大数据的整体技术 一般包括:数据采集、数据存取、基础架构、数 据处理、统计分析、数据挖掘、模型预测和结果 呈现等 1.4大数据分析的四种典型工具简介 1Hadoop Hadoop是一个能够对大量数据进行分布式处理 的软件框架,是一个能够让用户轻松架构和使用 的分布式计算平台 2Spark Spark是一个基于内存计算的开源集群计算系统 ,目的是更快速的进行数据分析。
3Storm Storm是一种开源软件,一个分布式、容错的实时 计算系统 4ApacheDrill 为了帮助企业用户寻找更为有效、加快Hadoop数 据查询的方法,Apache软件基金会发起了一项名为 Drill的开源项目ApacheDrill实现了Googles Dremel 1.5大数据未来发展趋势 1.5.1数据资源化 资源化是指大数据成为企业和社会关注的重 要战略资源,并已成为大家争抢的新焦点,数据 将逐渐成为最有价值的资产 1.5.2数据科学和数据联盟的成立 1催生新的学科和行业 数据科学将成为一门专门的学科,被越来越 多的人所认知越来越多的高校开设了与大数据 相关的学科课程,为市场和企业培养人才 2数据共享 数据可能成为一种共享的趋势 1.5.3大数据隐私和安全问题 1大数据引发个人隐私、企业和国家安全问题 大数据时代将引发个人隐私安全问题 大数据时代,企业将面临信息安全的挑战 大数据时代,大数据安全应该上升为国家安全 2正确合理利用大数据,促进大数据产业的健康发展 大数据时代,必须对数据安全和隐私进行有效的保护 1.5.4开源软件成为推动大数据发展的动力 大数据获得动力的关键在于开放源代码,帮 助分解和分析数据。
开源软件的盛行不会抑制商 业软件的发展相反,开源软件将会给基础架构 硬件、应用程序开发工具、应用服务等各个方面 相关领域带来更多的机会 1.5.5大数据在多方位改善我们的生活 大数据作为一种重要的战略资产,已经不同 程度地渗透到每个行业领域和部门现在,通过 大数据的力量,用户希望掌握真正的便捷信息, 从而让生活更有趣 本章小结本章小结 近年来大数据应用带来了令人瞩目的成绩 作为新的重要资源,世界各国都在加快大数据的 战略布局,制定战略规划 总而言之,大数据技术的发展必将解开宇宙 起源的奥秘和对人类社会未来发展的趋势有推动 作用。












