好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据处理方式课件.ppt

30页
  • 卖家[上传人]:des****85
  • 文档编号:328440575
  • 上传时间:2022-07-29
  • 文档格式:PPT
  • 文档大小:3.39MB
  • / 30 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 提要1.1 大数据技术概述1.2大数据技术构架1.3大数据的整体技术和关键技术1.4大数据分析的五种典型工具简介1.5大数据未来发展趋势 娄 岩 教授第1章 大数据概论http:/ 本章要点http:/ 1、大、大数据的基本数据的基本概念概念大数据(Big Data),顾名思义就是数量极其庞大的数据资料通俗地讲大数据就是貌似毫无意义,但存在着的数据,其中包括结构化,半结构化和非结构化的所有数据经过处理后的大数据就是大数据信息1ZB=1024EB=1024PB=1024TB=1024GB1ZB=1024EB=1024PB=1024TB=1024GB2014 年,每天会有 2.3ZB量的数据产生(IBM,2015)定义定义这是一个什么概念这是一个什么概念?定义:?定义:新一代的技术和架构,具有高效率的的分析,捕捉,发现和分析能力,能够经济地从类型繁杂数据庞大的数据中挖掘出出色的价值1.1 1.1 大数据技术概述概念大数据技术概述概念http:/ 2、大数据的数据来源大数据的数据来源11管理信息系统:管理信息系统:企业内部使用的信息系统,如办公自动化、业务管理系统等主要是通过用户输入和系统的二次加工的方式生成的数据,多为结构化数据。

      22网络信息系统:网络信息系统:基于网络运行的信息系统是大数据产生的重要方式如电子商务系统、社交网络、社会媒体等这类系统多为半结构化或无结构化数据,与前者的区别在于,内部使用不接入外部公共网络33物联网络系统:物联网络系统:通过传感器获取外界的物理、化学、生物等数据信息44科学实验系统:科学实验系统:主要用于学术科学研究,其环境是预先设定的,数据既可以是由真实实验产生,也可以通过模拟方式获取仿真的http:/ 3、生产数据的三个阶段生产数据的三个阶段被动式生成数据:被动式生成数据:采用数据库技术阶段数据的产生是被动的,数据时随着业务系统的运行产生的主动式生成数据:主动式生成数据:Web2.0、移动互联网的发展使人们可以随时随地通过移动终端生成数据,人们开始主动地生成数据感知式生成数据:感知式生成数据:感知技术的发展促进了数据生成方式发生了根本性的变化,如遍布城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据112233http:/ 4、大数据的特点大数据的特点传统方式大数数据时代数数据产生方式被动采集数据主动生成数据数数据采集密度采样密度较低,采样数据有限利用大数据平台,可对需要分析的事件的数据进行密集采样,精确获取事件全局数据。

      数数据源数据源获取较为孤立,不同数据源之间的数据整合难度较大利用大数据技术,通过分布式技术、分布式文件系统、分布式数据库等技术对多个数据源获取的数据进行整合处理数数据处理方式大多采用离线处理方式,对生成的数据集中分析处理,不对实时产生的数据进行分析较大的数据源、响应时间要求低的应用可以采取批处理方式集中计算;对于对于响应时间要求高的实时数据处理采用流处理的方式进行实时计算,并通过对历史数据的分析进行预测分析http:/ 5、大数据大数据的特性的特性(四四V V一一O)O)大数据来源多样化;具体表现为网络日志、音频、视频、图片、地理位置信息等首要特征指大数据的数据量大,包括包括采集存储和计算的量非常大速度快,时效高;比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法要求实时完成推荐数据价值密度低;随着互联网和物联网的应用,信息感知无处不在,但价值密度较低数据是的,必须随时能调用和计算,这是大数据区别于传统数据的最大特征http:/ 6、大数据时代的数据格式特性大数据时代的数据格式特性结构化结构化信息信息数据格式特性数据格式特性半结构化信息半结构化信息非结构化信息非结构化信息传统的关系型数据库、可用二维表结构表示。

      类似XML、HTML之类,自描述,数据结构和内容混杂在一起各种文档、图片、视频/音频等http:/ 6、大数据时代的数据格式特性大数据时代的数据格式特性可以在关系数据库中找到结构化信息结构化信息是 联机事务处理系统(OLTP On-Line Transaction Processing)所依赖的信息可对结构数据库信息进行排序和查询结构化数据,简单来说就是数据库结合到典型场景中更容结构化数据,简单来说就是数据库结合到典型场景中更容结构化数据,简单来说就是数据库结合到典型场景中更容结构化数据,简单来说就是数据库结合到典型场景中更容易理解,比如企业易理解,比如企业易理解,比如企业易理解,比如企业ERPERPERPERP、财务系统;医疗、财务系统;医疗、财务系统;医疗、财务系统;医疗HISHISHISHIS数据库;这些应数据库;这些应数据库;这些应数据库;这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据用需要哪些存储方案呢?基本包括高速存储应用需求、数据用需要哪些存储方案呢?基本包括高速存储应用需求、数据用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

      备份需求、数据共享需求以及数据容灾需求备份需求、数据共享需求以及数据容灾需求备份需求、数据共享需求以及数据容灾需求http:/ 6、大数据时代的数据格式特性大数据时代的数据格式特性它是结构化的数据,但是结构变化很大如电子邮件,文字处理文件以及大量保存和发布在网络上的信息半结构化信息半结构化信息以内容为基础,可以用于搜索因为要了解数据细节,所以不能将数据简单的组织成一个文件另外按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应http:/ 6、大数据时代的数据格式特性大数据时代的数据格式特性该信息在本质形式上主要是位映射数据非结构化信息非结构化信息数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)其庞大规模和复杂性需要高级分析工具来创建或利用一种易于人们感知和交互的结构非结构化数据:像图片、声音、视频等等这类信息我们通常无法直接知道他的内容,数据库也只非结构化数据:像图片、声音、视频等等这类信息我们通常无法直接知道他的内容,数据库也只非结构化数据:像图片、声音、视频等等这类信息我们通常无法直接知道他的内容,数据库也只非结构化数据:像图片、声音、视频等等。

      这类信息我们通常无法直接知道他的内容,数据库也只能将它保存在一个能将它保存在一个能将它保存在一个能将它保存在一个BLOBBLOBBLOBBLOB(二进制大对象)字段中,对以后检索非常麻烦一般的做法是,建立一个包含字段中,对以后检索非常麻烦一般的做法是,建立一个包含字段中,对以后检索非常麻烦一般的做法是,建立一个包含字段中,对以后检索非常麻烦一般的做法是,建立一个包含三个字段的表(编号三个字段的表(编号三个字段的表(编号三个字段的表(编号 number number number number、内容描述、内容描述、内容描述、内容描述 varchar(1024)varchar(1024)varchar(1024)varchar(1024)、内容、内容、内容、内容 blob blob blob blob)引用通过编号,检索通过内容)引用通过编号,检索通过内容)引用通过编号,检索通过内容)引用通过编号,检索通过内容描述现在还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的一种现在还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的一种现在还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的一种。

      描述现在还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的一种http:/ 7、大数据的应用领域大数据的应用领域RFID传感器军事侦察社会网络、数据天文学摄影档案馆视频档案医疗记录互联网搜索索引网络日志生物、基因组学大规模的电子商务http:/ 8、主要的大数据处理系统、主要的大数据处理系统1.1.数据查询分析计算系统:数据查询分析计算系统:需要具备对大规模数据进行实时或准实时查询的能力数据规模远超出传统关系型数据库的承载和处理能力2.2.批处理系统:批处理系统:MapReduce是被广泛应用的批处理计算模式具有简单的数据关系;易于划分将数据处理分为Map和Reduce两个简单抽象操作,并提供一个统一的并行计算框架是目前大数据处理最主流的平台3.3.流式计算系统:流式计算系统:主要用于不断产生的数据实时进行处理4.4.迭代计算系统:迭代计算系统:针对MapReduce不支持迭代计算的缺陷而推出计算模式5.5.图计算系统:图计算系统:用于社交网络、网络连接等包含具有复杂关系的图数据6.6.内存计算系统:内存计算系统:常用的有分布式内存计算系统、全内存式分布式数据库系统、可扩展的交互式查询系统。

      http:/ 9、大数据处理的基本流程大数据处理的基本流程大数据处理流程可以定义为,在适合工具的辅助下对于广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展示给终端用户http:/ 9、大数据处理的基本流程大数据处理的基本流程数据抽取与集成:从中提取出关系和实体,经过关联和聚合等操作,按照统一定义的格式对数据进行存储数据分析:通过数据抽取和集成环节已从异构的数据源中获取了用于大数据处理的原始数据,根据需求对这些数据进行分析处理如挖掘、机器学习、数据统计等,可用于决策支持、商业智能、推荐系统等数据解释:数据处理结果只有通过合适的展示方式才能被用户正确理解,可视化和人机交互是数据解释主要技术第一步第一步核心步骤核心步骤结结 果果http:/ 传统数据库对非结构化数据的特征提取(指纹、图像、语音自动识别、基因数据比对等),以及半结构化数据的内容检索(搜索)、理解(语义分析)等的需求和应用无论在技术上还是功能上都束手无策这样其实就给类似Hadoop的技术和平台提供了很好的发展机会和空间Hadoop被看成大数据分析的神器,其作为大数据平台的标准,主要有以下几个优点:1111、几个典型大数据技术应用平台简介、几个典型大数据技术应用平台简介大数据技术应用软件必需具备对大数据技术应用软件必需具备对大量数据进行大量数据进行分布式处理和数据分析的能力分布式处理和数据分析的能力http:/ 是基于linux开发的,采用JAVA作为主要开发语言,对其他平台的支持不够友好。

      如对WINDOWS仅可作为开发环境,不可作为生产环境分布式文件系统分布式文件系统(HDFSHDFS)实现和分布式计算实现和分布式计算框架框架(MapReduce)Hadoop构建在HDFS之上,对其数据进行分布式计算用于搜索领域,由两部分组成:编程模型和运行环境底层的分布式文件系统是独立模块用户按照约定的一套接口实现自己的分布式文件系统主要用于大数据的分布存储具有高度容错性,适合部署在廉价机器上提供高吞吐量的数据访问,适合大规模数据集应用采用 master/slave架构HDFS(Hadoop Distributed File System)架构也采用 master/slave架构经过简单的配置后,存储在该文件系统上的数据便可被处理Hadoop是一个基础平台,存储有HDFS、资源调度有YARN、计算引擎有内置的MapReduce(跑在YARN上),Hadoop的HDFS、YARN是大数据系统的底层组件http:/ Performance Computing and Communications(高性能计算与通信)的缩写1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目。

      该项目主要由五部分组成:http:/ Procedure Call,远程过程调用远程过程调用)http:/ 1.2 大数据技术构架大数据技术构架大大数数据据的的四四层层堆堆栈栈式式技技术术架架构构http:/ 1.3 大数据整体技术和关键技术大数据整体技。

      点击阅读更多内容
      相关文档
      高等学校学生手册.doc 2025年区教育系统招聘编外教师储备人才事业单位考试押题.docx 2025年秋季青岛版三年级数学上册认识轴对称现象教学课件.pptx 2025年秋季青岛版三年级数学上册用乘法估算解决问题教学课件.pptx 2025年秋季青岛版三年级数学上册两、三位数乘一位数的笔算(不进位)教学课件.pptx 2025年秋季青岛版三年级数学上册1200张纸有多厚教学设计范文.docx 2025年秋季青岛版三年级数学上册多位数除以一位数教学课件.pptx 2025年秋季青岛版三年级数学上册认识平移、旋转现象教学课件.pptx 2025年秋季青岛版三年级数学上册多位数乘一位数教学设计范本.docx 2025年秋季青岛版三年级数学上册认识平移与旋转教学设计范文.docx 2025年秋季青岛版三年级数学上册乘数中间有0或末尾有0的乘法教学课件.pptx 2025年秋季青岛版三年级数学上册两位数乘一位数的笔算(进位)教学课件.pptx 2025年秋季青岛版三年级数学上册《两、三位数乘一位数的笔算(不进位)》教学设计与意图.docx 2025年秋季青岛版三年级数学上册我学会了吗教学课件.pptx 2025年连云港市妇幼保健院招聘专业技术人员考试笔试试题.docx 2025年深圳市大鹏新区发展和财政局招聘考试笔试试卷.docx 2025年绵阳市梓潼县财政投资评审中心招聘考试试题.docx 2025年来宾市妇幼保健院招聘考试笔试试题.docx 2025年无极县教育系统招聘教师考试笔试试卷.docx 2025年灵山县第三中学调配教师考试笔试试题.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.