电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Hadoop大数据概述

13页
  • 卖家[上传人]:Baige****0346
  • 文档编号:265413431
  • 上传时间:2022-03-13
  • 文档格式:DOCX
  • 文档大小:815.20KB
  • / 13 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 Hadoop-1-大数据概述 在学习Hadoop之前,我们先来学习一下大数据的有关知识吧1.1 大数据时代1.1.1 三次信息化浪潮次序时间标志解决问题代表企业大数据第一次信息化浪潮1980年前后个人计算机信息处理Intel,AMD,IBM,苹果,微软,联想,戴尔,惠普等兴起第二次信息化浪潮1995年前后互联网信息传输雅虎,Google,Alibaba,百度,腾讯普及第三次信息化浪潮2010年前后物联网、云计算和大数据信息爆炸亚马逊、Google、IBM、VMWare、Palantir、Hortonworks、Cloudera、阿里云等大数据时代1.1.2 信息科技提供技术支撑:存储、计算、网络信息科技需要解决信息存储、信息传输 和 信息处理 3 个核心问题,人类社会在信息科技领域的不断进步为大数据时代的到来提供了技术支撑。存储设备容量不断提升,价格不断下降CPU性能大幅提升(摩尔定律)网络带宽不断增加1.1.3 数据产生方式变革数据产生方法的变革,是促进大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了 3 个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段

      2、。运营式系统阶段所有运营活动都存储在数据库中数据库的诞生是一重要标志。在这一阶段,数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并存入数据库。用户原创内容阶段博客、微博,每个网民都能创作互联网真正的数据爆发产生于以“用户原创内容”为特征的 Web 2.0 时代。Web 2.0 技术以 Wiki、博客、微博、微信等自服务模式为主,增强自服务,大量用户本身就是内容的生成者,尤其是随着移动互联网和智能手机终端的普及,人们更是可以随时随地使用手机发微博、上传照片,数据量急剧增加。感知式系统阶段物联网最底层包含很多设备(感知器、传感器、摄像头)源源不断产生信息物联网的发展最终导致了人类社会数据量的第三次跃升。物联网包含大量传感器以及视频监控摄像头。这些设备,每时每刻都在自动产生大量数据,与 Web 2.0 时代的人工数据产生方式相比,物联网中的自动数据产生方式,将在段时间内生成更密集、更大量数据,是得人类社会迅速步入“大数据时代”。1.1.4 大数据发展历程大数据的发展历程总体上可以划分为 3 个重要阶段:阶段时间内容萌芽期20 世纪 90 年代至 21 世纪初随着数据挖掘

      3、理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等成熟期21 世纪前 10 年Web 2.0 应用迅猛发展,非结构化数据大量出现,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方法逐渐走向成熟,形成了并行计算 与 分布式系统 两大核心技术,谷歌的 GFS 和 MapReduce 等大数据技术受到追捧,Hadoop 平台大行其道。大规模应用期2010 年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅度提高1.2 大数据概念4V:大量化(Volume)、快速化(Velocity)、多样化(Variety)、价值密度比较低(Value)1.2.1 数据量大大数据摩尔定律:数据每两年增长一倍随着 Web 2.0 和移动互联网的快速发展,以及物联网的推广和普及,人类社会正经历着第二次“数据大爆炸”。各种数据产生速度之快,产生数量之大,已经远远超出人类可以控制的范围,“数据爆炸”成为大数据时代的鲜明特征。1.2.2 数据类型繁多大数据的数据类型丰富,包括结构化数据 和 非结构化数据。10%结构化数据,存储在关系

      4、数据库中90%非结构化数据,种类繁多,主要包括邮件、音频、视频、微信、微博等各种网络信息,与人类信息密切相关1.2.3 处理速度快数据生成到消耗时间窗口非常小,用于生成决策时间非常少大数据时代的许多应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践。因此,数据处理和分析的速度通常需要达到秒级响应。1秒定律和传统的数据挖掘技术有本质不同为了数显快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。如谷歌公司的 Dremel。1.2.4 价值密度低在大数据时代,许多有用信息都是分散在海量数据中的。但商业价值高,如监控器,连续不间断的监控可能只有几秒有用1.3 大数据影响1.3.1 大数据对科学研究的影响在科研上先后有实验、理论、计算和数据四种范式比萨斜塔各种定律(相对论)计算机解决问题数据分析实验科学理论科学计算科学数据密集型科学虽然第三种范式和第四种范式都是利用计算机进行计算,但是二者还有有本质区别的。在第三种研究范式中,一般是先提出可能的理论,再搜集数据,然后通过计算来验证。而对于第四种研究范式,则是现有了大量已知的数据,然后通过计算得出之前未

      5、有的理论。1.3.2 大数据对思维方式的影响在思维方式方面,大数据完全颠覆了传统的思维方式:全样而非抽样之前无法对全样数据进行处理,计算能力存储能力不够效率而非精确之前看重算法的精度,而且是抽样;现在追求处理速度相关而非因果淘宝推荐其他人还买了啥,只考虑相关性但不研究因果1.3.3 其他影响社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现就业市场方面,大数据的兴起使得数据科学家成为热门职业人才培养方面,大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制1.4 大数据的应用案例:拍摄美剧(大数据分析找到最火的剧本、演员)Google流感趋势(根据搜索数据判断流感情况)1.5 大数据关键技术所谓大数据技术,是指伴随着大数据的采集、存储、分析和应用的相关技术,是一系列使用非传统的工具对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。大数据的基本处理流程,主要包括数据采集、存储、分析和结果呈现等环节。技术层面功能数据采集利用ET

      6、L工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析数据存储和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理数据处理和分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据数据隐私和安全在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全两大核心技术 分布式存储o GFS/HDFSo BigTable/HBaseo NoSQL(键值、列族、图形、文档数据库)o NewSQL(如 SQL Azure) 分布式处理o MapReduce1.6 大数据计算模式计算模式解决问题代表产品批处理计算针对大规模数据的批量处理(风险控制检测、如花呗借呗、考察借款风险)MapReduce(

      7、无法高效迭代计算)、Spark等流计算针对流数据的实时计算(抖音、淘宝实时推送)Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等图计算针对大规模图结构数据的处理Pregel、GraghX、Giraph、PowerGraph、Hama、GoldenOrb等查询分析计算大规模数据的存储管理和查询分析Dremel、Hive、Cassandra、Impala等1.7 大数据产业大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合产业链环节包含内容IT基础设施层包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等数据源层大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等

      8、)、搜索引擎大数据(百度、谷歌等)等各种数据的来源数据管理层包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等)数据分析层包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等数据平台层包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等数据应用层提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等1.8 大数据与云计算、物联网的关系云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别1.8.1 云计算1

      9、.8.1.1 云计算概念云计算实现了了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源云计算三种服务模式: 应用层:软件作为服务(SaaS) 平台层:平台作为服务(PaaS) 基础设施层:基础设施作为服务(IaaS)云计算包括: 公有云:基础设施层 混合云:基础设施层、平台层 私有云:基础设施层、平台层、应用层1.8.1.2 云计算关键技术虚拟化、分布式存储、分布式计算、多租户等1.8.1.3 云计算数据中心 云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等 数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供运行支撑环境 全国各地推进数据中心建设1.8.1.4 云计算应用 政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型 教育云可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资源,逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标 中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统

      《Hadoop大数据概述》由会员Baige****0346分享,可在线阅读,更多相关《Hadoop大数据概述》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.