电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于Hadoop大数据分析应用场景与实战_光环大数据培训

4页
  • 卖家[上传人]:gua****an
  • 文档编号:51485442
  • 上传时间:2018-08-14
  • 文档格式:DOCX
  • 文档大小:40.54KB
  • / 4 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/基于基于 HadoopHadoop 大数据分析应用场景与实战大数据分析应用场景与实战_ _光环大数据培训光环大数据培训为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基 础上,采用了 hadoop 等热门的开源大数据计算引擎,打造了一款为京东运营和 产品提供决策性的数据类产品-北斗平台。一、一、HadoopHadoop 的应用业务分析的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单 一的技术或工具,而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark 和 Strom:Hadoop 当前大数据管理标准之一,运用在当前很多商业应用系统。可以轻 松地集成结构化、半结构化甚至非结构化数据集。Spark 采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反 复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。Spark 构 建在 HDFS 上,能与 Hadoop 很好的结合。它的 RDD 是一个

      2、很大的特点。Storm 用于处理高速、大型数据流的分布式实时计算系统。为 Hadoop 添加 了可靠的实时数据处理功能Hadoop 是使用 Java 编写,允许分布在集群,使用简单的编程模型的计算 机大型数据集处理的 Apache 的开源框架。 Hadoop 框架应用工程提供跨计算机 集群的分布式存储和计算的环境。 Hadoop 是专为从单一服务器到上千台机器 扩展,每个机器都可以提供本地计算和存储。Hadoop 适用于海量数据、离线数据和负责数据,应用场景如下:场景 1:数据分析,如京东海量日志分析,京东商品推荐,京东用户行为 分析场景 2:离线计算,(异构计算+分布式计算)天文计算场景 3:海量数据存储,如京东的存储集群基于京麦业务三个实用场景京麦用户分析光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/京麦流量分析京麦订单分析都属于离线数据,决定采用 Hadoop 作为京麦数据类产品的数据计算引擎, 后续会根据业务的发展,会增加 Storm 等流式计算的计算引擎,下图是京麦的 北斗系统架构图:(图一)京东北斗系统二、浅谈二、

      3、浅谈 HadoopHadoop 的基本原理的基本原理Hadoop 分布式处理框架核心设计HDFS :(Hadoop Distributed File System)分布式文件系统MapReduce: 是一种计算模型及软件架构2.1 HDFSHDFS(Hadoop File System),是 Hadoop 的分布式文件存储系统。将大文件分解为多个 Block,每个 Block 保存多个副本。提供容错机制, 副本丢失或者宕机时自动恢复。默认每个 Block 保存 3 个副本,64M 为 1 个 Block。将 Block 按照 key-value 映射到内存当中。2.2 MapReduceMapReduce 是一个编程模型,封装了并行计算、容错、数据分布、负载均 衡等细节问题。MapReduce 实现最开始是映射 map,将操作映射到集合中的每个 文档,然后按照产生的键进行分组,并将产生的键值组成列表放到对应的键中。 化简(reduce)则是把列表中的值化简成一个单值,这个值被返回,然后再次进 行键分组,直到每个键的列表只有一个值为止。这样做的好处是可以在任务被 分解后,可以通过大量机器

      4、进行并行计算,减少整个操作的时间。但如果你要 我再通俗点介绍,那么,说白了,Mapreduce 的原理就是一个分治算法。算法:MapReduce 计划分三个阶段执行,即映射阶段,shuffle 阶段,并减少阶段。映射阶段:映射或映射器的工作是处理输入数据。一般输入数据是在文件 或目录的形式,并且被存储在 Hadoop 的文件系统(HDFS)。输入文件被传递到由 线映射器功能线路。映射器处理该数据,并创建数据的若干小块。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/减少阶段:这个阶段是:Shuffle 阶段和 Reduce 阶段的组合。减速器的工 作是处理该来自映射器中的数据。处理之后,它产生一组新的输出,这将被存 储在 HDFS。2.3 HIVEhive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射 为一张数据库表,并提供完整的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行,这套 SQL 简称 HQL。使不熟悉 mapreduce 的用户很 方便的利用 SQL 语言查询

      5、,汇总,分析数据。而 mapreduce 开发人员可以把己 写的 mapper 和 reducer 作为插件来支持 Hive 做更复杂的数据分析。由上图可知,hadoop 和 mapreduce 是 hive 架构的根基。Hive 架构包括如 下组件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore 和 Driver(Complier、Optimizer 和 Executor)。三、三、HadoopHadoop 走过来的那些坑走过来的那些坑进行 HIVE 操作的时候,HQL 写的不当,容易造成数据倾斜,大致分为这么 几类:空值数据倾斜、不同数据类型关联产生数据倾斜和 Join 的数据偏斜。只 有理解了 Hadoop 的原理,熟练使用 HQL,就会避免数据倾斜,提高查询效率。为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/光环大数据官方网站报名:光环大数据官方网站报名:http:/ /mobile/mobile/

      《基于Hadoop大数据分析应用场景与实战_光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《基于Hadoop大数据分析应用场景与实战_光环大数据培训》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.