电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Hadoop培训 HDFS特点及对大数据时代的意义_光环大数据培训

4页
  • 卖家[上传人]:gua****an
  • 文档编号:49596476
  • 上传时间:2018-07-31
  • 文档格式:DOCX
  • 文档大小:42.40KB
  • / 4 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/HadoopHadoop 培训培训 HDFSHDFS 特点及对大数据时代的意义特点及对大数据时代的意义_ _光环大数据培训光环大数据培训光环大数据培训光环大数据培训认为,如今 Apache hadoop 已成为大数据行业发展背后的驱 动力。Hive 和 Pig 等技术也经常被提到,但是他们都有什么功能,为什么会需 要奇怪的名字(如 Oozie,ZooKeeper、Flume)。Hadoop 带来了廉价的处理大数据(大数据的数据容量通常是 10-100GB 或更 多,同时数据种类多种多样,包括结构化、非结构化等)的能力。但这与之前有 什么不同?现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大 量的数据。但成本上有些昂贵。这种对数据的要求限制了可处理的数据种类, 同时这种惯性所带的缺点还影响到数据仓库在面对海量异构数据时对于敏捷的 探索。这通常意味着有价值的数据源在组织内从未被挖掘。这就是 Hadoop 与传 统数据处理方式最大的不同。本文就重点探讨了 Hadoop

      2、系统的组成部分,并解释各个组成部分的功能。MapReduceMapReduceHadoopHadoop 的核心的核心Google 的网络搜索引擎在得益于算法发挥作用的同时,MapReduce 在后台 发挥了极大的作用。MapReduce 框架成为当今大数据处理背后的最具影响力的 “发动机”。除了 Hadoop,你还会在 MapReduce 上发现 MPP(Sybase IQ 推出了 列示数据库)和 NoSQL(如 Vertica 和 MongoDB)。MapReduce 的重要创新是当处理一个大数据集查询时会将其任务分解并在 运行的多个节点中处理。当数据量很大时就无法在一台服务器上解决问题,此 时分布式计算优势就体现出来。将这种技术与 Linux 服务器结合可获得性价比 极高的替代大规模计算阵列的方法。Yahoo 在 2006 年看到了 Hadoop 未来的潜 力,并邀请 Hadoop 创始人 Doug Cutting 着手发展 Hadoop 技术,在 2008 年 Hadoop 已经形成一定的规模。Hadoop 项目再从初期发展的成熟的过程中同时吸 纳了一些其他的组件,以便进一步提高

      3、自身的易用性和功能。HDFSHDFS 和和 MapReduceMapReduce以上我们讨论了 MapReduce 将任务分发到多个服务器上处理大数据的能力。 而对于分布式计算,每个服务器必须具备对数据的访问能力,这就是 HDFS(Hadoop Distributed File System)所起到的作用。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/HDFS 与 MapReduce 的结合是强大的。在处理大数据的过程中,当 Hadoop 集群中的服务器出现错误时,整个计算过程并不会终止。同时 HFDS 可保障在整 个集群中发生故障错误时的数据冗余。当计算完成时将结果写入 HFDS 的一个节 点之中。HDFS 对存储的数据格式并无苛刻的要求,数据可以是非结构化或其它 类别。相反关系数据库在存储数据之前需要将数据结构化并定义架构。开发人员编写代码责任是使数据有意义。Hadoop MapReduce 级的编程利用 Java APIs,并可手动加载数据文件到 HDFS 之中。PigPig 和和 HiveHive对于开发人员,直接使用

      4、 Java APIs 可能是乏味或容易出错的,同时也限 制了 Java 程序员在 Hadoop 上编程的运用灵活性。于是 Hadoop 提供了两个解决 方案,使得 Hadoop 编程变得更加容易。Pig 是一种编程语言,它简化了 Hadoop 常见的工作任务。Pig 可加载数据、 表达转换数据以及存储最终结果。Pig 内置的操作使得半结构化数据变得有意 义(如日志文件)。同时 Pig 可扩展使用 Java 中添加的自定义数据类型并支持数 据转换。Hive 在 Hadoop 中扮演数据仓库的角色。Hive 添加数据的结构在 HDFS(hive superimposes structure on data in HDFS),并允许使用类似于 SQL 语法进行数据查询。与 Pig 一样,Hive 的核心功能是可扩展的。Pig 和 Hive 总是令人困惑的。Hive 更适合于数据仓库的任务,Hive 主要 用于静态的结构以及需要经常分析的工作。Hive 与 SQL 相似促使其成为 Hadoop 与其他 BI 工具结合的理想交集。Pig 赋予开发人员在大数据集领域更多的灵活 性,并允许开发简洁的

      5、脚本用于转换数据流以便嵌入到较大的应用程序。Pig 相比 Hive 相对轻量,它主要的优势是相比于直接使用 Hadoop Java APIs 可大 幅削减代码量。正因为如此,Pig 仍然是吸引大量的软件开发人员。改善数据访问:改善数据访问:HBaseHBase、SqoopSqoop 以及以及 FlumeFlumeHadoop 核心还是一套批处理系统,数据加载进 HDFS、处理然后检索。对于 计算这或多或少有些倒退,但通常互动和随机存取数据是有必要的。HBase 作 为面向列的数据库运行在 HDFS 之上。HBase 以 Google BigTable 为蓝本。项目 的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。HBase 利 用 MapReduce 来处理内部的海量数据。同时 Hive 和 Pig 都可以与 HBase 组合使 用,Hive 和 Pig 还为 HBase 提供了高层语言支持,使得在 HBase 上进行数据统 计处理变的非常简单。但为了授权随机存储数据,HBase 也做出了一些限制:例如 Hive 与 HBase 的性能比原生在 HDFS 之上的 Hive

      6、要慢 4-5 倍。同时 HBase 大约可存储 PB 级的光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/数据,与之相比 HDFS 的容量限制达到 30PB。HBase 不适合用于 ad-hoc 分析, HBase 更适合整合大数据作为大型应用的一部分,包括日志、计算以及时间序 列数据。获取数据与输出数据获取数据与输出数据Sqoop 和 Flume 可改进数据的互操作性和其余部分。Sqoop 功能主要是从关 系数据库导入数据到 Hadoop,并可直接导入到 HFDS 或 Hive。而 Flume 设计旨 在直接将流数据或日志数据导入 HDFS。Hive 具备的友好 SQL 查询是与繁多数据库的理想结合点,数据库工具通过 JDBC 或 ODBC 数据库驱动程序连接。负责协调工作流程的负责协调工作流程的 ZooKeeperZooKeeper 和和 OozieOozie随着越来越多的项目加入 Hadoop 大家庭并成为集群系统运作的一部分,大 数据处理系统需要负责协调工作的的成员。随着计算节点的增多,集群成员需 要彼此同步并了解去哪里

      7、访问服务和如何配置,ZooKeeper 正是为此而生的。而在 Hadoop 执行的任务有时候需要将多个 Map/Reduce 作业连接到一起, 它们之间或许批次依赖。Oozie 组件提供管理工作流程和依赖的功能,并无需 开发人员编写定制的解决方案。Ambari 是最新加入 Hadoop 的项目,Ambari 项目旨在将监控和管理等核心 功能加入 Hadoop 项目。Ambari 可帮助系统管理员部署和配置 Hadoop,升级集 群以及监控服务。还可通过 API 集成与其他的系统管理工具。Apache Whirr 是一套运行于云服务的类库(包括 Hadoop),可提供高度的互 补性。Whirr 现今相对中立,当前支持 Amazon EC2 和 Rackspace 服务。机器学习:机器学习:MahoutMahout各类组织需求的不同导致相关的数据形形色色,对这些数据的分析也需要 多样化的方法。Mahout 提供一些可扩展的机器学习领域经典算法的实现,旨在 帮助开发人员更加方便快捷地创建智能应用程序。Mahout 包含许多实现,包括 集群、分类、推荐过滤、频繁子项挖掘。使用使用 HadoopHadoop光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/通常情况下,Hadoop 应用于分布式环境。就像之前 Linux 的状况一样,厂 商集成和测试 Apache Hadoop 生态系统的组件,并添加自己的工具和管理功能。为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/ /mobile/mobile/

      《Hadoop培训 HDFS特点及对大数据时代的意义_光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《Hadoop培训 HDFS特点及对大数据时代的意义_光环大数据培训》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.