光环大数据浅谈什么是Hadoop及如何学习Hadoop_光环大数据培训
-
资源ID:51485498
资源大小:44.51KB
全文页数:4页
- 资源格式: DOCX
下载积分:0金贝
快捷下载
账号登录下载
微信登录下载
微信扫一扫登录
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
|
下载须知 | 常见问题汇总
|
光环大数据浅谈什么是Hadoop及如何学习Hadoop_光环大数据培训
光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn光环大数据浅谈什么是光环大数据浅谈什么是 HadoopHadoop 及如何学习及如何学习 Hadoop_Hadoop_光环大数据培训光环大数据培训光环大数据培训光环大数据培训认为,首先 hadoop 实现了一个分布式文件系统 (HadoopDistributedFileSystem),简称 HDFS。HDFS 有高容错性的特点,并且 设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量 (highthroughput)来访问应用程序的数据,适合那些有着超大数据集 (largedataset)的应用程序。HDFS 放宽了(relax)POSIX 的要求,可以以流的形 式访问(streamingaccess)文件系统中的数据。Hadoop 的框架最核心的设计就是:HDFS 和 MapReduce。HDFS 为海量的数据 提供了存储,则 MapReduce 为海量的数据提供了计算。一句话来讲 Hadoop 就是 存储加计算。Hadoop 这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者, DougCutting 解释 Hadoop 的得名:“这个名字是我孩子给一个棕黄色的大象玩 具命名的。Hadoop 是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻 松地在 Hadoop 上开发和运行处理海量数据的应用程序。它主要有以下几个优点:1、高可靠性 Hadoop 按位存储和处理数据的能力值得人们信赖。2、高扩展性 Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的, 这些集簇可以方便地扩展到数以千计的节点中。3、高效性 Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动 态平衡,因此处理速度非常快。4、高容错性 Hadoop 能够自动保存数据的多个副本,并且能够自动将失败 的任务重新分配。5、低成本与一体机、商用数据仓库以及 QlikView、YonghongZ-Suite 等数 据集市相比,hadoop 是开源的,项目的软件成本因此会大大降低。Hadoop 带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非 常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C+。HadoopHadoop 大数据处理的意义大数据处理的意义光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnHadoop 得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形 和加载(ETL)方面上的天然优势。Hadoop 的分布式架构,将大数据处理引擎尽 可能的靠近存储,对例如像 ETL 这样的批处理操作相对合适,因为类似这样操 作的批处理结果可以直接走向存储。Hadoop 的 MapReduce 功能实现了将单个任 务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加 载(Reduce)到数据仓库里。HadoopHadoop 由以下几个项目构成由以下几个项目构成1、HadoopCommon:Hadoop 体系最底层的一个模块,为 Hadoop 各子项目提 供各种工具,如:配置文件和日志操作等。2、HDFS:分布式文件系统,提供高吞吐量的应用程序数据访问,对外部客 户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命 名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的(参见图 1),这 是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部 提供元数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,因此这是 HDFS 的一个缺点(单点失败)。存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中 (DataNode)。这与传统的 RAID 架构大不相同。块的大小(通常为 64MB)和复制光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。3、MapReduce:一个分布式海量数据处理的软件框架集计算集群。4、Avro:dougcutting 主持的 RPC 项目,主要负责数据的序列化。有点类 似 Google 的 protobuf 和 Facebook 的 thrift。avro 用来做以后 hadoop 的 RPC,使 hadoop 的 RPC 模块通信速度更快、数据结构更紧凑。5、Hive:类似 CloudBase,也是基于 hadoop 分布式计算平台上的提供 datawarehouse 的 sql 功能的一套软件。使得存储在 hadoop 里面的海量数据的 汇总,即席查询简单化。hive 提供了一套 QL 的查询语言,以 sql 为基础,使 用起来很方便。6、HBase:基于 HadoopDistributedFileSystem,是一个开源的,基于列 存储模型的可扩展的分布式数据库,支持大型表的存储结构化数据。7、Pig:是一个并行计算的高级的数据流语言和执行框架,SQL-like 语言, 是在 MapReduce 上构建的一种高级查询语言,把一些运算编译进 MapReduce 模 型的 Map 和 Reduce 中,并且用户可以定义自己的功能。8、ZooKeeper:Google 的 Chubby 一个开源的实现。它是一个针对大型分 布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同 步、组服务等。ZooKeeper 的目标就是封装好复杂易出错的关键服务,将简单 易用的接口和性能高效、功能稳定的系统提供给用户。9、Chukwa:一个管理大型分布式系统的数据采集系统由 yahoo 贡献。10、Cassandra:无单点故障的可扩展的多主数据库。11、Mahout:一个可扩展的机器学习和数据挖掘库。Hadoop 设计之初的目标就定位于高可靠性、高可拓展性、高容错性和高效 性,正是这些设计上与生俱来的优点,才使得 Hadoop 一出现就受到众多大公司 的青睐,同时也引起了研究界的普遍关注。到目前为止,Hadoop 技术在互联网 领域已经得到了广泛的运用,如 Yahoo、Facebook、Adobe、IBM、百度、阿里 巴巴、腾讯、华为、中国移动等。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/hadoop.aura.cn/http:/hadoop.aura.cn/手机报名链接:手机报名链接:http:/http:/ hadoop.aura.cnhadoop.aura.cn /mobile/mobile/