电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOCX文档下载
分享到微信 分享到微博 分享到QQ空间

扩展Hadoop的十大要点汇总_光环大数据培训

  • 资源ID:51644853       资源大小:42.36KB        全文页数:6页
  • 资源格式: DOCX        下载积分:0金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要0金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

扩展Hadoop的十大要点汇总_光环大数据培训

光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn扩展扩展 HadoopHadoop 的十大要点汇总的十大要点汇总_ _光环大数据培训光环大数据培训20 世纪 90 年代,每台应用服务器往往都拥有直接连接存储(DAS)。创建存储区域网络(SAN),是为了提供共享的存储池,以获得更大的规模和更高的效率。hadoop 逆转了这股潮流,让 DAS 重新流行起来。每个 Hadoop 集群都有自己的、横向扩展直接连接存储。它有助于 Hadoop 管理数据局部性,但是牺牲了共享存储的规模和效率。因此,如果你有Hadoop 发行版的多个实例,就会有多个这种横向扩展的存储孤岛。Hedvig 公司的首席执行官兼创始人阿维纳什·拉克希曼(Avinash Lakshman)说:“我们遇到的最大挑战就是,兼顾数据局部性与规模和效率。 ”数据局部性是指确保大数据集存储在执行分析任务的计算资源附近。对于 Hadoop来说,这就意味着管理数据节点(DataNode),而数据节点为 MapReduce 拥有足够好的性能提供了存储资源。它可以高效地工作,但是导致了另一个操作问题:大数据存储孤岛。本文介绍的这些要点有助于管理 Hadoop 环境中的大数据存储。1. 分散式存储集中式存储作为传统架构已有一段时间。但是大数据其实并不适合集中存储架构。Infogix 的金融服务行业(FSI)战略和运营经理森希尔·拉贾曼尼坎(Senthil Rajamanickam)表示,Hadoop 旨在让计算资源更接近数据,同时充分利用 HDFS 文件系统的大规模横向扩展功能。然而,解决 Hadoop 管理自有数据的低效问题的常见方法,一向是将 Hadoop 数据存储在 SAN 上。而这带来了性能和规模方面的一系列瓶颈。现在,你的所有数据都通过集中式 SAN 控制器来处理,而控制器破坏了 Hadoop 的分布式、并行化的特性。你需要为多个数据节点管理多个 SAN,或者将所有数据节点保存到一个 SAN 上。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn拉克希曼说:“由于 Hadoop 是一种分布式应用系统,它应该可以在分布式存储上运行,那样你的存储保持与 Hadoop 本身一样的弹性。这需要你积极采用软件定义存储方法,在商用服务器上运行,但是它比把 Hadoop 放在传统 SAN 或 NAS 技术上高效得多,因为后者给 Hadoop 造成了瓶颈。2. 超融合 vs 分布式不过要小心,别将超融合与分布式混为一谈。某些超融合方法是分布式的,但这个术语通常意味着你的应用程序和存储可以共同驻留在同一个计算节点上。解决数据局部性问题很诱人,但是这会造成严重的资源争夺现象。 Hadoop 应用和存储平台将争夺同样的内存和处理器资源。拉克希曼表示,最好在专用的应用层上运行 Hadoop,在专用的存储层中运行分布式存储,从而充分利用缓存和分层技术,以解决数据局部性和网络性能开销。3. 避免控制器阻塞点他强调了做到这一点的一个重要方面避免通过单一(或可能两个)点(比如传统控制器)来处理数据。通过改而确保存储平台并行化,就能显著提高性能。此外,这种方法提供了增量可扩展性。为数据湖添加容量就跟添加几台内置闪存或旋转磁盘的 x86 服务器一样简单。分布式存储平台可在必要时自动添加容量、重新均衡数据。4. 重复数据删除和压缩驾驭大数据的一个关键部分是重复数据删除和压缩。Hedvig 看到常见的大数据集可以缩减 70%-90%。在 PB 级规模下,这意味着可节省数万美元的磁盘成本。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn拉克希曼说:“现代平台提供了内联式(而不是处理后)重复数据删除和压缩。这意味着,如果不先以某种方式来缩减数据,数据永远不会进入到磁盘,这大大减少了存储数据所需的容量。 ”5. 整合 Hadoop 发行版许多大组织都有多个 Hadoop 发行版。可能是由于开发人员需要访问多个“版本” ,或者业务部门久而久之采用了不同的版本。不管怎样,IT 总部常常最终负责这些集群的日常维护和操作。大数据数量真正开始影响业务时,存在多个 Hadoop 发行版会导致效率低下。拉克希曼说:“你可以创建一个单一、经过重复数据删除的压缩数据湖,然后它可以为 Hadoop 的多个实例提供数据,从而获得数据效率。 ”6. 对 Hadoop 虚拟化处理虚拟化技术在企业界刮起了一场风暴。在许多地方,如今超过 80%的物理服务器已虚拟化。不过由于性能和数据局部性问题,许多人避免了对 Hadoop 进行虚拟化处理。拉克希曼说:“你可以对 Hadoop 或 Spark 进行虚拟化处理。 ”7. 构建弹性数据湖构建数据湖并非易事,但大数据存储的需求可能需要数据湖。有许多方法可以着手构建,可是哪一种才是合适的方法?合适的架构有望构建一个活跃、弹性的数据湖,可以存储来自所有数据源、采用多种格式的数据,包括结构化数据、非结构化数据和半结构化数据。更重要的是,它必须支持就在数据源处执行应用程序,而不是从远程源处执行,那光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn样需要移动数据。遗憾的是,传统的架构和应用程序(即非分布式)并不令人满意。由于数据集变得更庞大,必须将应用程序移到数据,而不是将数据移到应用程序,因为那样延迟太长。而有了 Hadoop/Spark,分析工作流变得更具破坏性了,因为数据和应用程序从不同的孤岛来执行,迫使数据移动并存储到多个平台上。日立公司大数据分析高级产品营销经理弗雷德·欧(Fred Oh)说:“理想的数据湖基础设施能够存储单一数据副本,并且让应用程序针对单一数据源执行,没必要移动数据或制作副本(比如在 Linux、虚拟机和 Hadoop 之间)。 ”8. 集成分析分析不是一种新的功能,多年来它就存在于传统的 RDBMS 环境中。不同之处在于,出现了基于开源的应用程序,以及能够将数据库表与社交媒体和非结构化数据源(比如维基百科)集成起来。关键在于,能够把多种类型和格式的数据集成为一种标准的数据,那样就能更轻松、更一致地完成可视化和报告。拥有完成这项工作的合适工具集是确保任何分析/商业智能项目成功的关键。欧说:“说到分析,重要的是要明白真正的挑战不在可视化,而在数据集成,尤其是集成来自多个数据源、采用多种格式的数据。一套全面的数据集成工具和基于 GUI 的集成控制台可以克服企业在大数据方面的挑战。 ”9. 大数据遇上大视频大数据够糟糕,大视频更是为这个现象添加了压力。比如说,企业日益使用视频监控,不仅仅出于安全性,还为了提高运营和工业效率,简化流量管理,支持监管合规及另外几种使用场合。很快,这些数据源会生成大量内容。那些要处理大视频的企业最好确光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn保为此建立了合适类别的数据存储系统,无论是不是基于 Hadoop。欧说:“这些应用程序正在带来大量的视频数据,要是没有合适的专用存储解决方案,这些数据会带来诸多问题,比如数据丢失和视频质量下降。 ”10. 没有赢家最近 Hadoop 无疑攻下了许多地盘。所以,随着数据存储量急剧增长,它会是最终赢家,击败其他所有方法吗?不太可能。比如说,由于 OLTP 方面的固有优点以及要求 100%的可用性,基于 SAN 的传统架构不会在近期被取代。但是如果需要分析以及与非结构化数据(比如社交媒体)集成,那么评估超融合平台就有引人入胜的理由,因为超融合平台将服务器计算、分布式文件系统、Hadoop/Spark 和更新颖的数据库应用软件与基于开源的分析工具整合起来。因此,最佳方法将超融合平台与分布式文件系统整合起来,并集成了分析软件。基于 Linux 的传统 RDBMS 应用(DWO 和数据市场等)可满足这个用途,Hadoop/Spark/MapReduce 则应对新的社交媒体挑战,使用服务器虚拟化提供了灵活性和效率。但是这每种环境都可能形成不同的数据孤岛。理想的方法就是同时支持这三种环境,并增添这种功能:可在数据源处执行应用程序,并减少分析工作流中的数据移动。欧说:“成功的关键在于实施的系统考虑到了可扩展性、分析集成和专业知识。最终,存储专业人员需要预料未来的要求,而不仅仅着眼于存储。 ”为什么大家选择为什么大家选择光环大数据光环大数据!光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/hadoop.aura.cn/http:/hadoop.aura.cn/手机报名链接:手机报名链接:http:/http:/ hadoop.aura.cnhadoop.aura.cn /mobile/mobile/

注意事项

本文(扩展Hadoop的十大要点汇总_光环大数据培训)为本站会员(gua****an)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

分享当前资源【扩展Hadoop的十大要点汇总_光环大数据培训】到朋友圈,您即可以免费下载此资源!
微信扫一扫分享到朋友圈
二维码
操作提示:任选上面一个二维码,打开微信,点击“发现”使用“扫一扫”,即可将选择的网页分享到朋友圈
您可能感兴趣的------------------------------------------------------------------------------------------------------



关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.