光环大数据分享 分布式计算开源框架Hadoop入门实践_光环大数据培训
5页1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/光环大数据分享光环大数据分享 分布式计算开源框架分布式计算开源框架 HadoopHadoop 入门实践入门实践_ _光环大数据培训光环大数据培训光环大数据培训光环大数据培训认为,在 SIP 项目设计的过程中,对于它庞大的日志在开始 时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章 Tiger Concurrent Practice -日志分析并行分解设计与实现中有所提到。 但是由于统计的内容暂时还是十分简单,所以就采用 Memcache 作为计数器,结 合 MySQL 就完成了访问控制以及统计的工作。然而未来,对于海量日志分析的 工作,还是需要有所准备。现在最火的技术词汇莫过于“云计算”,在 Open API 日益盛行的今天,互联网应用的数据将会越来越有价值,如何去分析这些 数据,挖掘其内在价值,就需要分布式计算来支撑海量数据的分析工作。回过头来看,早先那种多线程,多任务分解的日志分析设计,其实是分布 式计算的一个单机版缩略,如何将这种单机的工作进行分拆,变成协同
2、工作的 集群,其实就是分布式计算框架设计所涉及的。在去年参加 BEA 大会的时候, BEA 和 VMWare 合作采用虚拟机来构建集群,无非就是希望使得计算机硬件能够 类似于应用程序中资源池的资源,使用者无需关心资源的分配情况,从而最大 化了硬件资源的使用价值。分布式计算也是如此,具体的计算任务交由哪一台 机器执行,执行后由谁来汇总,这都由分布式框架的 Master 来抉择,而使用者 只需简单地将待分析内容提供给分布式计算系统作为输入,就可以得到分布式 计算后的结果。hadoop 是 Apache 开源组织的一个分布式计算开源框架,在很多大型网站 上都已经得到了应用,如亚马逊、Facebook 和 Yahoo 等等。对于我来说,最近 的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大, 而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场 景)。当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关内容, 都是一个新手的学习过程,难免会有一些错误,只是希望记录下来可以分享给 更多志同道合的朋友。什么是什么是 Hadoop?Hadoop?搞什么东西
3、之前,第一步是要知道 What(是什么),然后是 Why(为什么), 最后才是 How(怎么做)。但很多开发的朋友在做了多年项目以后,都习惯是先 How,然后 What,最后才是 Why,这样只会让自己变得浮躁,同时往往会将技术 误用于不适合的场景。Hadoop 框架中最核心的设计就是:MapReduce 和 HDFS。MapReduce 的思想 是由 Google 的一篇论文所提及而被广为流传的,简单的一句话解释 MapReduce光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/就是“任务的分解与结果的汇总”。HDFS 是 Hadoop 分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。MapReduce 从它名字上来看就大致可以看出个缘由,两个动词 Map 和 Reduce,“Map(展开)”就是将一个任务分解成为多个任务,“Reduce”就是将 分解后多任务处理的结果汇总起来,得出最后的分析结果。这不是什么新思想, 其实在前面提到的多线程,多任务的设计就可
4、以找到这种思想的影子。不论是 现实社会,还是在程序设计中,一项工作往往可以被拆分成为多个任务,任务 之间的关系可以分为两种:一种是不相关的任务,可以并行执行;另一种是任务 之间有相互的依赖,先后顺序不能够颠倒,这类任务是无法并行处理的。回到 大学时期,教授上课时让大家去分析关键路径,无非就是找最省时的任务分解 执行方式。在分布式系统中,机器集群就可以看作硬件资源池,将并行的任务 拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,同时 这种资源无关性,对于计算集群的扩展无疑提供了最好的设计保证。(其实我一 直认为 Hadoop 的卡通图标不应该是一个小象,应该是蚂蚁,分布式计算就好比 蚂蚁吃大象,廉价的机器群可以匹敌任何高性能的计算机,纵向扩展的曲线始 终敌不过横向扩展的斜线)。任务分解处理以后,那就需要将处理以后的结果再 汇总起来,这就是 Reduce 要做的工作。上图就是 MapReduce 大致的结构图,在 Map 前还可能会对输入的数据有 Split(分割)的过程,保证任务并行效率,在 Map 之后还会有 Shuffle(混合)的 过程,对于提高 Reduce 的效
《光环大数据分享 分布式计算开源框架Hadoop入门实践_光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《光环大数据分享 分布式计算开源框架Hadoop入门实践_光环大数据培训》请在金锄头文库上搜索。
做运营60%靠思维,40%靠经验,你的思维跟得上吗_光环大数据培训
长沙BI大数据培训_BI大数据工程师需要具备哪些高薪技能_光环大数据培训
智慧交通大数据平台搭建过程及应用案例_光环大数据培训
在DevOps中以API看待共享数据库_光环大数据培训
怎样才能成为一个高级Java工程师 —光环java培训机构
这可能是一篇数据化运营的大纲_光环大数据培训
自学大数据能找到工作吗_光环大数据培训
长沙大数据公司有哪些 参加大数据培训有钱途吗_光环大数据培训
中国大数据成熟盈利模型尚未建立_光环大数据培训
针对 MySQL 大规模数据库的性能和伸缩性的优化_光环大数据培训
怎样做数据分析_数据分析方法大全
怎么学习数据分析_数据分析软件汇总
怎样成为数据分析师_光环数据分析师培训
在大数据迅猛发展的今天隐私保护成了难题_光环大数据推出AI智客计划送2000助学金
长沙cpda数据分析培训_cpda考试流程
运营之道,千变万化,存乎一心_光环大数据培训
在Hadoop上运行Docker容器的六大陷阱_光环大数据培训
云计算平台点兵 谁在用AWS 谁在用Azure_光环大数据培训
自学java编程语言和参加java培训哪个更有前途—光环java培训机构
最用心的运营数据指标解读_光环大数据培训
2023-07-25 4页
2023-06-16 11页
2023-09-24 42页
2024-03-26 10页
2022-09-26 3页
2023-05-28 3页
2023-03-13 55页
2023-06-13 11页
2023-05-25 4页
2024-02-28 7页