电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Hadoop 大数据应用新认知_光环大数据培训

6页
  • 卖家[上传人]:gua****an
  • 文档编号:49596483
  • 上传时间:2018-07-31
  • 文档格式:DOCX
  • 文档大小:47.39KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/HadoopHadoop 大数据应用新认知大数据应用新认知_ _光环大数据培训光环大数据培训前不久,有机会再次见到 hadoop 之父-Doug Cutting 先生,与 2014 年见 面稍有不同的是,这次 Doug Cutting 先生身份变为了 Cloudera 首席架构师。 结合 Hadoop、大数据和人工智能等热点,对他进行了深入采访。问:作为 Hadoop 创始人,请您回顾一下 Hadoop 历史和初衷?Doug Cutting : 创建 Hadoop 的时候,当时我正在做一个项目,这个项目 的代号叫 Nutch。当时希望能够基于开源去创建出一种网络搜索的引擎,实现 一种具有可扩展性、可收缩性的数据技术。同期我看到了来自于 Google 的几篇论文,我觉得他们的想法和我们的想法 是完全一致的,所以我们把 Google 的想法放到了 Nutch 项目当中来实施了。当 时我是个人有这样的一个需要,就是要做好手上的项目,当时我确实是没有预 想到一旦创建出来这个技术以后,它具

      2、有如此之广的用途,没有预见到它在制 造、银行、电信等很多行业的价值。这让我感觉到非常惊喜。问:如今 Hadoop 的进展,有没有和最初设想不太一样的地方?Doug Cutting : 当初也没有一个关于 Hadoop 将来如何发展的计划, Hadoop 发展的演进范围、规模大大超出了我当初的预想。而且最让我惊喜的就 是围绕着 Hadoop 以及基于 Hadoop 所有的项目和技术,并不是基于某一个单独 的技术。而是基于多种技术组成的系列家族,整个技术系列是在不断发展和演 进之中,也就是说围绕着 Hadoop 现在已经形成了非常强大的生态系统,Hadoop 整体生态系统的演进和发展并不受制于其中的任何一种组成的技术。问: Hadoop 常常和大数据联系在一起,和人工智能也有关联吗?Doug Cutting : 我觉得 Hadoop 和 AI 之间是非常适合、非常匹配的一项 技术,因为 AI 本身就是一种大数据的应用。特别对于 AI 系统进行训练的时候,使用的数据越多,AI 系统就越先进。 上周 Google 发表了一篇文章,主要讲的是基于 AI 的图像识别,也就是说,在 用数以十亿计的图

      3、像识别的深度智能系统培训基础之上,图像越多,识别能力 就越强。因此,从这个意义上来说,AI 就是一种大数据应用。问:如何看待 Hadoop 和开源软件之间的演变关系?光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Doug Cutting:Hadoop 作为一项基础仍然是在发挥着关键作用,与此同时 spark 对于像 IoT 和 AI 的应用,也在起到越来越重要的作用。除此之外,我们也会看到新的技术会涌现出来,这样能够使得开源的整个 生态系统进一步得到发展和改进。这对于整个开源的生态系统来说是一件好事, 比方说如果有了更好的存储技术或者是更好的分析技术,毫无疑问 Cloudera 会 采用这些技术。因为在开源的世界当中,竞争的逻辑是不一样的,没有哪个公 司是拥有开源的技术。每当开源的技术有了新的发明或进展,开源群体的每一 分子都会受益于其中。比方说如果在有一些领域会出现新的技术,在某些方面 会优于 Hadoop,那 Cloudera 也会毫无疑问去采纳这样的技术放到我们的解决 方案当中去交付给客户,例如 kudu,它是一个非常强

      4、大的存储引擎,它既具备 了像 Hbase 的随机访问能力,同时又具有 HDFS 快速查询能力,两者兼而有之。 再例如 Kafka,它有很强的实时应用支持能力和流处理能力,Cloudera 已经把 这两个技术采纳到平台当中,更好地满足需求。另外我们也在构建一些更多基于 Spark 机器学习的工具,与之相关的有一 个项目叫 Apache Spot,它帮助我们的客户保护他们的网络安全,免遭黑客的 攻击,这是我们在 Hadoop 和 Spark 基础之上的进一步发展。问:对于 Hadoop 分布式存储来说,在处理速度、网络延时和成本几个要素 之间如何取得比较好的平衡?Doug Cutting:在很多案例当中,我们看到处理器很多但也能够做到低延 迟,关键在于对于要处理的问、处理任务怎样划分,比如通过 Hbase 或通过很 多交互式的系统像 Solr 搜索,在节点越多的情况下反而能降低延迟,这是因 为任务处理有很好的并行性。可以说现在大部分情况下,节点的数量或处理器 的数量和延迟之间的平衡是不难找到的。接下来就要讲成本,成本确实是一个考虑因素,首先我们的软件是开源的, 而且我们所有解决方案能够使用

      5、普通的商用硬件,所以和上一代相比成本有大 幅度降低。而且我们认为今天这种低成本的架构是可以去运行很多其他的应用, 只不过有很多其他的应用暂时还没有用上低成本的架构,还有进一步降低成本 的潜力。问:Cloudera 在 Hadoop、Spark 领域竞争的优势是什么?Doug Cutting :首先 IBM、微软等几家 ISV 对于 Hadoop 也是大力支持的, 比方说微软是 Cloudera 的合作伙伴,Oracle 是 Cloudera 的分销商。而且我们 看到在大数据领域,采用最多的还是开源的系统。尽管在亚马逊、微软和谷歌的云平台之上会有一些用户,他们的大数据应 用使用的是专有的商用软件服务。但是我认为假以时日,这些客户会再次认识 到在云中使用开源的大数据解决方案,具备成本更低、质量更高的优势,因为光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/使用开源的解决方案使客户可以在不同的云环境之间自由迁移。将来如果有这 样的必要性,可以选择把这个软件本地安装来使用。迄今为止,这些在大数据领域的商业或者专有软件对 Cloudera

      6、 来说,我认 为并构成威胁。问:如何看待 Hadoop 和云计算的关系?Doug Cutting:云计算或云模式使得客户在使用 Hadoop 的方式上具有了更 大的灵活性,比方说他们可以在云环境中来使用 Hadoop。如果他们把 Hadoop 用本地安装运行的形式来使用的话,他们往往是建一个单个很大的集群来支持 各种不同的应用,并且拥有一个统一的数据拷贝。如果在云环境当中来运行 Hadoop,他们的数据会在亚马逊存储之类的系统当中,云环境供应商已经帮助 他们管理了数据的拷贝。在云环境当中使用 Hadoop,客户可以针对不同的应用创建应用不同的集群, 而这样的集群开关或者是规模的伸缩,都可以按需进行,这样对于客户来说, 可以实现更好控制和灵活性。我们从整个 IT 长远的发展趋势来看,过去 IT 在一个企业当中往往是集中 在一个部门的手中,但是现在我们看到很多的企业的数据和数字技术,是在整 个企业当中得到了扩散和广泛使用,并不是所有 IT 的事项像过去一样要找 IT 部门解决,各个非 IT 的部门具有越来越大的能力,在 IT 方面进行自我管理、 自我服务,也有越来越多的工具能够帮助他们做到

      7、这一点。而云计算是促进和 推动了这一趋势的发展,由于有云计算使得一个公司当中非 IT 部门,例如运营、 制造、市场营销部门都能够自行采购一些服务并且加以运行,他们的控制能力 和灵活性都大大增加了。云计算本身也是促进了 IT 和数据的分散化、自助化,而不是像过去那种集 中化的模式。问:有数据专家现在趋向于把 Hadoop 当作数据仓库架构的补充,请问您是 怎么理解的?对于有一些数据量极小的应用, Hadoop 会是杀鸡用牛刀吗?Doug Cutting:我们是可以把整个数据仓库都建立在 Hadoop 之上的。五年 前我们和 Ralph Kimball 博士,他是数据仓库架构主要的创建人,一起搞清楚 了,也是证实了可以完全基于 Hadoop 来建立数据仓库。而且也有很多用户确实 是把他们的数据仓库完全建立在 Hadoop 的基础之上。当然就建立数据仓库的技术而言,有其他的一些技术或者是工具,和 Hadoop 相比,这些存在的年头更长,可能已经有了数十年的历史。而事实上对 于这些时间更加长久的技术,Hadoop 并没有能够具备其中所有的功能、所有的 性能。但即使如此,很多用户选择把他们的数据

      8、仓库构建在 Hadoop 的架构之上,光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/他们是为了能够实现更加优越的可扩展性、更高的性价比,以及更好的灵活性。就第二个问而言,是不是杀鸡用牛刀,这主要看用户完成任务当中需要使 用什么样的工具。有的时候也许在规模上、在扩展性上是超出了需求,但是仍 然能够带来灵活性的优势。比方说使用基于 Spark 的机器学习的工具。在这些 情况下,用户仍然发现 Hadoop 的平台对于完成他们的任务非常有用,虽然他的 规模可能是过大的。当然我们讲的也很清楚,我们并不认为 Hadoop 是一种通用 的工具能够解决所有的问。在实际应用中,即使是规模很小的集群,比方说 5 个节点的集群,客户也 发现使用 Hadoop 与其他技术选项相比能够产生更好的产出,带来更多的价值与 竞争。问:对于大数据应用发展的速度,您感觉满意吗?Doug Cutting:整个大数据的发展是在非常早期的阶段,而且大数据是保 持着稳步持续地增长。我们看到很多公司在自己的大数据项目上都取得了成功, 虽然目前这些大数据的项目规模还比较小,

      9、就大数据解决方案而言,我们的大 数据解决方案客户的也是也是在稳步增长,他们用于大数据解决方案集群的规 模也是在稳步增长。至少自从 Cloudera 诞生以来,我们看到整个的数据的应用 是处在稳步增长的曲线之中,而并没有出现停滞不前或者是失去动力的情况。大数据已经很成功应用在很多领域,像金融反欺诈应用,在医疗领域,大 数据也已经有了很多成功案例,比方说美国有一家公司 Cerner 开发了一套大数 据系统,主要是来判断患者有可能发生败血症的情况。目前通过 Cerner 已经对 几百名有产生败血症风险的患者先期采取措施进行了治疗,预防了败血症的发 生,这就是一个非常成功的案例。在癌症治疗方面,大数据的应用也在取得很多的进展,比方说主要是在基 因组学的研究方面,在取得治疗癌症方面的进展。举一个例子,加州大学的旧 金山分校,他们做的大数据项目就是通过基因组的分析来找到癌细胞、肿瘤细 胞突变的原因,并且来匹配相应的疗法。他们用这样的基于大数据的解决方案, 已经开始对一些患者治疗。虽然接受这种治疗方法的患者人数不是太多,因为 目前这种治疗方法的价格还是非常昂贵,但是价格是在逐渐下降当中的。即使 用大数据的解决方案治疗癌症,我们也是在取得很大的进步。只是治疗癌症是一个很大的难题,我们可能还要花几十年的时间。但是我 确信未来癌症的治疗肯定是要基于大数据系统。简而言之,大数据应用的普及是一个长期的过程,应该让每一家公司、每 一个组织机构都能光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/

      《Hadoop 大数据应用新认知_光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《Hadoop 大数据应用新认知_光环大数据培训》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.