好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Google背后的分布式计算架构策略.doc

17页
  • 卖家[上传人]:枫**
  • 文档编号:442253821
  • 上传时间:2024-02-29
  • 文档格式:DOC
  • 文档大小:74.52KB
  • / 17 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • Google是与众不同的它的独特不仅仅表现于革新的思维和充满创意的应用 (比如那个大堂里的地球模型),更在于其有别常规的IT策略……   加利福尼亚州山景城(Mountain View)Google公司(Google,下称Google)总部有一个43号大楼,该建筑的中央大屏幕上显示着一个与Google地球(Google Earth)相仿的世界地图,一个转动的地球上不停地闪动着五颜六色的光点,恍如罗马宫廷的千万烛灯,每一次闪动标志着地球的这个角落一名Google用 户发起了一次新的搜索   这同时意味着Google又一次满足了人们对未知信息的好奇与渴望   Google是与众不同的它的独特不仅仅表现于革新的思维和充满创意的应用 (比如那个大堂里的地球模型),更在于其有别常规的IT策略从人们的常理来看,简单的硬件商品和免费软件是无法构建出一个帝国的,但是Google做到 了在性能调整后,Google把它们变成一个无可比拟的分布式计算平台,该平台能够支持大规模的搜索和不断涌现的新兴应用我们原本认为这些应用都是个 人消费级别的,但是Google改变了这一切现在商业世界也在使用它们,这就令这家搜索公司显得那么与众不同。

         GoogleWeb 服务背后的IT架构对无数使用搜索引擎的用户来说也许并不是非常重要,但它是Google几百位致力于把全球信息组织起来,实现“随处可达,随时可用”目 标的工程师们的最核心工作这就需要一个在覆盖范围和野心上都与Google的商业愿景完全相符的IT蓝图作为支撑   Google 的经理们一直对公司的IT策略话题保持沉默,他们厌恶谈及特定的厂商或者产品,当被问到他们的服务器和数据中心时,他们总是闭口不谈但与几位 Google的IT领导一起呆了一天后,我们最终得以揭示该公司的IT是如何运作的,那可不仅仅是一个运行在无数服务器集群上的、表面看来非常简单的搜索 引擎在其简单的外表下,蕴涵着许多内部研发软件、定制硬件、人工智能,以及对性能的执着追求和打破常规的人力管理模式   IT理念方面,Google对同行有一条建议:尽量避免那些人人都在使用的系统和软件,以自己的方式做事会更有独特的竞争优势   “企业文化决定了你的做事方式道格拉斯"美林(Douglas Merrill),这位Google工程副总裁和事实上的首席信息官(CIO) 指出,“到了我们这样的发展阶段,企业观念和文化非常与众不同,这也反过来鞭策我们必须要采用与众不同的方式来运行那些他人看来很常规的系统。

         Google 最大的IT优势在于它能建造出既富于性价比(并非廉价)又能承受极高负载的高性能系统因此IT顾问史蒂芬"阿诺德(Stephen Arnold)指出,Google与竞争对手,如亚马逊网站(Amazon)、电子港湾公司(eBay)、微软公司(Microsoft,下称微软)和雅 虎公司 (Yahoo,下称雅虎)等公司相比,具有更大的成本优势Google程序员的效率比其他Web公司同行们高出50%~100%,原因是Google已 经开发出了一整套专用于支持大规模并行系统编程的定制软件库据他估算,其他竞争公司可能要花上四倍的时间才能获得同等的效果   打造服务器   Google 究竟是怎样做到这点的呢?其中一个手段,美林认为,“是因为我们自己动手打造硬件Google并不制造计算机系统,但它根据自己的参数定制硬件,然后 像MTV的节目“靓车打造”(Pimp My Ride)那样自己安装和调整硬件系统开源程序经理克里斯"迪博纳(Chris DiBona)评论道:“我们很善于购买商业服务器,并且改造他们为我们所用,最后把性能压榨和发挥到极致,以致有时候他们热得像要融化了似的   这种亲手打造的方式,来源于Google从车库诞生时与生俱来的节俭风格,更与Google那超大型的系统规模息息相关,良好的习惯一直延续至 今。

      据说 Google在65个数据中心拥有20万~45万台服务器—这个数目会有偏差(取决于你如何定义服务器和由谁来做这项统计)但是,不变的是持续上升的趋 势   Google不会去讨论这些资产,因为它认为保密也是一种竞争优势事实上,Google之所以喜欢开源软件也是因为它的私密性如果我们购 买了软件许可或代码许可,人们只要对号入座,就可以猜出Google的IT基础架构迪博纳分析说, “使用开源软件,就使我们多了一条把握自己命运的途径   Google喜欢规模化的服务器运行方式当有成百上千台机器时,定制服务器的优势也会成倍增加,效果也会更趋明显Google正在俄勒冈州 哥伦比亚河边的达勒斯市建造一个占地30亩的数据中心,在那儿它可以获得运算和降温需要的低价水力电力能源(参见边栏《Google数据中心自有一套》)   Google以“单元”(Cell)的形式组织这些运行 Linux操作系统的服务器,迪博纳把这种形式比喻成互联网服务的“磁盘驱动器”(但别和一直谣传的Google存储服务Gdrive混淆了,“并没有 Gdrive这回事一位Google女发言人明确表示),公司的软件程序都驻扎在这些并不昂贵的电脑机箱里,由程序员决定它们的冗余工作量。

      这种由 很多单元组成的文件系统代替了商业存储设备;迪博纳表示Google这些单元设备更易于建造和维护,他还暗示他们能处理更大规模的数据   Google 不会漏过对任何技术细节的关注多年来,公司的工程师就在研究微处理器的内部工作机制,随着Google规模的持续壮大,必然会用到特别定制和调节过的芯 片知名工程师路易斯"巴罗索(Luiz Barroso)去年在一篇发表在工业杂志上的论文中证实,近年来Google的主要负荷都由单核设计的系统承担着但许多服务器端的应用,如 Google搜索索引服务,所需的并行计算在单核芯片的指令级别上执行得并不好   曾在数据设备公司(Digital Equipment)和康柏公司(Compaq)当过芯片设计师的巴罗索认为,随着AMD公司、英特尔公司(Intel)、太阳计算机系统公司(Sun)开始制造多核芯片,必将会出现越来越多芯片级别的并行计算   Google 也曾考虑过自己制造计算机芯片,但从业界潮流来看,这个冒险的举动似乎不是很必要微处理器的设计非常复杂而且成本昂贵,”运营高级副总裁乌尔斯"霍尔 茨勒(Urs Holzle)表示Google宁愿与芯片制造商合作,让他们去理解自己的应用并设计适合的芯片。

      这是一种客户建议式的设计,其关注点在于总体吞吐量、 效能,以及耗电比,而不是看单线程的峰值性能霍尔茨勒表示,“这也是最近多核CPU的设计潮流与未来方向 裁缝般地定制软件   为了能尽量压榨硬件性能,Google开发了相当数量的定制软件创新产品主要包括用于简化处理和创建大规模数据集的编程模型 MapReduce;用于存储和管理大规模数据的系统BigTable;分析分布式运算环境中大规模数据集的解释编程语言Sawzall;用于数据密集型 应用的分布式文件系统的 “Google文件系统”(Google File System);还有为处理分布式系统队列分组和任务调度的“Google工作队列”(Google Workqueue)   正是从Sawzall这些工具里体现出Google对计算效率的执著关注并不是每家公司都能从底层去解决效率问题,但是对Google来说, 为常规关系型数据库无法容纳的大规模数据集专门设计一种编程语言是完全合理的即使其他编程工具可以解决问题,Google的工程师们仍然会为了追求效率 而另外开发一套定制方案Google工程师认为,Sawzall能与C++中的MapReduce相媲美,而且它更容易编写一些。

         Google 对效率的关注使它不可能对标准Linux内核感到满意;Google会根据自己的需要运行修改过的内核版本通过调整Linux的底层性能,Google 工程师们在提高了整体系统可靠性的基础上,还一并解决了数据损坏和数据瓶颈等一系列棘手问题对内核的修改也使Google的计算机集群系统因为通信效率 的提高而运行得更快   当然,Google偶尔也会出现系统故障,情况一旦发生,无数的用户就会受到影响了三年前一次持续30分钟的系统故障使20%的搜索流量受到影响   Google 开发了自己的网站服务器却没有使用开源的Apache服务器,尽管它在网站服务器的市场占有率超过60%迪博纳认为,Google的网站服务器可以运行 在更多数量的主机上,对Google站点上内容庞大又彼此互相依赖的应用程序来说,这种服务器的负载均衡能力远比Apache的能力更高同时,在用标准 公共网关接口(CGI)访问数据库动态网页方面,Google服务器的编程难度要比 Apache更高,但是最终运行速度却更快如果我们能够压榨出10%~20%的性能,我们就可以节省出更多系统资源、电量和人力了迪博纳在总结中 指出   Google还设计了自己的客户关系管理(CRM)系统用于支持自己基于竞价和点击的互联网广告收费业务。

      但对是否需要设计自己的工具,Google的态度也不是一成不变的比如在财会软件上,它就使用了甲骨文公司(Oracle)的Financials软件   美林拿着一只叉子举例说明现成的产品也可以带来价值但在有些场合现成的软件产品就不一定适用了我们的文化在各个层面对我们的运作都有深远影响,”他表示,“所以我们不想让购买所得的工具改变我们的工作方式和文化层面 Google's BigTable 原理 (翻译)     题记:google 的成功除了一个个出色的创意外,还因为有 Jeff Dean 这样的软件架构天才                                                   ------ 编者 官方的 Google Reader blog 中有对BigTable 的解释这是Google 内部开发的一个用来处理大数据量的系统这种系统适合处理半结构化的数据比如 RSS 数据源 以下发言  是 Andrew Hitchcock  在 2005 年10月18号 基于: Google 的工程师 Jeff Dean 在华盛顿大学的一次谈话 (Creative Commons License). 首先,BigTable 从 2004 年初就开始研发了,到现在为止已经用了将近8个月。

      2005年2月)目前大概有100个左右的服务使用BigTable,比如: Print,Search History,Maps和 orkut根据Google的一贯做法,内部开发的BigTable是为跑在廉价的PC机上设计的BigTable 让Google在提供新服务时的运行成本降低,最大限度地利用了计算能力BigTable 是建立在 GFS ,Scheduler ,Lock Service 和 MapReduce 之上的 每个Table都是一个多维的稀疏图 sparse mapTable 由行和列组成,并且每个存储单元 cell 都有一个时间戳在不同的时间对同一个存储单元cell有多份拷贝,这样就可以记录数据的变动情况在他的例子中,行是URLs ,列可以定义一个名字,比如:contentsContents 字段就可以存储文件的数据或者列名是:”language”,可以存储一个“EN”的语言代码字符串 为了管理巨大的Table,把Table根据行分割,这些分割后的数据统称为:Tablets每 个Tablets大概有 100-200 MB,每个机器存储100个左右的 Tablets底层的架构是:GFS。

      由于GFS是一种分布式的文件系统,采用Tablets的机制后,可以获得很。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.