
业务连续性计划.doc
21页Business Continuity Planning,缩写为BCP) 业务连续性计划概述 业务连续性计划是一套基于业务运营规律的管理规定和规章流程,使一个组织在突发事件面前可以迅速作出反映,以保证关键业务功能可以连续,而不导致业务中断或业务流程本质的改变 业务连续性是指公司有应对风险、自动调整和快速反映的能力,以保证公司业务的连续运转为公司重要应用和流程提供业务连续性应当涉及以下三个方面 1.高可用性(High availability) 它是指提供在本地故障情况下,能继续访问应用的能力无论这个故障是业务流程、物理设施,还是IT软硬件故障 2.连续操作(Continuous operations) 它是指当所有设备无端障时保持业务连续运营的能力用户不需要仅仅由于正常的备份或维护而需要停止应用的能力 3.劫难恢复(Disaster Recovery)它是指当劫难破坏生产中心时,在不同的地点恢复数据的能力 同时,上述三个部分不是互相孤立的,是互相关联,并且有交叉的 区分业务连续性和劫难恢复是很必要的严格地说,劫难恢复是恢复数据的能力,是业务连续性计划的一部分 让业务连续性计划成为公司变化管理文化的一部分。
在制定公司业务连续性计划之后,不要把这个计划放在一边要保证该计划的切实可行,就需要把它变成活动的文档假如公司的业务模式发生了变化,或是业务过程进行了重新设计,或是发生突发状况时的重要联系人不再为公司工作,旧的计划就需要及时进行更新当有变化时,每个员工都应当问问自己该变化会对业务连续性计划中涉及到自己的部分会产生如何的影响 业务连续性计划的重要性 现在的社会特别是经济社会对网络的依赖日益加深,传统的备份恢复式安全计划已经无法保证公司业务的连续运营 业务连续性计划正是因此而生,它根据业务流程而非针对技术进行制订,有助于建立起更具统筹能力的安全管理制度据Gartner Group的调查结果显示,假如公司的大型数据中心和信息基础设施停止运营10日以上,超过百分之三十的公司在一个季度内倒闭,而接近90%的公司在一年内倒闭 这些数据说明了保证业务连续有效的运营对公司来说是多么重要,同时也可以看出公司花费大量的资金于业务连续性计划最核心的因素 业务连续性计划的基本要素BCP的基本要素 笼统地说,BCP的目的只有一个,那就是拟定并减少危险也许带来的损失,有效地保障业务的连续性而有关BCP的一些特定目的我们将在以下各个部分中加以描述。
BCP实行的最终结果是: · 一组防范危险的评测指标; · 一支执行团队,在通过培训后可以解决各种危险事件; · 一套计划,提供危险发生时的路线图该计划应当是充足和完备的,必须具体贯彻到该计划实行范围内的每一个单位、人员或设备 每个公司所制定的BCP都应当有每个公司或者所处行业独有的特色,彼此之间不会完全一致,但大体上说来,一个完备的BCP重要是由以下一些关键部分构成的: 一、 危险评估 危险评估就是结识并分析各种潜在危险的结果这些危险的来源也许是: · 各种区域性的天然劫难,如洪水、地震、疫病等; · 人为事故或蓄意破坏导致的严重劫难,如火灾、恐怖主义袭击等; · 安全威胁、硬件、网络或通信故障; · 劫难性的应用系统错误 所有的危险都应纳入公司的危险评估范围,并且应对各种危险的也许来源地进行较准确的定位对于每一种危险的来源都应当结识到: · 危险的类型; · 危险的限度; · 危险发生的也许性 比如说,假如按照有无警示性先兆来分,各类危险还可以分为: · 有些危险也许没有任何先兆而忽然发生,无法事先防范; · 有些危险可以有一定的先兆,可以迅速启动应急计划加以防范,比如疫病的传播; · 有些危险也许历来不会发生。
假如按照危险的破环类型或限度来分,它们对业务的影响可以分为: · 经营场合及设备完全破环; · 经营场合及设备部分破环; · 经营场合及设备完好,但人员不能进入,比如疫病的隔离、恐怖威胁导致的人员输散等 显然,对于公司来说,一个完备的BCP必须尽也许多地考虑到所有也许的危险情况,只有解决劫难性事件的计划而没有解决应用系统失误的计划,这样的BCP是不完备的;反之亦然 公司所制定的BCP应当同时兼顾两个方面——防止和控制例如,人为事故和蓄意破坏可以通过物理安全和个人行为的评测来防止而应用系统的错误则可以通过对软件的有效评测与测试来防止 危险评估的最后结果应当是一份有关危险效益分析的具体陈述报告,要有对危险的精确描述、哪些危险也许发生,以及需要采用的保障业务连续性和缓和危险的措施,同时要有由于克服了危险而带来的收益分析这份报告还应当描述清楚任何现有的前提或者限制因素 二、 业务影响分析(BIA) 业务影响分析(Business Impact Analysis)实质上就是对关键性的公司功能、以及当这些功能一旦失去作用时也许导致的损失和影响的分析 对于公司业务运营的关键人员来说,他们需要分析: A. 影响 · 哪种功能对于公司的整体战略而言是生死攸关的 · 该功能在多长时间内失效不会导致影响和损失 · 公司的其他业务功能由于该功能的失效会受到何种影响——运营影响分析 · 该功能的失效也许导致的收入影响——财务影响分析 · 该功能是否会对客户关系导致影响——客户信心的损失 · 该功能是否会对市场份额导致影响——市场占有率的下滑 · 该功能是否会对公司在行业中的地位导致影响——公司竞争力的损失 · 该功能是否会影响此后的销售——机会的丧失 · 什么是最大的/可承受的/可允许的失效 B. 业务恢复需求 · 要使该功能连续,需要哪些资源和数据纪录 · 最少的资源需求是什么 · 哪些资源也许来自公司外部 · 它与公司其他功能的依赖关系以及依赖限度 · 公司的其他功能与该功能的依赖关系以及依赖限度 · 该功能与公司的外部业务/供应商/其他厂商的依赖关系以及依赖限度 · 在缺少实验环境的情况下进行恢复,需要采用如何的防止措施或检查手段 在进行了这些分析之后,才有也许对公司的各种功能进行分类: a)关键功能——假如这类功能被中断或失效,就会彻底危及公司的业务并导致严重损失。
b)基础功能——这些功能一旦失效将会严重影响公司长期运营的能力 c)必要功能——公司可以继续运营,但这些功能的失效会在很大限度上限制公司的效率 d)有利功能——这些功能对公司是有利的;但它们的缺失不会影响公司的运营能力 根据各种功能的恢复需求,公司便可为上述各类功能制定标准的恢复时间架构例如,关键功能<1天;基础功能:2~4天;必要功能:5~7天;有利功能:>10天 影响分析可以帮助公司拟定各类业务功能的优先顺序,换句话说,也就拟定了各业务功能的优先恢复顺序 BIA有助于定义恢复对象在进行了影响分析之后也许会发现,在一次劫难之后恢复业务运营时,一方面恢复部分功能就足够了,比如说在24小时内先恢复平常业务的40%就够了 具体定义好在劫难或业务中断之后保障业务功能运营的资源需求也是也许的这些资源需求涉及基础设施、人力资源、文档、记录、设备、、机等,无论需要什么资源都要有完备的规范规定拥有适当的细节规定是非常重要的,由于在危险事件发生时,会产生一定限度的慌乱,到那时再决定这类细节已经不也许了 成本因素在进行影响分析时也是不能忽略的我们需要记住以下一些事项: · 收入的损失和商机的丧失与恢复所需的时间直接成正比 · 一种恢复策略的成本与恢复所需的时间成反比 · 也许的恢复策略的成本必须和在采纳该策略之前由于业务功能中断而导致的实际损失进行比较。
假如所建议的恢复策略的成本远高于预计的成本,那么这种策略就是不可取的 三、 策略 BCP应涉及以下策略: A.防止 防止的目的在于减少劫难发生的也许性有关防止的策略应当涉及制止和防止控制制止控制可以减少危险的也许性防止控制则是保护公司的弱点区域,以防御危险的发生并减少其影响这两类控制在实际运营中广泛存在,比如经营场合的安全、人员控制、相关基础设施(如UPS、后备电池、烟火探测器、灭火器等)、软件控制、相关的存储和恢复等 公司希望保障其资源(涉及信息资产)的可用性和安全性,其安全策略必须针对这些对象而制定,并且提供有关资源使用和管理的指南在熟悉了公司的所有资源、资源的布局以及危险管理等之后,才也许拿出实行安全策略所需的必要的控制措施这些控制措施或安全举措必须时时加以检查和测试 假如一种安全策略,能将防止措施都部署到位,可以监控对系统的入侵并防范那些试图破坏系统的行为,那么其自身就是一种制止控制防止计划的执行必须小心谨慎必须保证实行安全策略时既不能对平常业务带来限制,出现瓶颈,也不能引起可用性问题,或者给系统的访问和使用带来障碍 B.响应 响应就是当危险发生时的反映。
它必须可以阻止危险的进一步扩大,评估危险的限度,通过与外部世界的正常通信联络挽回公司的声誉,并启动必要的恢复时间表 对业务中断的第一反映应当是告知所有相关的人员假如危险有事前警示的话(比如这次的非典爆发),那么这种告知就可以提前进行及时的告知非常重要,由于这也许会给阻止危险的进一步扩大发明机会假如在适当的时机执行一次关机、一次转换或者一次撤离,甚至有也许完全防止危险的发生但是这需要有诊断或探测控制的存在这类控制或者可以连续扫描以探测发生中断的征候(网络、服务器),或者可以从外部资源搜集信息(自然灾害) 准确的告知程序必须事先制定好必须清楚地记录在案:需要告知谁,如何告知,由谁告知,并且还得有逐步扩大的机制 在BCP中必须设立好一棵告知树最初的告知发送给一组人,然后再由他们中的每个人去告知另一组人,依次类推属于这棵告知树的人都有不同的责任和作用,所涉及的人员应涉及: · 管理团队——需要获得有关危险发展状况的信息该团队有权力启动紧急响应体系和下一步的行动管理团队还要负责与媒体、公众、客户以及股东们打交道 · 危险评估团队——需要立刻对危险进行评估,评价业务中断的严重限度 · 技术团队——应当为关键决策制定者如何采用下一步BCP行动提供服务。
· 运营团队——应当执行BCP的实际运作 尚有很重要的一点就是每一个团队都应明确第二负责人万一第一负责人没有告知到或者无法负起责任,那么必须告知第二负责人告知可以使用各种工具或手段:如、呼机、短信、和E-mail每个团队都应当有相应的配备 危险评估团队应当是最早(或者与管理团队同时)被告知的他们应当最早来到现场,以便评估所遭受的危险限度和级别假如工作现场已经遭到破坏,那么他们就应当做好各项准备,一旦允许进入现场就开始工作 评估过程自身也应有计划地进行,必须与保障业务连续性的优先顺序密切相关这就是说评估团队应当意识到危险所影响到的工作区域和工作流程是否对整个业务的运营至关重要这将有助于他们优化其评估进程,同时也可对的地关注关键性工作区域这支团队需要察看以下事项: · 中断的因素是什么 · 阻止危险扩大的前景如何 · 基础设施和设备受损情况 · 业务受影响状况 · 关键记录受损情况 · 可以挽回什么损失 · 什么设备需要修理、恢复和更换 有了危险评估团队提供的有关受损限度和受损区域的详尽信息,技术团队便可立刻投入工作 BCP必须。
