
数据中心老旧设备风险评估模型研究与实践.docx
10页数据中心老旧设备风险评估模型研究与实践当前,传统大型数据中心由于云化程度缺乏、基础设施 与应用系统耦合度高等原因,每年都产生大量到龄老旧设备, 不仅降低了数据中心的能效水平,也为应用系统稳定运行带 来了平安隐患对此,本文结合设备特点提出了老旧设备风 险评估模型,并针对不同设备风险级别提出了应对策略近年来,随着数字化转型的逐步深入,数据中心成为数 字化、网络化、智能化等重点产业技术及其应用的重要载体 同时,在国家层面也大力支持数据中心实现高质量开展,四 部委联合印发《全国一体化大数据中心协同创新体系算力枢 纽实施方案》,要求加强绿色数据中心建设,强化节能降耗, 加快推动老旧基础设施转型升级然而,对于传统大型数据 中心而言,由于云化程度缺乏、基础设施与应用系统耦合度 高等原因,每年均会产生大量的到龄老旧设备,不仅降低了 数据中心的能效水平,也给应用系统稳定运行带来了平安隐 患在此背景下,如何高效利用有限资源,实现企业数字化 对措施,同时优先开展高风险级别老旧设备的下线工作,而 同风险级别那么优先考虑风险值较高的设备例如,对于高风 险级别的设备,责任方应在1个月内制定下线方案,在6个 月内完成工程实施。
对于中风险级别的设备,责任方应在1 个月内制定设备下线方案,在1年内完成工程实施对于低 风险级别的设备,责任方应结合设备承载系统、设备性能等 进行设备鉴定,之后再决定是否需要下线除此之外,老旧 设备下线前,设备及系统责任方均应完善应急预案,保障系 统稳定运行,且在无法按时制定实施计划或完成设备下线时 应提高审批层级,最终在通过群体决策后,再暂缓该设备在 本周期内的下线工作三、结论与展望实际工作中,笔者提出的老旧设备风险评估模型已经在 某金融数据中心开展了试运行经模型测算,该数据中心大 多数设备因承载的业务系统等级低、超龄时间较短(1〜3年), 评估结果为设备风险较低,可在责任方进行设备鉴定后再确 定是否需要下线总体而言,该模型投入应用后不仅可快速 分析发现少量风险系数高、急需下线的设备,集中有限资源 解决平安隐患,还有助于准确筛选出低风险设备继续投入使 用,从而进一步提高资源利用率,降低设备投入本钱同时, 本文提出的风险评估模型也充分考虑了高耦合设备现状,对 关联设备进行整体考虑,从而有效保障了高耦合设备的一致 性展望未来,老旧设备风险评估模型依然存在较大的优化 空间,如不同型号、类型、批次的设备在稳定性方面存在差 别,同时设备长期运行的环境和设备性能也对老旧设备的继 续使用产生影响,上述维度后续仍有待进一步改进完善。
转型与解决老旧设备平安隐患,已成为大型数据中心急需解 决的难题对此,本文结合农业银行老旧设备特点提出了风 险评估模型,并针对不同的设备风险级别提出了应对策略一、老旧设备风险评估模型概述整体而言,老旧设备风险评估模型(以下简称“评估模型”) 基于历史数据分析,旨在直观反映风险因素与老旧设备下线 之间的相互关系,并选取与老旧设备下线密切相关的风险指 标,覆盖了承载业务、超龄时间、运维保障、服务风险等四 大维度1 .承载业务维度设备上承载的业务系统或设备发生故障时可能影响的 业务系统既是开展设备风险评估的基线,也是判断老旧设备 是否需要下线的重要依据对此,评估模型结合系统用户规 模、日均交易量、日均交易金额等参数,将业务系统划分为 核心业务系统、重要业务系统和一般业务系统其中,核心 业务系统是企业赖以生存和开展的根本,一旦发生故障会直 接影响全部或多个主营业务的正常运营;重要业务系统主要 指承当企业主营业务的系统或管理系统,如金融机构中的实 时交易类系统、时点交易类系统、辅助交易类系统等;一般业务系统指企业除核心业务系统和重要业务系统外的其他业 务系统,如企业资源计划系统(ERP)、客户关系管理系统 (CRM)、办公自动化系统(0A)等。
评估模型中业务承载维度量 化取值设置为A,其量化标准详见表1表1业务承载量化标准业务系统A量化取值[核心业务系统41重要业务系统21一般业务系统1值得注意的是,如果某一设备同时承载或影响多个业务 系统,应取信息系统中最高的系统级别;如果重要程度最高 者同时存在两个及以上的,可以适当上调一级;而对于新建 系统或者未定级系统,那么应参照同类系统进行定级取值此 外,当企业经营范围、战略重心发生调整时,系统分级也有 可能会发生改变,且随着企业经营策略、重心的不同,同一 个业务系统在不同企业中的等级划分也可能不同因此,企 业应定期或在出现重大业务调整时及时进行业务系统重新 定级2 .超龄时间维度超龄时间主要指设备超过平安生产年限的时长,其中安全生产年限是依据设备类型、使用特性、设计工艺等因素确 定的设备合理使用寿命按设备类型的平安生产年限详见表 2O 一般而言,设备超龄时间越长,发生故障的可能性越大, 关联业务系统受影响的风险也越大超龄时间的具体计算方 式如下:超龄时间(T)二考核周期年底时间1)-设备开始使用时 间(T2)-平安生产年限(T3)表2按设备类型的平安生产年限设备名称类别说明平安生计算设备PC服务器、小型机等存储设备SAN、 NAS 等1网络设备路由器、交换机、防火墙等1平安设备IDS、 IPS 等应用交付类设备负载均衡等为优化超龄时间量化取值,评估模型以年为单位计算超 龄时间,设置超龄时间参数为B, B为T向上取整加1,其量 化标准详见表3。
B量化取值表3超龄时间量化标准超龄时间(T)超龄(T > 0)Ceiling(T)+l未超龄(TWO)3 .运维保障维度运维保障维度包括设备购买的维保服务、运维人员的技 术能力等,主要指当设备发生故障时可以提供的运维支持 本文所述模型按照企业购买的维保情况以及自身运维能力, 将运维保障能力分为厂商维保、具备运维能力、无运维能力 等三大类其中,厂商维保指企业已经购买原厂或者第三方 维保,当设备发生故障时,厂商可以及时提供设备/产品的替 换或维修服务;具备运维能力指企业未购买维保服务或维保 服务已过期,但企业自身有存量的备品、备件,且运维人员 具备及时恢复业务的能力;无运维能力指企业未购买维保服务或维保服务已过期,同时企业也不具备相应的运维能力模型中运维保障参数设置为C,其量化标准详见表4表4运维保障量化标准运维保障C量化取值无运维能力4具备运维能力2厂商维保14 .服务风险维度服务风险维度重点包含了使用风险和历史风险两个指 标其中,使用风险指依据业务部署架构、灾备方式等,当 设备发生故障时可能触发的业务中断、数据丧失等风险,相 对而言,不存在使用风险那么是指设备发生故障后不会导致数 据丧失、业务暂停,或能够满足业务RTO、RPO要求。
模型中 使用风险参数设置为D,其量化标准详见表5表5使用风险量化标准使用风险D量化取值1存在使用风险5不存在使用风险1历史风险主要指设备以往的故障情况,即曾发生过严重 故障或触发生产事件的设备应优先考虑下线模型中将历史 风险参数设置为E,其中严重性故障是指设备发生过宕机等 重大故障或因设备故障而触发过生产事件;一般性故障指除 严重性故障外的其他类型故障(如端口故障等),其量化标准 详见表6表6历史风险量化标准历史风险E量化取值严重性故障5一般性故障3未发生过设备故障0二、老旧设备风险定级及优化.风险定级老旧设备基于承载业务、超龄时间、运维保障、服务风 险的量化取值与设备的风险等级成正比基于此,为反映设 备突发故障、维保过期等情况对风险值的影响,本文尝试提 出了老旧设备风险评估模型,风险值计算方法如下所示:R=AxBxCx (D+E)其中,R为老旧设备风险值,A为承载业务系统量化取 值,B为超龄时间量化取值,C为运维保障量化取值,D为使 用风险量化取值,E为历史风险量化取值设备风险值与风 险级别对照见表7表7设备风险值与风险级别对照风险级别风险取值下限(不含)风险取值上限(含)I高等级业务:超2 8:中等级业务:超2°°;低等级业务:同E:中三个及以上问』**― ♦♦・・・, ♦^♦♦•・・・・・・♦♦•♦••・•• •••••••••••••• ••・••・•♦•♦・・・・・•♦ ♦ ♦♦♦—^♦♦♦♦,・・・・・•♦♦•・・・・♦♦・・•・・・ ・♦♦♦■• —^♦♦♦♦・・・・・・・♦ ♦I高等级业务:己厘 ;中等级业务:超3 ,低等级业务:同日 :中一个或两个问』*uevvetwvtttWMi•••«0**«•>>•«••••• t—■■•wwettt•i设备未超龄;!低等级业务:超3.风险调整鉴于老旧设备与系统业务、架构部署、关联设备等均存 在依赖关系,因此老旧设备的下线优先级也需结合架构、系 统等进行综合考虑。
例如,当架构、系统、关联设备等有调 整计划时,应将高耦合设备的风险级别调为最高,优先考虑 将此类设备下线同时,当高耦合设备的风险取值高于目标 设备时,还应调整目标设备的风险值,使其与高耦合设备保 持一致1 .老旧设备风险应对策略针对不同风险级别的老旧设备,笔者建议采取不同的应。












