分布式系统稳定性建设指南(2022年)-100页
分布式系统稳定性建设指南(2022年)中国信息通信研究院云计算与大数据研究所2022年6月 编制说明本建设指南自 2022年 1月启动编制,在前期研究、框架设计、文稿起草、征求意见和修改完善等五个重要阶段,均面向分布式系统稳定性领域的技术提供方、产品服务方、行业应用方开展了深度访谈、意见征集等工作。参与编制的单位说明如下:牵头单位:中国信息通信研究院云计算与大数据研究所;联合单位:阿里云计算有限公司、华为云计算技术有限公司、北京百度网讯科技有限公司、北京银行、杭州笨马网络技术有限公司、思特沃克软件技术(北京)有限公司、中国农业银行、中国科学院计算技术研究所、中信银行、华泰证券股份有限公司、中国工商银行、上海浦东发展银行、蚂蚁科技集团股份有限公司、中移(杭州)信息技术有限公司、深圳市腾讯计算机系统有限公司、建信金融科技有限责任公司、北京火山引擎科技有限公司、浩鲸云计算科技股份有限公司、南京争锋信息科技有限公司、中电金信软件有限公司、四川省农村信用社联合社、北京同创永益科技发展有限公司、中电云数智科技有限公司、安信证券股份有限公司、北京永辉科技有限公司、京东科技信息技术有限公司、南方电网数字电网研究院有限公司、阳光保险集团股份有限公司、上海钧正网络科技有限公司、北京云杉世纪网络科技有限公司、深圳市金证科技股份有限公司、中国银行、中国移动信息技术中心、招商银行、中移(苏州)软件技术有限公司、天翼云科技有限公司。 前言随着分布式成为主流的系统架构设计方案,业务系统的迭代速度越来越快,后端系统架构变得越发复杂,单一节点问题可能被无限放大,大规模分布式系统的稳定性保障能力越来越成为业界关注的重点;与此同时,在技术角色分工越来越细,技术专业化程度越来越深的大背景下,分布式系统的架构特性为其稳定性建设中的架构设计、组织设计等也带来了新的挑战。稳定的系统是产品提供服务的基本前提,但是当前很多企业缺乏解决分布式架构下的系统稳定性、服务高可用建设相关问题的经验。中国混沌工程调查报告(2021)调查结果显示,“较多服务的稳定性相对较差,月事故率差强人意”;线下调研结果提示,SRE团队几乎都是从零开始摸索稳定性建设,在此过程中存在关键技术的建设路径不清晰、建设思路不明确的问题。针对上述分布式系统稳定性的痛点问题,本文希望形成一份总体性的稳定性建设指南,从全局角度出发对分布式系统稳定性建设工作进行拆解和分析,力求务实、有效地输出有价值的观点。本指南期待能比较全面的帮助中国企业在分布式系统建设、配套组织、运营机制设计层面进行指导落地,实现国内软件发展向更高目标迈进。 目录一、系统稳定性建设概述.1(一)分布式系统面临稳定性保障新挑战.1(二)政策引导 IT系统稳定性建设平稳推进.3二、分布式系统稳定性建设总体视图.6三、分布式系统稳定性建设目标.8(一)稳定性建设目标.8(二)稳定性评价指标.9四、分布式系统稳定性建设模式.11(一)架构设计.11(二)容量设计.23(三)运维方案设计.28(四)安全设计.43五、分布式系统稳定性建设路径.46(一)稳定性建设需求分析.46(二)稳定性建设实现分析.47(三)稳定性建设活动.48(四)稳定性建设工具.54六、分布式系统稳定性建设行业特点.71(一)互联网业.71(二)银行业.73(三)证券业.75(四)通信业.76(五)云服务业.78(六)零售业.79(七)能源业.81七、分布式系统稳定性建设展望.83(一)人才、生态、标准亟待关注,多重措施提升稳定性发展水平.83(二)顺应时代发展需求,推动稳定性建设进入新阶段.85 附录 1.88附录 2.89 图目录图 1运维复杂度示意图 .2图 2分布式系统稳定性建设总体视图 .6图 3稳定性建设目标视图 .8图 4中国信通院“稳保计划”.51图 5项目开展前稳定性体检视图 .52图 6项目开展中稳定性测试视图 .53图 7分布式系统稳定性度量模型 .53图 8混沌工程成熟度模型 .