
互联网公司运维管理及应急制度.docx
13页XXX 互联网公司运维管理及应急制度2021 年10月目录1、总则 02、运维工程师工作职责 02.1、负责平台运维和技术支持 02.2、平台信息和技术安全 13、运维服务管理体系 13.1运维服务管理对象 13.2应急事件管理 23.3配置管理 24、运维服务内容 34.1服务目标 34.2 IT资产统计服务 34.3网络、安全系统运维服务 34.4主机、存储系统运维服务 44.5数据库系统运维服务 54. 6中间件运维服务 54.7终端、外设运维服务 65、 应急服务响应措施 65. 1应急预案实施基本流程 75. 2突发事件应急策略 75. 3突发事件响应流程 85. 4密码管理及处理流程 86、 运维响应时间 91、总则第一条 为保障 XXX 平台系统软硬件设备的安全平稳的运行,特 制订本制度第二条 运维工作总体目标:平台的安全平稳运行,日常维护工 作的有序管理,突发事件的应急处理运维管理制度的适用范围:全 体运维人员2、运维工程师工作职责2.1、负责平台运维和技术支持(一)根据平台运营战略和目标,负责运维整体架构、安全防护、 三方系统等运维方案制定,保障平台技术的安全、稳定。
二) 平台服务器和安全服务的购买拟定,包括采购数量、品牌 规格、技术参数三) 平台日常运行过程中信息安全和技术问题的协调解决,保 障平台 24 小时安全稳定运行四)负责平台服务器设备及系统密码口令的设置和保存,密码 口令设置后报技术负责人,密码口令设定后任何人不得随意更改,保 密口令每季度更新一次,并严禁发送给第三方五)负责平台系统测试环境,预生产环境,生产环境的代码发 布,项目部署六)云服务器的年度预算制作,云服务器的按时续费七)平台域名的购买,备案,续费八)域名加密证书的购买,部署,续费2.2、平台信息和技术安全(一)落实平台信息技术安全保密责任制,执行“谁主管、谁负 责,谁主办、谁负责”的原则,责任到人 二 )负责防火墙定期维护和购买,在服务器上做好病毒防护, 进行硬件和技术双保护,确保平台不受病毒入侵和恶意攻击三)7*24小时监控平台运行情况,遇到服务器报警要第一时 间上报技术负责人,并作出相应应对处理四)建立多种备份机制,一旦主系统遇到故障或受到攻击导致 不能正常运行,可以在最短的时间内替换主系统提供服务五)建立平台运维和开发集中式权限管理,按照岗位职责设定 人员操作权限,针对不同应用系统、终端、操作人员,设置数据库的 访问权限,并设置密码。
不同的操作人员设定不同的用户名,且定期 更换,严禁操作人员泄漏密码3、运维服务管理体系3.1运维服务管理对象运维管理对象包括平台基础设施、应用系统、操作用户以及运维 人员,具体内容如下:(1)基础设施包括服务器网络架构、主机系统、存储系统、备份系 统、终端用户、安全系统、以及机房环境IDC机房和云服务器环境)(2) 应用系统包括XXX测试环境,XXX预生产环境、XXX生产环境、服务器操作系统、防火墙、安全服务等3) 用户包括使用如上应用系统的管理用户及操作用户4) 运维人员包括内部参与运维活动的相关部门和人员,以及提供 技术支持服务的三方公司和相关人员3.2 应急事件管理应急事件管理流程的主要目标是尽快恢复服务,提供并减少其对 业务的不利影响,尽可能保证最好的服务质量和可用性等级应急事 件管理流程通常涉及事件的检测和记录、事件的分类和支持、事件的 调查和诊断、事件的解决和恢复以及事件的关闭3.3 配置管理配置管理流程负责核实基础设施和应用系统中实施的变更以及配 置项之间的关系是否已经被正确记录下来;确保配置管理数据记录能 够准确地反映现存配置项的实际版本及状态配置管理实际上是全部资源的统一管理的功能,包括资源整个生 命周期的参数或配置的变化记录的管理。
管理信息主要涉及分类、型 号、版本、位置,状态、相关资料等基本信息还包括核心参数等4、运维服务内容4.1服务目标运维组提供的运行维护服务包括,平台系统相关的主机设备、操 作系统、数据库和存储设备的运行维护服务,保证平台现正常运行, 降低整体管理成本4.2 IT资产统计服务服务内容包括:1.硬件设备型号、数量、版本等信息统计记录 2.软件产品型号、版本和补丁等信息统计记录3. 网络结构、网络路由、网络IP地址统计记录4.域名名称,购买信息,续费信息5.域名证书购买信息,续费信息 6.其它附属设备的统计记录4. 3网络、安全系统运维服务 从网络的连通性、网络的性能、网络的监控管理三个方面实现对 网络系统的运维管理1. 设备基础性能检测:cpu、内存、磁盘、带宽使用情况监测;2.设备日志查看;3. 测试Ping, tracert等工具的连通性;4. 网络安全策略应用是否正常;5. Internet带宽流量的实时监测;6. 网络拓扑链路状态监测;7. 异常网络数据包流量;8.Dos、ddos 等网络攻击情况监测;9.Internet 线路的误码率、丢包率监测;4.4主机、存储系统运维服务提供的主机、存储系统的运维服务包括:主机、存储设备的日常 监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等 内容。
进行监控管理的内容包括:1. CPU 性能管理;2. 内存使用情况管理;3. 磁盘利用情况管理;4. 系统进程管理;5. 主机性能管理;6. 实时监控主机电源、风扇的使用情况及主机内部温度;7. 监控主机硬盘运行状态;8. 监控主机网卡、阵列卡等硬件状态;9. 监控主机HA运行状况;10. 主机系统文件系统管理;11. 监控存储交换机设备状态、端口状态、传输速度;12. 监控备份服务进程、备份情况(起止时间、是否成功、出错告 警);13. 监控记录磁盘阵列、磁带库等存储硬件故障提示和告警,并及 时解决故障问题;14. 对存储的性能(如高速缓存、光纤通道等)进行监控4.5数据库系统运维服务提供的数据库运行维护服务是包括主动数据库性能管理,数据库 的主动性能管理对系统运维非常重要通过主动式性能管理可了解数 据库的日常运行状态,识别数据库的性能问题发生节点,有针对性地 进行性能优化同时,密切注意数据库系统的变化,主动地预防可能 发生的问题进行监控管理的内容包括:1. 数据库基本信息:文件系统、碎片、死锁、CPU占用率较大或时间较长的 SQL 语句2. 表空间使用信息监测;3. 数据库文件 I/0 读写情况;4. Session 连接数量监控;5. 数据库监听运行状态监测;6. 查看每日数据备份、数据同步是否正常;7. 报警日志监测;8. 对表和索引进行Analyze,检查表空间碎片;9. 检测数据库后台进程;10. 数据库对象的空间扩展情况监测;4.6 中间件运维服务中间件管理是指对 tomcat、MQ 等中间件的日常维护管理和监控工 作,提高对中间件平台事件的分析解决能力,确保中间件平台持续稳 定运行。
中间件监控指标包括配置信息管理、故障监控、性能监控1. 执行线程:监控中间件配置执行线程的空闲数量2. JVM内存:JVM内存曲线正常,能够及时的进行内存空间回收3. JDBC 连接池:连接池的初始容量和最大容量应该设置为相等 并且至少等于执行线程的数量,以避免在运行过程中创建数据 库连接所带来的性能消耗4. 检查中间件日志文件是否有异常报错5. 如果有中间件集群配置,需要检查集群的配置是否正常4.7 终端、外设运维服务负责对终端PC、笔记本操作系统、应用软件和硬件的维护,解决使用人员在应用过程中遇到的问题并进行简单培训等其他终端设备 的故障处理工作5、应急服务响应措施虽然运维组制定了详尽的应急处理预案,但在维护服务过程中, 意外情况将难以完全避免我们将对特殊情况的突发风险进行详细分 析,并且针对各类突发事件,设计了相应的预防与解决措施,同时提 供了完整的应急处理流程5.1 应急预案实施基本流程5.2 突发事件应急策略(1)值班人员平时应做好应急事件的监控工作,对于突发事件应 认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束 对于不在运维中心的故障,应在第一时间内通知负责人去现场处理, 密切关注事件流程及进展情况,并做好登记工作上报主管负责人。
2)正常情况下,要求值班人员在10 分钟内进行事件确认3)在处理过程中,如需其他部门协助处理,应及时向主管负责 人汇报,协调沟通5・3突发事件处理流程图SIT给出响应■巷方赛5.4密码管理及处理流程1. 服务器账号密码及三方平台账号密码(简称密码文件),密码 文件说明,密码文件包含技术部涉及到的三方平台的登录账号和密 码,例如阿里云,网宿,七牛云,又拍云,容联云通讯,融云,神策, 大象慧云,宝付,众邦银行等公司所有服务器的登录账号和密码, 及登录方式,例如应用服务器,预生产服务器,测试服务器2. 密码文件涉及公司服务器及三方的隐私安全,所有负责管理密 码文件的人员应该做到安全、保密,不得擅自将文件发送给第三方或 者公司以外人员3.密码文件管理人员a. 技术部门负责人(技术VP)保存一份,进行日常使用b. 运维负责人(运维工程师)管理备份密码文件,进行日常 使用c. 行政总监管理备份,用于紧急情况下的账号密码授权发放 4.在遇到紧急情况下时处理流程如下:a. 需求方第一联系人为技术VP,由技术VP给需求方提供支 持b. 在无法联系技术VP时,联系第二联系人,北京技术中心技术总监,并同时由董事长或者总裁授权运维负责人向北京 技术中心技术总监发送账号密码,向需求方提供技术支持。
c. 在无法联系运维负责人时,直接由董事长或者总裁授权行 政总监人发放密码发送给北京技术中心技术总监进行应急 处理d. 在遇到极特殊情况下,同时无法联系到技术VP,北京技术中心技术总监,运维负责人时,由董事长或者总裁指派一 名能联系到的技术部工程师,并授权行政总监给指派技术 部工程师发送给账号和密码给需求方提供支持e. 在遇到紧急情况时,按照以下顺序联系技术部人员:a) 技术 VPb) 北京技术中心技术总监c) 运维负责人d) 北京技术中心技术经理e) 重庆技术中心技术总监f) 重庆技术中心技术经理6、运维响应时间7*24 小时随时待命处理并记录平台事件及处理结果。
