1、日常运维管理制度1. 运维保障机制(1) 建立硬件、网络、系统、应用及业务软件日常维护流程机制;(2) 建立故障应急处理流程机制;(3) 建立备份恢复保障机制;(4) 建立安全保障管理机制;(5) 建立版本管理机制,管理平台生产环境运行的软件版本;以上机制应形成文档,作为日常遵循规范,按要求执行。2硬件维护能力需对硬件设备具备 7*24小时不间断的支持、响应能力,原则上每日对硬件设备至少健康检查一次并记录;定期对网络环境进行检查。我公司服务器部署在移动云上定期通过命令进行硬件检测, 内存、硬盘、I/O 的使用情进行查询并进行登记,每台服务器运行的软件对硬件性能使用情况检测,对于服务器我们进行系统备份、软件,每日对网络使用情况进行观察,针对突发异常流量进行分析。3. 故障处理响应及要求设备(系统)出现故障时,根据不同的故障级别提供相应的服务响应,响应方式及要求如下:故障级响应时间及效故障内容别果出现系统故障,不影响系工程师即时响应I 一般处理, 24小时内解统运行,不影响业务正常运故障作决。出现系统故障,影响系统工程师即时响应II 次运行或影响非关键业务运处理,8小时内解要故障作,不影响
2、核心业务运作决。其他对于硬件故障(含机房环境故障),要求不论在何时确诊需要进行备件更换,发出备件更换指令起 3小时内备出现系统故障,系统崩溃工程师即时响应III 重件到达故障或其他状况,影响核心业务处理, 2小时内解大故障现场,并恢复的正常运行决。系统正常运行。4具备应急预案针对部署国家平台节点服务器我们实施系统备份、 软件重要数据实时备份, 主 机备份是提供的保留某个时间点上的主机系统数据状态的服务。基于主机备份可以随时生成或删除备份, 并基于已备份进行主机的恢复,实现已有应用和主机数据的快速复用, 如系统出现事故无法使用将进行系统恢复并把最近一次备份的数据进行恢复。 对于突发情况建立应急服务流程, 主要是针对可能发生的各种意外情况设计应急的方案,以控制和规避突发事件带来的集中性风险, 从而降低设备集中性风险所造成的损失,制定以下流程图:应急机制处理流程图用户提出服务需求受理并记录服务需求工程师分析联系故障处理结果携带配件现场处理未解决驻厂经理沟通用户负责人报告故障进度、结果项目经理报告总经理解决录入后台提供故障技术报告数据库结束为保证服务实施的质量能够稳定并不断有所提升,保障客户需
3、求能够得到有效满足, 保障服务实施团队为客户提供统一、标准化的服务支持,并为客户设立专门的技术服务专员,对进行全程跟踪,提升服务实施专业性,制定服务流程:服务台及现场服务流程图用户1. 提出服务需求理受务服理处务服束结务服解决无服务台2. 受理并记录服务请求3. 事件分类4. 远程解决未解决派发现场服务单5. 满意度回访遗留问题有原因调查及诊断结束技术支持服务经理现场服务未解决服务升级服务支持解决解决服务支持5数据库维护能力每日对数据库进行日常巡检, 内容包括对日志、 会话数、表空间、磁盘空间等主要数据库参数进行检查(需要配置监控软件);对数据库进行数据备份、归档日志整理、表空间维护、权限分配、异常问题处理;对数据库相关 JOB进行维护;定期对数据库进行重启,以释放资源;制定数据备份方案及数据恢复演练方案, 定期进行数据恢复演练。6中间件维护能力对中间件进行运行状况检查; 每日对核心中间件和应用日志进行检查。定期对中间件性能进行检测,必要时进行优化处理。7安全要求需要按照信息系统等级保护二级的要求对系统进行维护, 包括但不仅限于:( 1)定期对系统进行风险评估工作,包括对网站及应用接口
4、进行外网渗透测试、对内部主机进行漏洞扫描,并完成加固工作;( 2)对网站进行安全 7*24小时安全监测,发现问题及时记录并处理;( 3)需每周至少一日信息系统进行安全巡检。包括对网络安全设备的巡检、配置优化,对信息系统内的各类状态进行判断,定期升级规则库和系统版本。8. 运维服务方式为了保证项目所有软硬件设备的正常运行, 我方提供了灵活的服务方式,可以充分满足项目的需求,服务方式有以下几种:服务台提供技术咨询、服务请求受理、任务分派、意见受理客户服务专员快速通道、服务查询等服务。远程支持服务为终端用户提供远程技术维护服务。现场服务为远程未能解决的问题提供技术支持、现场维护服务。9. 运维人员管理:( 1)人员储备建立与运行维护服务相关的人员储备计划和机制,确保有足够的人员,以满足与需方约定的当前和未来的运行维护服务需求。(2)人员培训建立与运行维护服务相关的培训体系或机制,在制定培训计划时识别培训要求,并提供及时和有效的培训。(3)绩效 考核建立与运行维护服务相关的绩效考核体系或机制,并能够有效组织实施。10. 岗位结构 :有专职团队负责运行维护服务的工作, 对运行维护服务中的不同角色
5、有明确分工和职责定义,为了保障运行维护服务交付的顺利实施,需方也应提供必要的接口。 一个完整的运行维护服务团队应包括管理、技术支持、操作等主要岗位:a) 管理岗职责:1) 在运行维护服务中负责管理运行维护服务;2) 与需方建立顺畅的沟通渠道, 准确地将需方的需求传递到运行维护服务团队;3) 规划、检查运行维护服务的各个过程,对运行维护服务能力的策划、实施、检查、改进的范围、过程、信息安全和成果负责。b) 技术支持岗职责:1) 在运行维护服务中负责技术支持,包括网络、操作系统、数据库、中间件、应用开发、硬件、集成、信息安全等;2) 对运行维护服务过程中的请求、事件和问题做出响应,保障信息安全并对处理结果负责。c) 操作岗职责:1) 在运行维护服务中负责日常操作的实施;2) 根据规范和手册, 执行运行维护服务各过程, 并对其执行结果负责。11. 整理知识库具备运行维护服务活动相关的知识积累,以保证在整个组织内收集、共享、重复使用所积累的知识和信息,包括:a) 针对常见问题的描述、分析和解决方法建立知识库;b) 确保整个组织内的知识是可用的、可共享的;c) 选择一种合适的知识管理策略;d) 知识库具备知识的添加、更新和查询功能;e) 针对知识管理要求制定相关管理制度,并进行知识生命周期管理。
《日常运维管理制度说课讲解》由会员cl****1分享,可在线阅读,更多相关《日常运维管理制度说课讲解》请在金锄头文库上搜索。