
it运维管理制度.doc
29页日常IT运维管理制度为完成运维任务必须建立相应的技术支持管理制度,使维护工作做到有章可循,有据可查同时对制定的各个制度的执行情况进展质量考核,对运维团队的工作绩效进展评估,促进制度更好落实,确保高质量地完成各项维护支持任务1.0 运维管理制度总则运维保障机制〔1〕建立硬件、网络、系统,应用及业务软件日常维护流程机制;〔2〕建立故障应急处理流程机制;〔3〕建立备份恢复保障机制;〔4〕建立平安保障管理机制;〔5〕建立版本管理机制,管理平台生产环境运行的软件版本;以上机制应形成文档,作为日常遵循标准.按要求执行硬件维护能力需对硬件设备具备7*24小时不连续的支持、响应能力,原则上每日对硬件设备至少检查一次并记录;定期对网络环境进展检查对效劳器进展硬件检测,内存、硬盘、I/O的使用情况进展查询并进展登记,每台效劳器运行的软件对硬件性能使用情况检测,对于效劳器我们进展系统备份,每日对网络使用情况进展观察,针对突发异常流量进展分析故障处理响应及需求设备〔系统〕出现故障时,根据不同的故障级别提供相应的效劳响应,响应方式及要求如下:故障级别故障内容响应时间及效果其他Ⅰ级别一般故障出现系统故障,不影响系统运行,不影响业务正常运作工程师及时响应处理,24小时内解决。
对于硬件故障〔含机房环境故障〕,要求不管在何时确诊需要进展备件更换,发出备件更换指令起3小时内备件到达故障现场,并恢复系统正常运行Ⅱ级别次要故障出现系统故障,影响系统运行或影响非关键业务运作,不影响核心业务运作工程师及时响应处理,8小时内解决Ⅲ级别重大故障出现系统故障,系统崩溃或其他状况,影响核心业务的正常运行工程师及时响应处理,2小时内解决具备应急预案针对部署并进展实施系统备份、软件重要数据实时备份,主机备份是提供的保存*个时间点上的主机系统数据状态的效劳基于主机备份可以随时生成或删除备份,并基于已备份进展主机的恢复,实现已有应用和主机数据的快速复用,如系统出现事故无法使用将进展系统恢复并把最近一次备份的数据进展恢复对于突发情况建立应急效劳流程,主要是针对可能发生的各种意外情况设计应急方案以控制和躲避突发事件带来的集中性风险,从而降低设备集中性风险所造成的损失数据库维护能力每日对数据库进展日常巡检,内容包括对日志、会话数、表空间、磁盘空间等主要数据库参数进展检查〔需要配置监控软件〕;对数据库进展数据备份、归档日志整理、表空间维护、权限分配、异常问题处理;对数据库相关工作进展维护;定期对数据库进展重启,以释放资源;制定数据备份方案及数据恢复演练方案,定期进展数据恢复演练。
中间件维护能力对中间件进展运行状况检查;每日对核心中间件和应用日志进展检查定期对中间件性能进展检测,必要时进展优化处理平安要求需要按照信息系统等级保护的要求对系统进展维护,包括但不仅限于:〔1〕定期对系统进展风险评估工作,包括对网站及应用接口进展外网渗透测试、对内部主机进展漏洞扫描,并完成加固工作;〔2〕对网站进展7*24小时平安监测,发现问题及时记录并处理;〔3〕需每周至少一日对信息系统进展平安巡检包括对网络平安设备的巡检、配置优化,对信息系统内的各类状态进展判断,定期升级规则库和系统版本运维效劳方式为了保证工程所有软硬件设备的正常运行,我方提供了灵活的效劳方式,可以充分满足工程的需求,效劳方式有以下几种:效劳台——提供技术咨询、效劳请求受理、任务分派、意见受理客户、效劳专员快速通道、效劳查询等效劳远程支持效劳——为终端用户提供远程技术维护效劳现场效劳——为远程未能解决的问题提供技术支持、现场维护效劳运维人员管理〔1〕人员储藏建立与运行维护效劳相关的人员储藏方案和机制,确保有足够的人员,以满足与需方约定的当前和未来的运行维护效劳需求〔2〕人员培训建立与远行维护效劳相关的培训体系或机制,在制定培训方案时,识别培训要求,并提供及时和有效的培训。
〔3〕绩效考核建立与运行维护效劳相关的绩效考核体系或机制,并能够有效组织实施岗位构造有专职团队负责运行维护效劳的工作,对运行维护效劳中的不同角色有明确分工和职责定义,为了保障运行维护效劳交付的顺利实施,需方也应提供必要的接口一个完整的运行维护效劳团队应包括管理、技术支持、操作等主要岗位:〔1〕管理岗职责:a〕在运行维护效劳中负责管理运行维护效劳;b〕与需方建立顺畅的沟通渠道,准确地将需方的需求传递到运行维护效劳团队;c〕规划、检查运行维护效劳的各个过程,对运行维护效劳能力的筹划、实施、检查、改良的范围、过程、信息平安和成果负责〔2〕技术支持岗职责:a〕在运行维护效劳中负责技术支持,包括网络、操作系统、数据库、中间件、应用开发、硬件、集成、信息平安等;b〕对运行维护效劳过程中的请求、事件和问题做出响应,保障信息平安并对处理结果负责〔3〕操作岗职责:a〕在运行维护效劳中负责日常操作的实施;b〕根据标准和手册,执行运行维护效劳各过程,并对其执行结果负责整理知识库具备运行维护效劳活动相关的知识积累,以保证在整个组织内收集、共享、重复使用所积累的知识和信息,包括:〔1〕针对常见问题的描述、分析和解决方法建立知识库;〔2〕确保整个组织内的知识是可用的、可共享的;〔3〕选择一种适宜的知识管理策略;〔4〕知识库具备知识的添加、更新和查询功能;〔5〕针对知识管理要求制定相关管理制度,并进展知识生命周期管理。
1.1 机房运维管理制度1.1.1 数据中心环境平安管理数据中心进出平安管理的重点在于对不同的访问区域制定不同的平安管控和出入原则将数据中心划分3类不同类别的管控区域和平安区域公共区域、办公区域、机房区域1.公共区域:这些区域通常用于数据中心生活与展示的配套区域该区域经授权并在遵守相关制度的前提下来访者可自由进出2.办公区域:数据中心日常工作区域这类区域的进入通常为数据中心内部员工及运维人员,需经授权访问3.机房区域:机房区域是数据中心的核心区域该区域应有严格的进出管控,外来人员进出需提前提出申请,来访者进出机房区域需经授权,进出需登记除了数据中心人员进出管理外,还应考虑设备和物品进出的流程设备和物品的进出也应得到正式的审批,特别是对于机房区域的设备应重点管控应通过机房人员/设备登记表详细记录设备出门需开具出门凭据等1.1.2 机房平安管理制度1.机房应防尘、防静电,保持清洁、整齐,设备无尘、排列正规、工具就位、资料齐全2.机房门内外、通道、设备前后和窗口附近,均不得堆放物品和杂物,做到无垃圾、无污水,以免阻碍通行和工作3.严格遵照"消防管理制度"规定,机房内严禁烟火,严禁存放和使用易燃易爆物品,严禁使用大功率电器、严禁从事危险性高的工作。
如需施工,必须取得领导、消防、安保等相关部门的许可方可施工4.外来人员进入机房应严格遵照机房进出管理制度规定,填写人员进出机房登记表,在相关部门及领导核准后,在值班人员陪同下进出,机房进出应换穿拖鞋或鞋套5.进入机房人员服装必须整洁,保持机房设备和环境清洁外来人员不得随意进展拍照,严禁将水及食物带入机房6.进入机房人员只能在授权区域与其工作内容相关的设备上工作,不得随意进入和触动未经授权以外的区域及设备7.任何设备出入机房,经办人必须填写设备出入机房登记表,经相关部门及领导批准前方可进入或搬出1.1.3 效劳人员平安及保密管理制度1.维护工程师必须熟悉并严格执行平安保密准则2.外部人员因公需进入机房,应经上级批准并指定专人带着方可入内3.有关通信设备、网络组织电路开放等资料不得任意抄录、复制,防止失密需要监听电路时,应按保密规则进展4.机房内消防器材应定期检查,每个维护人员应熟悉一般消防和平安操作方法5.机房内严禁吸烟和存放、使用易燃、易爆物品6.搞好平安保密教育,建立定期检查制度,加强节假日的平安保密工作7.未经有关领导批准,非机房管理人员严禁入机房8.机房内严禁烟火,不准存放易燃易爆物品。
9. 注重电气平安,严禁违章使用电器设备,不准超负荷使用电器10.按规定配备消防器材,并定期更新11.定期检查接地设施、配电设备、避雷装置,防止雷击、触电事故发生12.发现事故苗头,应尽快采取有效措施,并及时报告领导13.进展维修时,严格按照程序进展,杜绝人为事故发生14.严禁违规接入大功率无线发射设备1.1.4 网络平安管理制度1.运行维护部门必须制定相应的体系确保网络平安,维护人员必须确立网络平安第一的意识2.在网络建立期必须考虑工程和现网的关系,加强施工平安管理和网络割接准备工作,确保现网的平安,严禁人为事故发生3.网络运行维护期应确保维护工作、设备运行、系统数据的平安4.客户数据的制作以及对设备的指令操作要严格按照客户数据制作标准和设备技术手册的要求根据工单执行;对设备的所有操作要有详细记录,操作时要一人操作一人核对,准确无误方可执行,操作人员要在工单上签字确认5.网络运行维护期的平安可以通过三种控制方法保证,操作控制包括对操作流程、客户分级,权限分级、操作记录、远程管埋、密码管理、防火墙技术、数据备份的平安保证;运行控制包括对告警处理、测试、性能分析、应急预案的平安保证;操作设备控制包括防病毒,杀毒软件、非生产应用软件的平安控制。
6.未经许可,严禁设备厂商通过远程控制技术对设备进展修改维护,运行维护部门应有可靠的防范措施7.为保证远程技术支持的可靠性,需定期对远程维护设备、端口进展检查,在确保平安保密的同时确保其可用性8.磁盘、磁带等必须进展检查确认无病毒后,方可使用9.为保证网络平安,远程维护设备在一般情况下要处于关闭状态,只有在需要的时候才开通使用1.1.5 数据中心值班制度1.值班人员应严守岗位,按照规定时间上下班,无法按时到岗应提前向上级领导汇报,由上级领导负责调换班2.值班时间要尽职尽贵,制止从事与值班无关的事情3.参照"机房日常监控及巡检内容"按时巡检机房环境设施,密切注意电源、温度、湿度等机房环境情况;随时监控IT系统、网络工作状态,详细记录异常情况4.发生任何异常情况时,应严格执行故障应急处理流程及时处理,并向上级领导及相关部门及时报告,做好一线技术支持工作5.对业务部门提出的效劳请求,要快速、准确、耐心地做出解答并做好事件的记录、跟踪及回馈的效劳台支持工作6.随时监视机房环境卫生和无关的物品带入,妥善管理设备工具7.遵照机房平安管理制度规定,制止任何违规进入机房人员及其他不当行为8.监视维保厂家对机器设备进展定期巡检和维护,对巡检单据签字确认,留档备案。
9.遵照"人员/设备进出机房登记表"做好值班期间的人员、设备进出记录1.2 网络平安管理制1.2.1 防火墙平安管理职责说明1.防火墙的逻辑管理,涉及用户、防火墙管理员、IT经理三个角色2.用户包括公司业务部门工作人员、公司业务合作伙伴、公司外部系统效劳商以及来访客户3. 防火墙管理员负责受理解决用户提出的防火墙相关需求,评估防火墙的配置措施和变更风险,并将分析结果报告给IT经理经理负责审批防火墙相关的配置变更措施,确认防火墙管理员对此配置变更的评估结果符合公司平安策略和标准要求1.2.2 申请防火墙权限流程及创立策略公司业务部门工作人员因工作需要申请开通防火墙端口通信权限时,需要填写"网络效劳访问申请/变更表〞经用户所在业务部门经理审批通过后,由防火墙管理员受理需求防火墙管理员按照最小授权原则。
