
自动化运维平台立项报告03.docx
5页自动化运维平台立项报告1. 项目名称自动化运维平台2. 现状分析我部承担了 XXXX等业务系统,目前,我部已有的IT基础设施包括XXX台服务器,运行 AIX, HPUX, Redhat Linux, Suse Linux, Windows等XXX种操作系统随着业务系统的发展,近 年来对信息化建设不断投入,大力发展信息化平台,我部所管辖的IT资产规模不断扩大,目 前IT系统已经支撑了大量的业务,同时各类新型的业务系统还在陆续推出信息化系统对业务的支撑作用日益加强,如何保障信息化系统的稳定运行也变得越来越重 要,随之而来IT运营维护的压力也在不断增大具体表现在:1. 业务系统上线,升级频繁,目前我部承担XX个核心系统,XX个业务子系统的运维, 系统大的升级每年平均有XXX次,而业务/系统变更每周平均有XXX个,涉及XX台 服务器,目前我部虽然实施了 ITIL进行变更控制,但变更的具体实施操作完全依赖手 工完成,时间紧,任务重,变更实施人员往往无法在预定的变更窗口时间内完成变更 实施和验证,而高强度的手工操作容易导致操作失误和变更失败,并可能直接酿成生 产事故2. 配置规范难以核实落地我部运维的业务系统均有相应的软硬件配置规范,需要进行 例行核实以确保业务的正常运行,但由于承载这些业务的设备众多,配置不断更新, 目前只能是对重点系统或重点设备进行人工抽查。
3. 变更验证耗时长在业务系统的上线与变更中,由于主要依靠手工进行,变更验证的 耗时为全部耗时的XX%,并且只能做到抽查,缺乏有效的工具帮助进行变更验证4. 发现非法变更我部虽已经实施符合ITIL的变更管理,但依然存在变更管理流程记录 外的系统更改和配置更改,成为系统隐患目前我部缺乏对用户登录系统终端进行操 作的记录,查询和审计功能,如何快速探测非法更改是保证安全生产的难点之一5. 为保障安全生产和系统稳定运行,我部参照XXX等国际最佳实践,结合自身的运维 经验,制定了面向服务器,网络设备,中间件,数据库和应用的巡检规则共XXX类, XXX大项,XXX条细则但是,在巡检实施过程中,主要依靠手工和少量脚本,缺 乏必要的工具支撑,巡检周期拉长到X天,只能做到抽查而无法覆盖全部设备,而即 使是抽查从检查到汇总报表也需要耗时XXX天同时,对于巡检中发现的违规条目,由于缺乏有效工具而无法进行修补,如我部在安 全条约中定义所有服务器管理员密码必须每X天更换一次,但考虑到我部管辖到X台 服务器,现有人力根本无法达成这样的标准,这使得许多规范都成了所谓的免责规范6. 业务系统扩容所产生的操作系统安装,软件与补丁安装,安全配置等运维需求,占到 我部人员日常工作的XX%,其中,操作系统安装每台花费XX小时,而每月平均有 XX台服务器需要上线,安装操作系统与相应的补丁,应用与安全模块,消耗了我部 运维人员大量的人力与时间。
7. 操作审计,目前我部普遍存在服务器账号共用现象,多人共用同一操作系统账号,且 缺乏击键级操作记录,无法满足XXXX的安全规定8. 我部负责的其他运维操作和例行的任务,如添加用户,授权与收权,数据库与应用备 份,服务重启等操作,亦是完全通过手工进行,耗时长,准确性难以保证因此为了提高我部信息中心的IT运维的服务水平,需要建设一套自动化运维平台,实现 健康检查,安全与操作审计,操作系统安装,软件安装,配置变更,常规与例行作业等日常运 维操作的自动化,以提高运维效率,保障安全生产3. 自动化运维平台的工作原理与基本功能自动化运维平台通过安装在被管服务器上的代理(Agent)实现自动操作操作员登陆到平台 的客户端,以作业的形式定义操作内容,操作对象,运行时间等,提交到平台核心核心发指 令到被管服务器上管理Agent,完成操作并返回操作结果,如下图所示:寸理客■端 日前化平台 被管服务器管H核心通过自动化运维平台能够实现的运维操作内容包括资产信息和配置发发现,操作系统安 装,补丁管理,应用程序分发,日常巡检,操作审计,合规审计,配置跟踪,脚本执行,虚拟 机管理,各种报表等我部常见运维作业4. 效益分析通过部署和实施自动化平台,通过在资产信息和配置发发现,操作系统安装,补丁管理, 应用程序分发,日常巡检,操作审计,合规审计,配置跟踪,脚本执行,虚拟机管理,各种报 表等运维任务中实施自动化,可以帮助运维人员深入了解各种配置信息,真正实时的服务浏览 器,快速部署和配置操作系统,软件和应用,基于角色的访问控制,两权分立、三重授权,操作 审计,自动化变更,自动化执行复杂的变更操作,有选择地回滚不当的变更,持续的合规性,基于 最佳实践的审计与合规功能,灵活地设置基于策略的例外规则,减少误判等3.1提高运维效率通过实现日常运维任务的自动化,缩短操作时间,减少操作失误,使得运维人员可以从简 单重复的任务中解放出来,进行规则制定,任务设计,系统优化等更有价值的工作。
3.2有效支撑业务通过自动化平台可进行并发,批量的安装与变更操作,变更后验证等,可有效保证变更质 量,缩短业务上线时间3.3保障系统合规通过自动化平台进行短周期,高频率的自动巡检,出具巡检报告,自动修补违规项,使得 我部已有的安全,配置规范能够有效实施,切实保障安全生产3.4管理风险根据最佳实践流程执行所有更改,以确保与内部政策和外部法规的合规性高效的变更管 理可提供所有变更的详细核查痕迹,指明每个变更的授权人、授权时间、执行人和执行时间 大大减少花在实现和证明监管合规性上的时间与人力消耗5. 建设方案和内容4.1系统建设目标通过建设自动化运维平台,实现如下运维领域的自动化:1. 操作系统安装自动化自动、动态地安装和配置服务器(物理和虚拟服务器),并可自动执行安装后作业以强制上 线标准2. 应用发布自动化与最佳实践变更管理流程结合,实现应用升级,变更,补丁的自动执行和验证,最小化风 险并确保配置合规性3. 配置和补丁管理自动化通过基于策略的补丁、修复、更新和升级部署,降低成本,改进对软件和网络设备配置的 控制紧密的配置控制(包括删除非授权的软件应用程序和内容)可确保只部署授权的软件和 配置,从而最小化服务中断的风险并降低支持成本。
4. 合规与健康检查自动化根据最佳实践流程执行所有更改,以确保与内部政策和外部法规的合规性高效的变更管 理可提供所有变更的详细核查痕迹,指明每个变更的授权人、授权时间、执行人和执行时间 大大减少花在实现和证明监管合规性上的时间与人力消耗4.2系统部署自动化平台的部署上考虑采用国际公认的有代理的解决方案,即在被管理服务器的操作系 统上安装操作代理,用户登录到自动化平台的客户端,通过自动化平台应用服务器运行任务与 操作,为典型的三层构架,同时,运维数据库与记录运维历史信息的报表数据库区分开来,如 下图所示:Server Configuration Management ToolGnqfifuEinn 4-djTTini.5iFjrirr|Ad hoc dKiuiryWukSqws ServerSu-JhtuVMWiin; ESX Server4.3实施范围针对我部管辖的服务器实施自动化,操作系统类型包括:HPUX 11iAIX 5.3/6Redhat Linux Advanced Server 4/5SuSE Linux 9/10Solaris 9/10Windows 2003/2008拟完成自动化的运维内容涉及:设备和配置发现,操作系统安装,补丁管理,应用程序分发 日常巡检,操作审计,合规审计,配置跟踪,脚本执行,变更操作,作业调度 虚拟机管理,远程管理,服务器单点登录。
