
智能化运维之IT系统统一监控预研报告.doc
11页共享知识 分享快乐IT 系统统一监控预研报告页眉内容共享知识 分享快乐目录IT 系统统一监控预研报告 ..........................................................................................11引言 ....................................................................................................................32平台建设的目标 ..................................................................................................32.1建立健全企业 IT 运行监测指标体系 .................................................................32.2完善公司业务监测指标体系,保障业务连续性.................................................42.3管理业务系统容量 ...........................................................................................53平台架构 .............................................................................................................53.1 平台技术架构 ...............................................................................................53.1.1采集层 ..........................................................................................................63.1.2处理层 ..........................................................................................................63.1.3展现层 ..........................................................................................................63.2 平台功能架构 ....................................................................................................74对新核心系统建设的要求 ....................................................................................84.1 规范系统日志输出 .............................................................................................84.3提供服务持续可用性监控方法 ........................................................................105 结论 11页眉内容共享知识 分享快乐1 引言随着信息系统规模持续扩大, 业务应用的不断增加, 服务用户对象的日益增多, IT 运维管理人员逐渐面临着三大难题:(1) 设备和业务种类繁多,各类资料信息分散 ,导致位于一线的 IT 运维监控人员感知故障的速度晚于信息系统的使用用户 ,且故障发生后缺乏对信息系统的整体把控 ;而后台管理人员也往往因为信息系统 性能数据 和故障数据 的匮乏而缺少对系统运行健康度的了解。
2) 核心机房可能分布于多个地点 ,部署范围广泛,设备繁杂 ,对于大批最网络设备、主机服务器、 应用系统没有一个统一的监控平台, 不能制定统一的故障预警管理策略,故障预警效率低,业务恢复时间慢 ;(3) 对关键核心业务系统的运行健康程度缺乏评估手段和预警措施 ,只能被动等待问题发生,无法提前采取技术手段和管理手段规避问题在此背景下,总分公司一线运维人员数量多但是经验不足, 后台运维工程师经验丰富但是数量少, 这些矛盾促使我司在新系统建设时需同步 建设一套一体化的 IT 运维监控和服务预警平台 ,协助以自动化的手段完成信息系统的监测和维护2 平台建设的目标2.1 建立健全企业 IT 运行监测指标体系首先,平台的主要目标是加大对公司内部各遗留及专有监控系统的整合力度,提高 IT 运控中心对公司内其他分支机构 IT 系统管理、检测和把控能力,建立并完善 IT 系统监控、 IT 运行事件响应、 IT 系统故障处理、 IT 健康度报告、 IT页眉内容共享知识 分享快乐运行问题跟踪和反馈机制,引人自动化 IT 运维管理工具 ,从而在公司内部建立健全运行管理控制能力, 实现 IT 健康度和业务连续性治理 。
在此基础上, 进一步优化监控策略, 实现对设备及服务项全面、 细粒度的监测,预警和管理,主要包含以下方面:(1)打造多平台环境下安全稳定髙效的检测代理及检测工具 ;(2)在实现对各类业务系统、硬件和网络设备、机房环境等实时检测的基础上,完善对新核心系统的全流程监控, 根据性能数据进行预警, 并将性能数据和故障数据引入事件管理平台进行后续治理, 以可视化的方式向运维人员提供一览式的 IT 服务健康状况视图;(3)构建集成监控平台,对平台的检测插件、检测机制、预警算法、视图展现等监控资源进行统一管理, 实现大屏集中式告警 ,便于后台管理人员直观地看到系统整体健康程度; 通过视图的灵活组合可以快速定位故障点, 结合知识库缩短处理时间因此, IT 运维自动化是一组将静态的设备结构转化为根据 IT 服务需求动态弹性响应的策略,目的就是实现 IT 运维的质量,降低成本2.2 完善公司业务监测指标体系,保障业务连续性随着公司信息化的发展, IT 技术已经从业务支持逐步走向与业务的融合,并成为公司稳健运营和发展的支柱公司内部很多业务流程都已经在 IT 部门的支持下实现了流程的再造和优化, 提炼并制定了相应的流程图、 流程文件及流程运作机制。
但是目前我们 对于公司内部业务风险的管控尚处在初步阶段 各类业务流程依然面临着来自内部和外部的各种业务风险 例如内部业务风险主要来自于员工和服务商对信息系统的不当应用, 如非授权操作或误操作; 外部业务风险主要来自于外部的不安全事件, 如黑客攻击、 机房环境变化等 对应用系统进行页眉内容共享知识 分享快乐业务监控,能够及时识别业务风险, 有效进行相应的主动规避操作, 避免造成损失2.3 管理业务系统容量通过业务监控平台可以密切监控业务系统性能, 包括系统的业务处理量、 处理性能、各资源使用状况等, 通过对系统资源瓶颈的分析, 可以降低或提高业务系统容量;3 平台架构3. 1 平台技术架构运维平台能够对各类计算机设备、网络设备、安全产品、应用系统等 IT 设备运行状况和各种网上行为 进行集中监控 ,对各类设备进行 全面集中的统一管理,及时发现各类异常情况、快速定位各类事件故障并 自动形成“工单”、自动分派,再由调度系统进行分派, 由系统按预定流程规则进行自动化处理或人工处理的运维业务信息管理系统 使运维工作由被动变主动, 由手动处理变成自动处理,并大大降低了运维人员的工作强度,具备良好的延展性 ,如下图所示 :页眉内容共享知识 分享快乐如上图所示,一体化运维监控平台的系统整体框架由下及上划分为 3 层数据采集息(采集层)、数据处理层 (处理层)和数据使用层 (展现层 )。
此外,通过平台的管理控制台 ,在各个层面都能够对平台进行全方位的配置管理3.1.1 采集层采集层主要负责采集信息系统的 性能数据和故障数据 ,通过在信息系统服务器上部署 Agent, 或者通过 SNMP 协议采集等多种方式与外围系统对接, 获取所述基础数据采集层被动地接收平台服务器发出的采集指令, 执行相关的信息采集插件,将采集到的数据放人队列和数据库中,便于后续的分析和数据挖掘3.1.2 处理层数据处理层根据 不同监控对象的自身特点 和运维管理需要 ,灵活定制相应的性能指标集 ,定义所述性能指标集中每个指标的监测范围、数据来源 , 计算方法、预警阈值、测量频度参数,通过 实时和历史性能图表 ,进行监测、分析和确定系统性能瓶颈,若超过预警阈值的状况,自动建立事件,并通知运维人员,由调度系统进行指派,由运维人员手动处理或按照流程规则由自动化运维工具处理3.1.3 展现层展现层分 信息系统全局视图 、系统健康度巡检报表 、检测数据査询 三个部分全局视图可以展现实时 监视告警情况 ,利用巡检报表, 系统管理员可以分析系统性能状况,并记录进事件管理平台上述综合展示通过业务视图、逻辑拓扑、重要设备、告警统计各个不同视图,将 运维管理工作所关注的内容有序、实时、全面地呈现出信息系统资源和业务系统的整体运行状况 。
