
监控管理系统和运维管理系统地关键事项.docx
7页精品资料,欢迎大家下载!运维监控平台建设技术说明概要建设技术需求:技术需求1总体要求平台基于.NET或J2EE技术开发,可跨平台部署,系统支持多级部署模式,以满足后期全省运维体系大集中的需求.整个系统为一体化效劳综合管理平台,要求所有功能模块必须为问一厂商设计规划开发而并非间单集成;系统米用SmartClient〔B/S登陆、C/S操作〕或B/S技术架构,客户端免维护,全中文管理界面.支持统一Portal门户管理,需有元善的用户管理功能,不问角色的用户拥有不同的管理监控权限与相应界面,所见即所得,支持分级权限管理.平台主要包括监控管理和运维管理两大局部,其中:监控管理主要包括:网络系统监控、效劳器监控、操作系统监控、数据库监控、中间件监控、应用监控等.运维管理主要包括:ITk管理、配置管理、变更管理、事件管理、问题管理、知识库管理、任务管理等.平台软件应包括对100台效劳器、50台网络设备、50台平安设备、20个数据库、20个中间件的监控与相关功能,还包括应用可用性监控〔web/ftp/email等〕30个下点.整个平台为一体化效劳综合管理平台,要求所有功能模块必须为问一厂商统一设计规划开发而并非简单集成;平台必须支持开放接口与二次定制开发功能.2监控管理1、监控管理总体要求监控管理要求必须实现省局整个数据中心的IT根底设施全局监控,包括网络系统监控、效劳器监控、操作系统监控、数据库监控、中间件监控、应用监控等;1〕监控米集需支持SNMPSYSLOGFTP、JDBCTELNETSSHAgent脚本等多种主动轮询与被动接收方式,监控采集过程要求必须不影响设备与业务系统的正常运行;2〕系统能够从多种角度展现监控视图,包括网络拓扑、设备分类展现、分不同区域关联展现,从业务角度关联展现,机房机架展现、效劳器驾驶舱展现等;3〕告警管理支持性能告警管理、关联告警分析、故障分析处理、告警事件与效劳流程工单联动触发、统一报表展现、系统管理、工具集等模块;4〕整个监控管理可方便、清晰的展现整个IT系统的健康运行状态和相应告警.2、网络系统监控网络系统监控主要对路由器、交换机、防火墙、IDS/IPS/网闸等设备进展监控和管理,实现网络拓扑管理、网络性能管理、网络配置管理、网络故障管理等功能,支持主流网络和平安设备厂商.支持网络中可基于SNMP1、议的网络设备监控管理需实现网络拓扑管理、网络性能管理、网络故障管理、网络配置管理等.系统能够统一进展用户全网拓扑展现,提供全网网络设备性能监控、并提供ping、tracert、telnet、网络设备配置文件自动定期备份等一系列自动化管理手段.(1) 网络拓扑视图支持网络节点的自动发现,网络拓扑结构的自动生成与实时更新.对于自动发现的网络设备的不同平台的主机以不同的图标显示,对于无法自动识别生产厂家与产品类型的网络和主机设备,提供手工方式加以定义;可方便、直观的定制网络监控策略、发现过滤策略;提供网络物理拓扑图、逻辑分类视图,各视图层次清晰,可编辑视图.(2) 网络性能管理可根据被管理的类型与其属性,定时采集性能数据,如CPU利用率、内存利用率、端口利用率、端口错误率、端口丢包率、端口流量,并将数据保存在数据库中供统计、分析使用;对每一个被管理对名,可针对不同的性能指标进展阈值设置,设置阈值检查和告警,提供相应的阈值管理和溢出告警机制;支持对监测阀值和监测平率的统一修改;网络性能数据要可保存到数据库中,进展分析,统计和整理,根据不同的时间粒度生成性能趋势曲线,以直观的图形反映性能分析的结果,能够监测网络设备的温度、风扇、电源运转情况.〔3〕网络故障管理可监控网络中发生的各种事件,对于不同的故障等级给予不同的显示,可提供多种报警方式,如:短信、电子,声音,界面等.对网络流量异常情况进展监控;支持对STRVTROSPFBG"协议的分析和识别;支持对非法主机接入的自动发现,并可发现MA^DIP的对应情况与其连接的交换机和接口;支持对VLAN与所属VLA僧备的管理,能够直观的呈现网络中的VLAN信息与其所属设备;能够定位播送风暴,具有对播送风暴监控的功能,能够统计分析播送风暴的根源设备;能够实时监测网络线路的丢包;〔4〕网络配置管理能够实现网络设备的配置文件的备份和恢复;可以方便的对网络设备的配置文件进展下载和上传;能够自动发现上述网络设备的型号、IP地址列表、各接口列表、CPU内存、硬盘,并可以自动更新自动发现的结构;支持基于设备面板的管理,可以在设备面板上真实、实时的显不'设备各端口连接状态和性能信息.3、效劳器与操作系统监控支持旧M、HP小型机、主流PC效劳器的监控和管理,包括AIX、HP-UNIX、LINUX、windows操作系统的监控和管理,同时也必须支持虚拟化主机的监控管理,包括物理实体主机与虚机的性能指标.可基于SNMPsyslog、ssh、telnet等多种采集指标方式.〔1〕效劳器系统监控管理CPU性能管理:可监视系统CPU^IJ用率,可根据占用CPU的情况给出系统所运行的进程列表;内存使用情况管理:可监视系统内存的利用率以与虚拟内存的使用率;硬盘利用情况管理:可显示硬盘或磁盘阵列的使用率;可显示用于文件读或写操作的磁盘I/O利用率;系统进程管理:可实时监视系统进程的运行状况,并能在系统进程出现异常时给出告警;〔2〕效劳器系统文件系统管理可实时监视文件系统空间的使用情况,并在文件系统到达一定的阈值时给出告警.〔3〕效劳器操作系统应用进程管理监控应用系统进程的运行状态,可在应用系统进程出现异常时给出告警,并能在主要用系统的进程终止时给予自动重启该进程的操作,同时发送告警到控制台;对关键进程占用系统资源的情况进展管理;可实时检测应用系统的可用性;〔4〕效劳器操作系统运行日志管理要求可自动对系统syslog日志内容进展分析,判断系统中的重要错误、警告以与性能等问题,并给出相应的告警;对主机系统与其外设的硬件故障可通过对其相应的故障日志的分析,做出与时的告警;〔5〕效劳器硬件监测能够监测旧M、HP等效劳器的硬件状态,如温度、风扇和磁盘运转情况,同时能够支持对常见Vmware等虚拟机的监测.4、数据库监控支持对系统中的ORACLESYBASESQLSERVERDB2MySQL等主流数据库进展监控与管理.能够数据库的实时性能运行状况、各种性能指标进展监控,以保证数据库的正常运作.〔1〕运行监控效劳器实例的可用性,监控数据库实例的状态,登陆的用户数等;空间监控:监控数据库表空间、日志的使用情况,碎片情况,超过指定阈值如此报警;显示和过滤数据库告警信息和数据库日志中的报警.(2)性能监控锁资源监控,对阻塞了其它会话的锁进进展街区,以与监控可用的锁;对数据库事务的监控,包括提交的事务,回滚的事务百分比等;监控缓冲区,磁盘I/O等相关的性能数据;监控数据库会话的数量,包括会话中当前活动和最近活动的SQL语句会话的资源消耗、会话等待的事件,会话的锁活动等;5、中间件与应用监控监控中间件与WEB\HTTP\FT株键的运行状态和性能.涉与的产品WEBLOGICTUXEDOWEBSPHEREMQTOMCATOSSEXCHANG等〔1〕可用性监控当中间件效劳器实例或其他被监控组件出现异常事件时报警;可集成中间件管理软件的管理水平,可启动、关闭、锁和解锁效劳器,具有强制垃圾惧水平,创立,优化和摧毁JDBC连接池,发布应用等功能;〔2〕性能监控监控中间件效劳器占用资源CPU内存占有情况;监控中间件应用效劳器翻开连接数;监控中间件应用效劳器Sockets数;监控中间件应用效劳器总交易数;退出交易数和提交交易数;对中间件应用效劳器JSP/SERVLE褴控:最大执行时间,平均执行时间,重新加载累计值,重新加载累计值比率;〔3〕应用监控支持web、ftp、email等应用的正常运行、连通性等监控管理〔4〕MQe:控支持对M"作状态的监测.支持对Mg列最大深度、队列当前深度、每秒平均输入/输出次数的监控支持对MQ®道状态、当前事物个数、每秒平均接收发送字节的监测6、存储系统监控能监测主流存储设备的状态信息、磁盘状态、盘阵CACHE勺读写命中率、盘阵通道状态、盘整内I/O性能分布等.7、告警模块承受监测X围内的故障告警信息,系统能自动承受来自系统自动巡检和被管系统主动发出的告警信号,并对告警事件进展过滤和归类处理;支持告警定义、过滤、压缩、关联、升级等多种告警处理方式;告警触发必须支持文字、声音、短信等方式告警,需提供与短信平台接口,并提供与用户现有短信网关互通,实现告警触发功能;保证告警的高度准确性,提供故障信息的事件关联处理,防止重复报警和误报,在发现系统异常后,可以根据用户的设定发送报警;需实现重要告警自动触发故障事件管理流程工单下发功能.发现被监测的监视项故障,系统可进展重复检查验证,且可配置对故障的检查验证次数.支持根据时段设置预警和报警策略,可在非工作时间报警.1、IT资产管理建立配置管理信息库CMDB,资产管理配置包括资产的X围、来源、状态、资产责任人等配置属性,使管理人员对整个数据中心的资产状况有全面的了解,动态管理信息系统内部的IT资产情况.可以根据用户的要求对资产进展分类和统计.2、配置管理可以自动识别IT组件的类别、厂商、功能,并识别IT组件之间的关系,例如、连接关系、使用关系、组成关系、涉与关系.支持对IT组件的完整生命周期管理,具体包括:采购中,使用中,维修中等.运维管理可根据IT业务应用的角度和IT根底架构的角度,对IT组件进展可视化管理.3、变更管理对变更审批和变更实施过程进展正确记录,并提供后续的审核和历史信息统计.可根据变更的类型进展统计.合理定义变更的类别和优先级,实现变更的高效执行和有效分析统计.可以由用户申请产生变更请求,在变更请求中记录变更申请人、变更请求状态以与详细的信息描述,包括实现变更必须完成的特定活动,该变更对业务的影响程度等.变更可根据严格的审批流程进展,没有通过审批的变更请求,能够自动禁止变更工单的派发.利用管理信息统计等手段对流程的执行提供统计、分析和查询等功能.4、事件管理事件的提交应具有通过监测自动生成事件、用户通过Web方式提交事件、管理员手动提交事件三种方式.事件在提交后,系统可自动匹配知识库与以往同类事件中的处理过程,保证并提升事件的处理效率.事件处理的根本工作流程应该包括故障确认与记录、归类和初步支持、故障调查与分析、解决故障、关闭.对于复杂或重大故障,解决故障的步骤多、过程相对复杂,还要求提供更为灵活的工作流程支持.事件记录至少包括以下内容:事件编号〔唯一性〕、事件类别、故障日期与时间、事件申告人信息、事件记录人、事件描述、事件紧急程度与处理优先级、事件状态〔待处理、处理中和终止〕、相关配置项、事件原因、事件解决方案、配置变更情况、事件处理人员、解决日期与时间、事件终止日期.5、问题管理与知识库管理提供图形化问题审控流程设计功能,在问题提交后可自动发现同类提交问题,并根据类型归并或者取消操作此问题.实现问题和事件记录的关联,可以从问题记录查询到相关的所有事件,反之亦可.管理人员可以将各种故障处理的步骤和方法写入知识库,以有效帮助其它管理人员与时、有效地处理故障,同时可以提升整个运维团队的系统管理水平完整记录针对各类问题的解决方案、测试方案与环境条件和结果,经过一定的分析、归纳和整理的过程后针对该类问题的解决方案,以实现有效的知识积累和分析,生成知识库,便于指导以后问题和事件的解决.提供问题查询功能,根据问题库中的任意字段实现模糊查询和准确查询问题知识库,如根据问题类别、系统类别、关键字等.制订合理的人员角色和。
