
IT部门运维年终总结报告(PPT59页).ppt
60页年终工作总结年终工作总结 ——运维部运维部运维年度报告运维年度报告一——关于运维运维年度报告二——运维现状运维年度报告三——运维规划运维年度报告四——运维建设运维年度报告五——运维总结运维年度报告六——来年目标关于运维关于运维——运维的概念 他们可能是在办公室中安装系统、帮同事排除机器故障的技术支持;他们可能在机房干着插网线、搬机器、拆服务器箱子的体力活儿;他们可能是天天盯着N个监控屏幕、8小时一动不动盯着流量图的监工;他们可能是在BOSS、开发工程师、网络/系统工程师、DBA中间跑来跑去的沟通者;他们可能是在夜半三更收到服务器监控系统的警报,起床赶到机房的特种部队;……他们自称IT民工,神仙,装机男以及SA(快速响应者)他们的统一称谓叫做运维,同时也有技术支持、系统管理员(SA)、网管、网络工程师、研发工程师、架构师……等多种称谓种种看似凌乱、不相干甚至矛盾的工作,都是运维 运维到底是什么? ■ 设备管理:对网络设备、服务器备、操作系统运行状况进行监控 ■应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理。
■ 数据/存储/容载管理:对系统和业务数据进行统一存储、备份和恢复 ■ 业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI关键绩效指标Key Performance Indicators) ■ 目录/内容管理:对于企业需要统一发布或因人定制的内容管理和对公共信息的管理 ■ 资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互 ■ 信息安全管理:目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127种控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等 ■ 日常工作管理:规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段关于运维关于运维——运维管理的内容运维管理的内容关于运维—运维的重要性•完善的运维管理是企业提高经营水平和服务水平的关键。
•运维负责管理和维护公司业务系统的核心——用户数据•运维负责管理和采购业务系统硬件•运维负责生产环境性能优化•运维负责管理和维护业务系统的安全•运维负责处理生产环境故障处理和运营保障关于运维—运维需要做什么?l业务可用性 所谓业务可用性(availability)也即系统正常运行时间的百分比,这是每个运营团队最主要的 KPI (Key Performance Indicators ,关键业绩指标)对于 Web 站点来说,现在业界更倾向用 N 个9 来量化可用性, 最常说的就是类似 “4个9(也就是99.99%)” 的可用性关于运维关于运维——业务可用性业务可用性运维能力最直观的表现是业务可用性运维能力最直观的表现是业务可用性运维年度报告运维年度报告一——关于运维运维年度报告二——运维现状运维年度报告三——运维规划运维年度报告四——运维建设运维年度报告五——运维成果运维年度报告六——来年目标运维现状—运维发展的几个阶段救火式运维监控式运维规范化运维智能化运维通过监控系统,集中管理和监控所有主机运维事务较为完善,故障响应时间更短业务集群,故障自动响应,业务不中断疲于奔命,对于突发事件缺乏智能判断,无法做出迅速响应。
安全性稳定性稳定性 运维年度报告—运维建设运维建设奉献智慧创造价值自我实现安安 全全稳稳 定定高高 效效系统运维部,旨在为满足公司各项运营系统需求,为系统正常运行提供技术支持,保障全线产品的高效运营职能概述工作宗旨工作理念不断提高年度运维报告—运维建设运维年度报告—运维职能运维职能运维年度报告——运维职能运维运维工作工作网络网络管理管理数据数据备份备份上线上线管理管理系统系统监控故障故障处理处理系统系统优化优化运维年度报告运维年度报告一——关于运维运维年度报告二——运维现状运维年度报告三——运维规划运维年度报告四——运维建设运维年度报告五——运维成果运维年度报告六——来年目标高效稳定安全运维核心业业务务保保障障能能力力运维年度报告—运维规划运维规划运维三大核心高效性高效性用户满意用户满意执行力执行力可扩展性可扩展性稳定性稳定性安全性安全性四大方向——着力提升业务服务能力运维年度报告—运维规划运维规划运维年度报告—运维管理运维管理规范化运维事务响应流程运维年度报告—风险分析风险分析运维年度报告—安全架构安全架构运维年度报告运维年度报告一——关于运维运维年度报告二——运维现状运维年度报告三——运维规划运维年度报告四——运维建设运维年度报告五——运维成果运维年度报告六——来年目标运维年度报告—资产汇报资产汇报 增强了对设备的可控性,资源调配更加合理。
增强了对设备的可控性,资源调配更加合理运维年度报告—运维事件运维事件运维年度报告运维年度报告一——关于运维运维年度报告二——运维现状运维年度报告三——运维规划运维年度报告四——运维建设运维年度报告五——运维成果运维年度报告六——来年目标年度运维报告—运维成果运维成果l零: l一: l三: l四: l五:l六:运维年度报告—运维管理成果运维年度报告—运维成果 作用: 通过监视平台,可即时掌握系统状态和系统故障,即时处理故障,同时通过统计数据对性能进行充分分析对系统做出新的评估促进系统改进和升级状状态态性能系统监视平台故障系统运维—性能监视性能图表性能图表——应有尽有应有尽有系统监视—服务告警•邮件通知,一条不漏邮件通知,一条不漏• 网页监视,语音提示网页监视,语音提示您有新短消息,请注意查收您有新短消息,请注意查收•短信通知,随时随地短信通知,随时随地Service: Disk_/swapon host_OAsjkAddress: 192.168.0.66is CRITICAL Date/Time: Mon Aug 2 13:35:17 CST 2010监控平台带来的改变可控性主动性透明度改变传统的事找人的局面。
有效提高了对系统性能了解为性能改进提供依据通过性能分析,预知系统趋势提前改进年度技术突破—高效运维•增量备份:增量备份:备份产生数据量小,速度更快,恢复更安全备份产生数据量小,速度更快,恢复更安全•动静分离:动静分离:系统服务更专一,处理效率大幅提高,吞吐量变大系统服务更专一,处理效率大幅提高,吞吐量变大•Memcache优化:优化:查询速度提升,数据库压力减轻查询速度提升,数据库压力减轻•Cache优化:优化:文件读取速度提升,系统效率大幅提高文件读取速度提升,系统效率大幅提高•session 集群:集群:负载均衡,性能提高,业务保障能力全面提升负载均衡,性能提高,业务保障能力全面提升•JVM优化:优化:服务停顿时间缩短,增强持续服务能力服务停顿时间缩短,增强持续服务能力•智能智能DNS::根据用户网络,选择最快访问路径提高响应速度根据用户网络,选择最快访问路径提高响应速度•xfs文件系统:文件系统:采用采用xfs文件系统比传统文件系统比传统ext3效率更高效率更高年度技术突破—高效运维•VPN安全隧道:安全隧道:通过专用通道,使管理更方便,通信更安全通过专用通道,使管理更方便,通信更安全。
•防火墙:防火墙:针对内外网分别采用不同的策略,抵御攻击针对内外网分别采用不同的策略,抵御攻击•远程监控:远程监控:主动报警机制,使故障发现更及时,管理更方便主动报警机制,使故障发现更及时,管理更方便•权限控制:权限控制:通过构建账户与文件权限策略,使操作更安全通过构建账户与文件权限策略,使操作更安全高效运维—系统优化 多角度全方位优化多角度全方位优化增量备份:增量备份:备份产生数据量小,速度更快,备份产生数据量小,速度更快,恢复更安全恢复更安全系统优化—增量备份 7天天 5天天 1天 3天备 份服务器数据库备份备份第第8天,是什么情况?天,是什么情况? 1天 40天备 份服务器数据库备份备份引入增量备份技术后引入增量备份技术后在一次全量备份的基础上,做增量在一次全量备份的基础上,做增量备份,只需备份每日改变的数据备份,只需备份每日改变的数据 20天 5天系统运维—系统优化 多角度全方位优化多角度全方位优化•动静分离:动静分离:系统服务更专一,处理效率大幅系统服务更专一,处理效率大幅提高,吞吐量变大提高,吞吐量变大系统优化—动静分离动态内容动态服务静态内容静态服务静态服务杂七杂八,力不从心。
杂七杂八,力不从心内容请求内容请求 优化前优化前::一个系统承载多种服务从资源利用上说是节约成一个系统承载多种服务从资源利用上说是节约成本,但系统效率显得比较低下系统性能得不到完全有效发挥本,但系统效率显得比较低下系统性能得不到完全有效发挥系统优化—动静分离静态服务因为专注,所以高效因为专注,所以高效内容请求内容请求 优化后:优化后:静态内容和动态内容由不同服务器处理各司其职,静态内容和动态内容由不同服务器处理各司其职,各尽所长单个系统性能得到充分发挥,综合系统整体性能表各尽所长单个系统性能得到充分发挥,综合系统整体性能表现明显提升现明显提升动态内容静态内容前导器系统吞吐量变 大动静分离动静分离系统运维—系统优化 多角度全方位优化多角度全方位优化•智能智能DNS::根据用户网络,选择最快访问路径根据用户网络,选择最快访问路径提高响应速度提高响应速度系统优化—智能DNS电信用户移动用户电信用户联通用户智能DNS联通服务器联通用户移动移动用户用户电信服务器电信用户 移动服务器用户体验,访问速度更快了访问速度提升系统运维—系统优化 多角度全方位优化多角度全方位优化•session 集群集群::负载均衡,性能提高,业负载均衡,性能提高,业务保障能力全面提升。
务保障能力全面提升系统优化系统优化—session 集群(集群(cluster)技术)技术服务请求服务请求数据库web服务器 优化前,系统服务可能发生的状况优化前,系统服务可能发生的状况......用户反应:怎么又不能用了?用户反应:怎么又不能用了?......服务器4服务器1服务器5服务器3服务器6服务器2前导器采用服务器集群和负载均衡技术,服务更加稳定系统优化系统优化—session 集群(集群(cluster)技术)技术系统优化—session 集群(cluster)技术服务器4服务器1服务器5服务器3服务器6服务器2前导器服务请求服务请求优化后,业务保障能力大幅提升用户满意度提升优化后,业务保障能力大幅提升用户满意度提升业务保障能力提高系统运维—系统优化 多角度全方位优化多角度全方位优化•校讯通系统校讯通系统Cache优化:优化:文件读取速度提升,系文件读取速度提升,系统效率大幅提高统效率大幅提高cachecache系统优化—Cache优化内容内容内容磁盘磁盘文件请求文件请求没有没有优化前:优化前:大部分文件请求,都必须通过磁盘查找效率低下大部分文件请求,都必须通过磁盘查找。
效率低下cachecache系统优化—Cache优化目标内容内容内容内容内容内容磁盘磁盘文件请求文件请求一下就找到了,我就知道你在这里Cache优化以后,将频繁请求内容写入cache,从而提高文件访问效率优化后:优化后:文件直接从文件直接从cache中读取,且命中率高达中读取,且命中率高达98%,效率,效率更高系统性能提升系统运维—系统优化 多角度全方位优化多角度全方位优化•校讯通系统校讯通系统JVM优化优化::服务停顿时间缩短,增强服务停顿时间缩短,增强持续服务能力持续服务能力系统优化—JVM优化优化前:优化前:由于由于JVM垃圾清理,所引起的服务停顿,导致的部分垃圾清理,所引起的服务停顿,导致的部分用户体验满意度下降这种情况可能随着人数的增多而增多用户体验满意度下降这种情况可能随着人数的增多而增多1000人访问系统时人访问系统时500人访问系统时人访问系统时更多人访问系统时更多人访问系统时访问故障系统优化—JVM优化优化后:优化后:服务停顿时间大大缩短用户体验更加良好服务停顿时间大大缩短用户体验更加良好1000人访问系统时人访问系统时500人访问系统时人访问系统时更多人访问系统时更多人访问系统时访问故障系统优化—JVM优化1000人访问系统时人访问系统时500人访问系统时人访问系统时更多人访问系统时更多人访问系统时优化前优化前优化后优化后系统性能提升系统运维—系统优化 多角度全方位优化。
多角度全方位优化•校讯通系统校讯通系统Memcache优化:优化:查询速度提升,数查询速度提升,数据库压力减轻据库压力减轻系统优化—Memcache优化前端服务器前端服务器数据库服务器数据库服务器服务请求服务请求我快不行了,你想累死我啊我快不行了,你想累死我啊优化前:数据全部从数据库中读取,系统效率主要受数据库优化前:数据全部从数据库中读取,系统效率主要受数据库影响,数据库压力较大影响,数据库压力较大数据库数据库服务器服务器Memcache系统优化—Memcache技术数据库数据库服务器服务器前台前台服务器服务器服务请求服务请求后台后台服务器服务器“数据库兄弟,我来帮你数据库兄弟,我来帮你 :: Memcache引入后,大部分数据查询从缓存服务器中引入后,大部分数据查询从缓存服务器中直接读取,效率将大幅提升,同时数据库压力也将大大减轻直接读取,效率将大幅提升,同时数据库压力也将大大减轻优化后优化后运维年度报告运维年度报告一——关于运维运维年度报告二——运维现状运维年度报告三——运维规划运维年度报告四——运维建设运维年度报告五——运维成果运维年度报告六——来年计划2011年工作计划2011年工作目标救火式运维监控式运维规范化运维智能化运维安全性稳定性稳定性运维是一份持久,重复,挑战而长远的工作!逐步逐步完善完善专业化专业化规范化规范化流程化流程化by:逸马驰骋:逸马驰骋::441886051 欢迎交流,批评指正。
欢迎交流,批评指正演讲完毕,谢谢观看!。












