好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

IBM_P系列小型机日常维护故障定位故障排除手册(精品).doc

25页
  • 卖家[上传人]:壹****1
  • 文档编号:420253515
  • 上传时间:2023-03-04
  • 文档格式:DOC
  • 文档大小:227.50KB
  • / 25 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • IBM P系列小型机日常维护/故障定位/故障排除手册1. 机房环境及物理检查1.1. 机房内环境要求1.1.1. 温度与湿度:最佳工作温度:20-25摄氏度极限工作温度:10-40摄氏度 湿度: 8-80%(在23摄氏度条件下)如果不是工作在最佳温度,请注意改善机房环境1.1.2. 机房要保证清洁.机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损1.1.3. 电源要求电 压: 要求电压稳定, 尖峰电压会损坏设备电压范围: 220V +/- 10%, 即200-240V, 50-60Hz电源功率: 视机器类型和系统配置而定电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过1.0V.电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.1.2. 硬件检查检查服务器、磁阵的安装、电源线、7133和主机接线符合要求1.3. 服务器状态检查及其相关命令1.3.1. 外观状态检查:1. 当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。

      2. 当液晶显示器上出现带数字和字母的信息时,说明有硬件告警可以通过查询相关机型的Service Guide查到相应告警原因,情况严重的,则要立即通知IBM技术专家进行问题排查1.3.2. 命令状态检查1、运行lsdev 命令配以各种参数,所列各种设备状态都应为Availablelsdev –C –H –S a 列出系统中可用设备lsdev –Cc processor 列出系统中的所有CPUlsdev –Cc memory 列出系统中的所有内存lsdev –Cc disk 列出系统中的所有硬盘lsdev -Cc adapter | grep ent 列出系统中的所有网卡#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡2、lspv命令#lspv 显示系统中可用的PVlspv hdiskn 显示hdiskn的具体信息。

      lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息对SSA硬盘的检测:在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘,并且状态应为Available.3、 lsattr命令# lsattr –E –l mem0 列出系统中内存mem0的大小,本项目中内存有4GB4 、lsvg命令#lsvg 列出系统中所有的vglsvg rootvg 列出rootvg的详细信息lsvg –o 列出激活的vg5、 oslevel命令#oslevel 显示操作系统版本信息6、 netstat命令#netstat –in 显示系统中各网卡的配置可查看网卡的IP配置好了没有7、 # diag 命令通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为 “No trouble found ”显示各部分工作正常8、 使用#diag命令(选择:Task Selection-> SSA Service Aids)对SSA硬盘链路连接的校验,可以通过SSA 工具里的Link Verification 来检测。

      如有必要,可以用 Certify Disk运行硬盘诊断部分进行硬盘的表面分析测试 ,由1% 至100%,检测结果显示主机内置硬盘的所有扇区均读写正常9、 lsps –a 查看PAGING SPACE的使用情况如果使用率超过70%,就需要采取措施10、 lsvg –o | lsvg –il | grep –i stale查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施11、 有否发给root用户的错误报告(mail)12、 检查双机状态lssrc –g cluster 检查ha三个工作进程是否激活,/usr/sbin/cluster/clstat –a检查双机状态是否up,并检查hacmp.out日志,看是否有异常信息13、 用vmstat, topas,sar 命令检查系统性能检查cpu\memoyr\IO ,是否存在性能瓶颈14、 检查能否顺利进入CDE界面如果不能进入的话,要检查/etc/hosts表中有否错误的项目15、 用smitty ssaraid 查看磁盘阵列RAID盘的状态是否是Good如果是degrade或其他状态表示RAID盘出现问题了16、 用sysdumpdev –l 查看系统的DUMP设置是否正常。

      17、 用instfix –ik | grep ML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要一般要求433操作系统补丁要打到10以上,5.1操作系统补丁要打到5以上18 、使用df –kP查看磁盘空间占用率请确保以下文件系统的占用率高于80%立即上报: / /var /usr /home /tmp /zxindata/zxinbak,其余文件系统的占用率高于95%立即上报也可以到各文件系统下使用组合命令:find . –size +2048 –o ctime 1 –exec ls –l {} \; 查出大于1M或一天之内修改过的文件19、系统性能 内存:svmon、lsps -a Cpu :sar 硬盘:iostat 文件系统:filemon 其他命令: vmstat、topas、lvmstat20、磁带机是否需要清洗 /usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗21、syncd 参数值: 缺省值:60;范围:1 到任何正整数显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot更改: 更改在下次引导后有效,而且是永久有效。

      备用方法是使用命令 kill 来终止守护程序syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它诊断: 当 syncd 正在运行时,文件的 I/O 被阻塞了调整: 在缺省级别上,这个参数几乎不影响性能不推荐对这个参数进行更改为了保持数据完整性对于 HACMP而使 syncd interval 明显缩小,会导致性能下降更改命令为: #vi /sbin/rc.boot22、检查 errdaemon, srcmstr 是否正常运行# ps -ef|grep err# ps -ef|grep src1.4. 性能监控与调优通过命令vmstat 1 来观察.kthr memory page faults cpu----- ----------- ------------------------ ------------ -----------r b avm fre re pi po fr sr cy in sy cs us sy id wa命令解析:vmstat 命令的输出可以反映系统整体运行状况,包括cpu、内存、虚拟页面、系统进程和系统调用情况。

      检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.检查MEM是否为瓶颈,分别检查Memory的两项数值和Page 的六项数值.命令解析: sar可以用来收集反映系统运行状况,在这里主要是查看CPU的运行状况,CPU是否负载均衡,是否存在分配不均的情况通过命令ps gv | more来观察PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND 0 - A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper 1 - A 1:33 103 78952 79044 32768 25 36 0.0 29.0 /etc/init命令解析:ps可以用来查看进程的当前状态在这里通过参数的配搭,可以观察目前正在运行的进程所耗的时间,CPU和memory 量.其中,%CPU表示进程所占用的CPU资源情况,%MEM表示进程所占用的内存情况主要检查是否有标示为的僵尸进程耗用系统资源,以及informix 数据库的oninit进程的系统消耗情况。

      在机器上用dd命令进行磁盘阵列的写操作校验,与此同时用iostat 1 –d hdiskX观察磁盘Disks: % tm_act Kbps tps Kb_read Kb_wrtn命令解析: iostat可以用来查看系统的 I/O的输入输出情况,在这里主要查看阵列上的硬盘的每秒读写量,同时估算磁盘阵列读写速度HHhHhh 通过命令netstat –a 进行查看Active Internet connections (including servers)Proto Recv-Q Send-Q Local Address Foreign Address (state)命令解析: netstat可以用来查看系统的网络情况,在这里主要是查看网络客户端连接的情况和开销,检查参数为state,如有死连接,state状态为fin_wait, 这样耗用系统网络资源,从而导致网络性能下降构成瓶颈1.5. 安全工作守则a.系统定期进行系统备份,系统盘建议镜像b.当有系统变更或进行操作系统补丁安装的时候,必须作一次系统备份。

      c.在7133和shark发现有硬盘故障的时候,请提醒客户注意当天的数据备份在更换硬盘的时候,请确认当天数据备份已经完成d.在更换敏感的电子元件,时候一定要防静电e.在插拔外围设备的时候,请把外围设备下电f.在进行主机微码升级时候,请留意微码的完整性 g.在进行文件删除的时候,请留意当前路径是否正确h.在进行文件解压缩的时候,请留意参数和路径2. 系统日常维护流程2.1. 系统启动系统启动正常顺序如下:首先对外设(磁盘阵列、磁带库等)加电待所有外设加电自检完成后, 主机加电正常起机主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.启动主机HACMP,启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况,在HACMP未完全启动前不要进行下一步检查服务器的网络地址,路由表(可用netstat -i , nets。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.