
服务器硬件维护.ppt
41页按一下以編輯母片標題樣式,*,*,按一下以編輯母片文字樣式,第二層,第三層,第四層,第五層,第二讲(,4,):服务器硬件日常维护及常见故障排 除方法,故障维修注意事项,常见故障处理及调试,主要内容,服务器故障排错的基本原则,服务器硬件维护注意事项,关于最小化和还原出厂配置,故障维修注意事项,1.,尽量恢复系统缺省配置,a:,硬件配置:去除第三方厂商备件和非标配备件;,b:,资源配置:清除,CMOS,,恢复资源初始配置;,c:BIOS,,,F/W,,驱动程序:升级最新的,BIOS,,,F/W,和相关驱动程序;,d:TPL,:扩展的第三方的,I/O,卡属于该机型的硬件兼容列表(,TPL,)吗?,2.,从基本到复杂,a:,系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理b:,硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止c:,软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止3.,交换对比,a:,在最大可能相同的条件下,交换操作简单效果明显的部件;,b:,交换,NOS,载体,既交换软件环境;,c:,交换硬件,既交换硬件环境;,d:,交换整机,既交换整体环境,服务器故障排错的基本原则,只有合格的技术人员才可以对主板进行设置,系统电源开关:系统前面板上的直流电源开关并不能关闭系统电源的交流输入,系统中尚有,8mA,的伺服电流,在设置之前,必须拔下系统交流电源电缆,系统外界设备:必须拔下系统外接网线和,Modem,等外接设备,否则可能会对人员或设备造成意外伤害,静电释放和静电释放保护措施:静电释放会对主板、硬盘、板卡和系统的其它部件造成损害,在您要对系统硬件进行设置时,最好在防静电环境下进行(一端接地),静电释放和板卡持拿:因为板卡上的芯片对静电特别敏感,持拿板卡必须小心,只能接触主板的边沿。
当板卡暂时不用时,必须把它放回专用的防静电袋中,芯片朝上放在接地平台上,机箱盖:为了系统正常散热和空气流通,在系统上电前一定要安装机箱盖,否则会对系统部件造成损害,机架式服务器要特别注意,服务器硬件维护注意事项,确保在机箱和主板之间不存在短路,把和主板相连接的线缆断掉,包括键盘和鼠标,移走所有的外插板卡,安装一颗,CPU(,确保安装牢固,),连接机箱扬声器连线和电源指示灯,LED,连线到主板,检查主板等部件的跳线设置是否正确,硬件维修注意事项,遇到复杂问题时,需要进行机器的最小化操作来进行问题定位,笼统的讲,最小化指单,cpu,、单内存或双内存(根据主板要求决定)、主板、电源接显示器开机测试,其他的板卡、跳线等都去掉但由于机型的差异,通过一些案例分析,我们真正做到最小化了么?,还原到出厂配置要求保证原厂的部件,去掉用户自己扩配的部件,甚至要求,bios,版本的还原关于最小化和还原出厂配置,硬件故障并不单单指硬件有问题,它也指硬件之间不兼容因为服务器的正常运作需要各部件之间的大力协调建议大家在采购各元件时,都采用同一品牌原装的,并且要采用能发挥服务器性能的元件(上例中的旧式网卡即使正常也会严重影响服务器性能),这样才不会发生莫明其妙的故障,排除非标准部件干扰非常重要,外设故障不可小看,这些外设部件往往是最容易被忽略的,但这些故障会被引起以下故障:,蓝屏,-,切换器导致,开机报错,-,键盘导致,开机报警,-,鼠标线缆被老鼠咬了!,-,键盘故障,显示器,-,安装,as4.6,死机,安装其他系统没问题。
必要时要替换测试,故障维修注意事项,常见故障处理及调试,主要内容,硬盘相关故障,开机无显,机器不加电,意外重启,风扇故障,前面板状态灯相关说明,系统相关故障,数据读写缓慢,网络相关故障,常见故障处理及调试,硬盘相关故障,硬盘无法识别,1.,检测不到硬盘,2.,可检测到硬盘数量不正确,3.,开机自检硬盘报错检测到硬盘时报错:,smart error,或,disk I/O error,4.,硬盘亮红灯,5.,阵列中硬盘频繁掉线,硬盘无法识别问题可从以下几个方面考虑,1.,重新拔插硬盘电源及数据线缆,注意是否有接触不良的问题2.,更换硬盘至原先可正常检测到的槽位,如果仍然检测不到则可能存在硬盘损坏故障3.,可检测到硬盘数量不正确实的情况要注意先确定,bios,中是否设置了正确的参数,然后再排除上述,1.2,问题4.,硬盘背板故障5.,磁盘控制器可能存在故障硬盘相关故障:硬盘检测问题,Sata,硬盘的识别问题更多表现在,bios,设置上,例如,bios,中相关,sata,参数设置,硬盘相关故障:硬盘检测问题,例如,bios,中相关,sata,参数设置,硬盘相关故障:硬盘检测问题,检测到硬盘时报错:,smart error,、,disk I/O error,或预期错误,1.,使用现有的硬盘控制器校验硬盘。
2.,出现此类报错时背板或主板也是故障原因但几率较小硬盘相关故障:开机自检硬盘报错,很多机器背板有硬盘故障检测功能,如硬盘亮红灯一般意味着硬盘掉线、背板检测到硬盘存在故障隐患,此时可以从,raid,卡配置界面中查看硬盘的状态,如果处于非掉线状态,需要安装对应的管理软件,从管理软件中查看是否有磁盘,media error,,有一点需要强调,,硬盘亮红灯并不一定意味着硬盘掉线,磁盘相关故障硬盘亮红灯,硬盘相关故障硬盘掉线,对于硬盘频繁掉线的故障,首先校验硬盘是否有坏道,如确定有坏道建议立即更换而不是通过其他修正的方法,经过校验确认硬盘没有坏道,但此硬盘频繁掉线,同样需要更换硬盘,然后依次考虑背板、主板或,raid,卡、数据线、终结器故障常见故障处理及调试,硬盘相关故障,开机无显,机器不加电,意外重启,风扇故障,前面板状态灯相关说明,系统相关故障,数据读写缓慢,网络相关故障,Clear CMOS,检查供电环境,零,-,火;零,-,地电压?,检查电源指示灯,如果亮,正常吗?,按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?,是否更换过显示器,更换另一台显示器去掉增加内存,去掉增加的,CPU,去掉增加的第三方,I/O,卡,检查内存和,CPU,插的是否牢靠,主板是否有显示屏蔽的跳线,更换主要备件,如主板,内存和,CPU,开机无显的维护思路,清,cmos,方法:,用跳线帽将跳线,2,的,b,c,短接,保持,5,秒钟;重启机器使设置生效;关掉机器,将跳线帽接回原先位置即可。
开机无显,-,清,cmos,清,cmos,方法:,用金属物体(如小螺丝刀)将,JBT1,的两个脚点短接即可开机无显清,cmos,单条内存插法:,1.,单内存插在靠近主板边缘的,A1,或,B1,槽位,2.,单内存插在靠近主板内部的,DIMM 1A,槽位上,主板,power,开关跳线位置:,开机无显内存最小化,常见故障处理及调试,硬盘相关故障,开机无显,机器不加电,意外重启,风扇故障,前面板状态灯相关说明,系统相关故障,数据读写缓慢,网络相关故障,确定外插电源线是否正常,更换电源线测试,清,cmos,、最小化,拔插相关部件,在确定外部电源没有问题的情况下,将电源单独取出,插上电源线后短接电源,24,针插座的绿、黑接口,看电源风扇是否转动来确认电源故障台达的一些电源有空载保护机制,不能通过此方法进行测试,还有一些电源有节电功能,必须在电源内部温度达到一定阀值才启动风扇,如,NP110D,共享工程机器,所以也不能用此方法测试),更换主板测试,,(依照现场更换情况定位最终故障),主机不加电,硬盘相关故障,开机无显,机器不加电,意外重启,风扇故障,前面板状态灯相关说明,系统相关故障,数据读写缓慢,网络相关故障,常见故障处理及调试,查看,bios,相关日志及系统日志考虑相关因素,如果是蓝屏重启,可查看,dump,日志进行分析,与系统有关,重装系统,内存和主板是导致硬件蓝屏的主要原因,可对内存进行校验,或对内存进行最小化测试,意外重启,杀毒软件原因,瑞星,天网等杀毒软件或防火墙软件。
驱动问题,硬件故障,实例:接网线蓝屏,stop,:,0 x000000FC,(,f78ae884,2fbf0963,f78ae7f0,00000000,),100s,重启,不接网线运行正常使用,winDbg,分析结果:,Probably caused by:BlackDrv.sys(BlackDrv+11c6),安装了,BlackICE(,黑冰,),防火墙,卸载后正常,案例分析讲解,硬盘相关故障,开机无显,机器不加电,意外重启,风扇故障,前面板状态灯相关说明,系统相关故障,数据读写缓慢,网络相关故障,常见故障处理及调试,风扇相关故障,风扇转速问题:,1.,一些机型有针对不同操作系统的降速调节软件,2.,可通过修正,bios,中相关参数实现自动调节降速,3.,也可通过,bios,修改来实现对风扇转速的控制,风扇故障会造成内部温度过高,出现,cpu,过热而使系统自动断电的情况,可从,bios,监控页面查看风扇转速或查看,bios,事件日志是否有相关信息高端机型机箱风扇本身有状态指示灯,当风扇本身异常时灯状态会有变化,正常状态下风扇指示灯为绿色,故障时会变为橙红色,预示风扇可能存在异常有时风扇故障可能由槽位或其他因素引起,所以对于多个冗余风扇的情况下,尽可能现场交换风扇测试确定可能性原因。
硬盘相关故障,开机无显,机器不加电,意外重启,风扇故障,前面板状态灯相关说明,系统相关故障,数据读写缓慢,网络相关故障,常见故障处理及调试,首先要明确状态灯的不同含义,比如服务器的网卡,有两个状态灯,一个为绿色,加电后常亮,代表网卡通电,另外一个是网络连接状态灯,不亮代表处于,10m,连同状态,绿色代表,100m,连接状态,红色代表千兆连接状态,闪烁代表正在进行数据交换高端服务器一般都有系统状态指示灯,不同机器指示灯含义是不同的,正常情况下是绿色,系统异常时表现为红色,而有点正常情况下是绿色常亮,非紧急故障状态为绿色闪烁,紧急故障情况下是橙色常亮根据不同状态的变化,系统在报警的同时也进行日志记录,此时可参考系统日志、,bmc,日志灯进行问题的诊断和分析关于故障指示灯,前面板状态灯,前面板状态灯说明,硬盘相关故障,开机无显,机器不加电,意外重启,风扇故障,前面板状态灯相关说明,系统相关故障,数据读写缓慢,网络相关故障,常见故障处理及调试,系统不能正常启动,1.,可能是系统本身故障,重装系统测试,2.,查看系统相关日志和启动信息,测试相关部件,分区不能挂载,1.,挂载设备是否正确连接?是否工作正常?,2.,系统相关参数是否设置正确?,3.,硬盘为只读时需要进行单独格式化后重新挂载。
系统安装问题,1.,驱动制作不正常或驱动错误导致安装系统时蓝屏或找不到硬盘,2.,由于一些机型对传统,ide,通道的颠覆,在,linux,系统安装时需要添加引导参数,并且在安装后修改相应文件,3.,对系统安装版本的要求,有些芯片组要求安装,windows 2003,必须是集成,sp1,的,,windows 2000,必须是集成,sp4,的,否则安装时蓝屏,而象有点机种必须在,windows 2003,系统安装时保证没有外插,hba,卡,否则安装过程中提示找不到光盘4.oem 2003,光盘在系统安装时需要添加的驱动和普通,2003,系统光盘需要的驱动是不一样的,要将驱动软盘文件目录中加新目录,:$OEM$/TEXTMODE,将驱动拷贝进入此目录,系统相关故障,硬盘相关故障,开机无显,机器不加电,意外重启,风扇故障,前面板状态灯相关说明,系统相关故障,数据读写缓慢,网络相关故障,常见故障处理及调试,1.,硬盘掉线,后台正在,rebuild,,或,raid,阵列正在进行一致性校验2.,病毒导致,从任务管理器看出,,cpu,占用率达,100,,一般与蠕虫类病毒严重占用系统资源有关3.,磁盘控制器驱动问题,使磁盘性能不能得到稳定发挥或存在,bug,,导致读写缓慢。
4.,数据库相关,数据。