
同煤国电同忻煤矿一风井工业场地防灾工程招标公告.ppt
113页单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,第N章 计算机系统设计,第11章 系统的可靠性设计,,11.1 概述,,11.2 故障检测技术,,11.3 硬件可靠性设计,,11.4 软件可靠性设计,,11.5 系统的抗干扰设计,,11.6 可靠性的总体考虑,,11.1 概述,,11.1.1 可靠性的根本概念,,1. 可靠度,,可靠度就是在规定的时间内和规定的条件下系统完成规定功能的成功概率有N0个同样的系统,使它们同时工作在同样的条件下,从它们开始运行到t时刻的时间内,有Nf(t)个系统发生故障,Ns(t)个系统工作完好,那么该系统t时间的可靠度可表示为:,,系统的不可靠度F(t)可相应地表示为:,(11―1),(11―2),因为一个系统发生故障和无故障是互斥事件,必,,须满足R(t)+F(t)=1故可靠度还可以写成:,(11―3),,例如,某种系统(或部件或元件)1000个,工作1000h,有10个发生故障我们可以计算出这种系统(或部件或元件)千小时的可靠度为:,,,2.失效率,,失效率为系统运行到t时刻后单位时间内,发生故障的系统数与时刻t时完好系统数之比。
失效率有时也称为瞬时失效率或简单地称为故障率假定N,0,个系统的可靠度为R(t),在t时刻到t+Δt时刻的失效率为N,0,[R(t)-R(t+Δt)]那么,单位时间内的失效数为N,0,[R(t)-R(t+Δt)]/Δtt时刻完好系统数为N,0,R(t)=N,s,(t)于是,失效数λ(t)可以用下式表示:,,(11―4),,将上式写成微分形式:,上式又可以写成:,(11―5),(11―6),对(5―6)式从0到t积分,可以得到:,(11―7),,理论及实践均已证明,对一般电子设备,当然也包括微机应用系统,经过一段时间老化后,λ(t)根本保持不变因此,λ(t)可用λ代替于是(11―7)式便可写成:,(11―5),失效率也可以用下式进行计算:,(11―9),,例如,有10000个元件运行10000h,有20个元件失效,那么该元件的失效率为:,失效数,,3. 平均故障间隔时间,,描述可靠性的另一个重要参数称为平均故障间隔时间MTBF或平均无故障时间(也称为故障前平均时间)MTTF前者用来描述可修复的产品;后者用于描述不可修复产品一般情况下,通常都用MTBF来表示:,,例如,1000台微型计算机,运行1000h,累计出现10次故障,那么这种微型机的MTBF计算如下:,,,,,,4.平均修复时间和利用率,,平均维修时间和利用率那么又从另一角度来描述一个系统(或部件或元器件)的可靠性。
对一台微型机来说,当它出现故障时是可以进行维修的为了表征系统的可维修性,引入平均修复时间MTTR它也是一个统计值,用下式表示:,,,,,系统的可用性通常用利用率来表示利用率就是系统长时间工作中正常工作的概率,也就是系统的使用效率,利用率A用下式表示:,,,(11―11),(11―12),,11.1.2 故障来源,,1.内部因素,,产生故障的原因来自构成微型计算机应用系统本身,是由构成系统的硬件或软件所产生的故障2.环境因素,,恶劣的环境会对微机应用系统施加更大的应力,使系统故障显著增加3.人为因素,,微机应用系统是由人来设计而后供人来使用的11.2 故障检测技术,11.2.1 微机应用系统的脱机自检,,1. RAM的自检,,读写存贮器(RAM)是微型机的重要组成局部在进行系统自检时,要对RAM进行认真自检而且,实践说明,在微机系统中,RAM是故障频繁部件1) 固定模式测试,,,图11.1 固定模式RAM测试流程图,,2) 游动模式自检,,对RAM进行游动模式自检的过程简述如下:首先将要自检的RAM区的每一个单元都进行初始化 ---即写入全0或全13) 数据图案平移自检,,,,图11.2 游动模式RAM自检流程图,,表11.1 根本数据图案,,图11.3 数据图案平移法自检RAM流程图,,4) 谷(峰)值检测法,,对RAM进行谷值检测,就是在自检RAM区中全1的背景下使0游动,写入这样的数据后再读出比较,从而判断RAM的工作正确与否。
具体实现方法就是将如下数据:FEH,FDH,FBH,F7H,EFH,DFH,BFH,7FH,BFH,DFH,EFH,F7H,FBH,FDH,FEH,FDH…顺序写入要检测的RAM区的各单元中5) PC机的RAM自检方法,,在PC机中,对根本16KB的RAM采用两种方法进行测试第一种方法是按地址顺序对16KRAM进行固定模式自检6) 迟延检测,,迟延检测法自检RAM,就是将某一特定数据图案写入要检测的RAM区后,不是立即读出比较,而是迟延假设干时间后再读出比较2. 只读存贮器ROM自检,,当微型机应用系统的用户程序研制成功,并经过长时间运行,就可证明该用户程序正确无误为使用方便,也为提高系统的可靠性,可将用户程序固化在只读存贮器中3.外设及接口的自检,,在微型机应用系统中,外设的含义将更加广泛1) 常规外设自检,,2) 专用外设及接口的自检,,开关量输出接口的自检在微型机应用系统中,经常大量需要开关量输出,用作控制、报警、状态指示等功能图11.4 利用发光二极管指示状态,,图11.5 利用输入接口自检输出状态,,图11.6 A/D和D/A变换器的自检硬件图,,图11.7 某阀门自检硬件框图,,11.2.2 微机系统的故障检测,,1. 程序监视器,,程序监视器也有人称看门狗(Watch Dog),其目的就是利用它来监视程序的执行。
图11.5 程序监视器原理框图,,图11.9 监视器译码电路逻辑图,,2. 外设状态反响,,在微机应用系统中,经常会遇到控制某一个电机启动或停止;控制一个阀门翻开或关闭;控制某个部件位移到某一位置等情况首先,我们以图11.10为例来说明外设状态的反响图11.10 继电器状态信息反响原理图,,图11.11 继电器状态反响程序框图,,图11.12 由电机末端信息反响电路框图,,3. 检错及纠错编码,,检错及纠错编码理论从20世纪50年代开始迅速开展,现已成为信息论这个学科的重要组成局部随着数字通信、计算机技术、数据处理及超大规模集成电路的开展,检错及纠错编码已得到广泛的应用1) 奇偶校验,,图11.13 在内存中加奇偶校验电原理图,,2) 海明码,,海明码是一种广泛应用的纠错编码它的编码和译码在工程上实现起来比较容易它能够检测错误并能纠正单个错误假设码长为n,其中包括用于校验并纠错的编码长度为m,那么信息长度k=n-m为了能够纠正单个错误,必须满足下面的海明不等式:,(11―13),,表11.2 海明码校验位与码长的关系,,表11.3 海明码及校验方程,,图11.14 纠错电路原理框图,,图11.15 5位数据的内存纠错原理电路,,表11.4 校验数据表,,4. 超时故障检测,,在微机应用系统中,经常因为电源的波动、各种干扰,使程序脱离原来的用户程序。
1) 硬件工作,,2)软件方面的工作,,用户程序分段的原那么就是:,,①每一个程序段都是可再入的、能完成一个相对独立功能的程序模块;,,②每一个程序段的执行时间必须比上面硬件计数器的计数时间来得短图11.16 一种化工工艺温度控制过程,,图11.17 超时故障检测用硬件框图图,,11.15 超时故障检测用户程序段结构,,图11.19 超时故障检测中断效劳程序框图,,5. A/D变换器的检测,,1) 奇异数据判断,,在检测、控制等应用领域的微机系统中,A/D变换器对被测参数进行A/D变换,以便使微机获得数据在对数据的变换过程中,对A/D变换的数据进行最简单的判别2) 校准信号,,当A/D变换部件的模拟门有多余的输入端时,可以把一个多余的输入端接上固定的校准电平11.3 硬件可靠性设计,,11.3.1 硬件故障,,构成微机应用系统的硬件包括各种部件从主机到外设,除了集成电路芯片、电阻、电容、电感、晶体管、电机、继电器等许多元器件外,还包括插头、插座、印刷电路板、按键、引线、焊点等硬件的故障主要表现在这几个方面1.电器故障,,电器故障主要是指电子元器件、电路板、接插件所产生的故障。
2.机械故障,,机械故障主要发生在微机应用系统的外设中3.介质故障,,这类故障主要是指微机应用系统的信息存贮介质所产生的故障,例如,磁盘盘片损坏,磁带机记录磁带的损坏等等4.人为故障,,人为故障是由于人为地不按系统所要求的环境条件和操作规程而造成的故障11.3.2 影响硬件可靠性的因素,,1. 元器件失效,,元器件在工作过程中会发生失效,通过对各类元器件在一定条件下大量试验的统计结果发现,电子元器件的失效率是有一定规律的表11.5 元器件的失效率,,图11.20 失效率与时间关系曲线,,失效曲线分为3个阶段:,,① 初始失效期② 随机失效期③ 耗损失效期2. 使用不当,,1)注意元器件的电气性能,,各种元器件,都有它们自己的电气额定工作条件,这里仅以几种最常使用的元器件为例,予以简单的说明1)电阻器,,(2)电容器,,(3)集成电路芯片,,负载电阻R,L,由下式决定:,(11―14),,图11.21 确定开路门负载电阻R,L,上限,,图11.22 确定开路门负载电阻R,L,下限,,2)环境因素的影响,,①温度②电源的影响③湿度的影响④振动、冲击的影响⑤其他应力的影响3. 结构及工艺上的原因,,硬件故障中,由于结构不合理或工艺上的原因而引起的故障占相当大的比重。
诸如某些元器件太靠近热源,需要通风的地方未能留出位置,将可控硅、大继电器等产生较大干扰的器件放在易受干扰的元器件附近,以及结构设计不合理造成操作人员观察、维修困难等问题,均可对硬件可靠性带来影响,需要引起我们的注意硬件可靠性措施,,1.元器件的选择,,2.筛选,,3.降额使用,,1)电子元器件的降额使用,,2)机械及结构部件上的降额,,4.可靠的电路设计,,①在电路设计中,要采用简化设计②在电路设计中尽量采用标准器件③最坏设计④瞬态及过应力保护⑤ 减少电路设计中的误差和错误5.冗余设计,,所谓冗余,就是为了保证整个系统在局部发生故障时能够正常工作,而在系统中设置一些备份部件,一旦故障发生便启动备份部件投入工作,使系统保持正常工作的方法1) 两种结构,,(11―15),,对于 n个装置的串联系统,其中任何一个装置出现故障,那么整个系统就无法工作那么,串联系统的可靠度RS为:,(11―16),图11.23 串并联系统,,在串并联系统中,每个装置由n个部件串联构成;而系统又由m个装置并联构成设第i个装置的第j个部件的可靠度为Rij(其中i=1,2,…,m;j=1,2,…,n),那么该串并联系统的可靠度为:,(,11―17,),图11.24 并串联系统,,如果m个部件并联构成装置,n个装置串联构成系统,那么并串联系统的可靠度RSP为:,,,,2) 并联冗余,,(1) 部件级的冗余,,(2) 微型计算机双机并联,,①同步问题。
②故障检测11―15),,图11.25 3个传感器并联冗余,,图11.26 双机并联系统框图,,(3) 三机表决系统,,图11.27所示的三机表决系统的工作原理与前面提到的双机热备份系统类似,即3个微型机,以事件同步的方式执行同样的用户程序4)冷备份,,冷备份也是一种简单的冗余手段5)其他冗余手段,,,图11.27 三机表决系统框图,,图11.25 利用硬件信号封锁提高可靠性,,6. 环境设计,,1) 温度保护,,2) 冲击振动保护,,3) 电磁干扰保护,,4) 其他环境方面的保护,,7.人为因素设计,,在微机应用系统工作过程中,由于设计时人为因素考虑不周,造成日后故障频频发生11.4 软件可靠性设计,,11.4.1 软件故障的特点,,软件是由假设干指令或语句构成,大型软件的结构十分复杂在许多方面,软件故障不同于硬件故障,有它的特点11.4.2 软件错误的来源,,软件错误是由设计者的错误、疏忽及考虑不够周全等设计上的原因造成的具体说明如下1.没有认真进行需求调查,,2.编程中的错误,,3.标准错,,4.性能错,,5.中断与堆栈操作,,6.人为因素,,11.4.3 软件可靠性模型,,1.以故障率为根底的穆莎模型,,穆莎模型的简化式为:,,,,式中,N0是固有的错误数;,,T0为开始测试时的平均无故障时间MTTF;,,C为压缩因子,是等效时间与测试时间之比;,,n为错误数。
11―19),,,式(11―19)表示,随着测试时间的增加,错误会被逐个发现,那么所存在的错误就会愈来愈少由(11―19)式,可导出如下的关系式:,(11―20),,(11―21),(11―22),(11―23),,把上面的数据代入式(11―22):,,我们还可以接着计算,当错误减到5个,即平均,,无故障MTTF为100h时,50h的可靠度为:,,2. 以无故障率为根底的模型,,一个更加实用的、以无故障率为根底的模型称为米尔模型,又叫做错误植入模型这种模型是将数目的错误成心加到软件中,在调试完成时,根据发现了多少个参加的错误,来建立剩余的未知错误数与参加错误数的关系:,(11―24),,式中,N0为原软件系统中的固有错误数;,,Ns为成心参加的错误数;,,ns为剩余的成心参加错误数;,,n为未被发现的错误数例如,某软件在测试前估计有200个错误,在测试前参加10个错误并尽可能随机安排在测试结束时,发现9个成心参加的错误,那么200个原有的错误还有多少个没有被发现?,,11.4.4 提高软件可靠性的方法,,软件可靠性在很大程度上取决于设计人员的素质为了提高软件的可靠性,具体地可从如下几个方面来考虑。
1.认真仔细地进行标准设计,图11.29 编写标准的简化过程图,,例1 在制定标准时,逻辑上要完备,不能有漏洞设采样输入A、B、C三个值,假设其中一个超过其余两个的均值±10个单位,那么输出采用其余两个的平均值,并显示那个超差的输入值;假设不超过,那么输出三个值的平均值图11.30 三取二表决系统标准,,例2在编写标准时,必须与实际情况、现场环境相结合假设还不太清楚实际情况,那么需进行调查2. 使用好的程序设计方法,,3.选择适宜的程序设计语言,,4.细心编程,,5.仔细测试,,6.提高软件设计人员的素质,,7.去除干扰,,5.多使用,,9.其他,,11.5 系统的抗干扰设计,,11.5.1 抗干扰的三要素,,在微机应用系统或其他电子设备中,一个电路所受干扰的程度用下式描述:,,(11―25),,式中,S表示电子线路受干扰的程度;,,W表示干扰发生源的强度;,,C为干扰源通过某途径到达受干扰处的耦合因素;,,I为受干扰电路的抗干扰性能11.5.2 系统的抗干扰措施,,1.设计抗干扰性能好的电路,,1)微型计算机局部,,2)数字电路设计,,3)模拟电路设计,,,,,图11.31 消除按键抖动干扰的局部电路,,2. 克服信号传输过程中的干扰,,在信号传输过程中,信号ES、串模干扰信号EN,共模干扰信号EC的形态如图11.32所示。
图11.32 信号与串模、共模干扰的关系,,1)减少串模的影响,,由图11.32可以看到,可以采取以下措施消除或减小串模干扰的影响:,,①串模干扰是在信号传输线上耦合产生的,可以采取屏蔽等措施切断耦合的途径②在接收端加上滤波器,用滤波器滤除串模干扰而不会明显地影响有用信号③降低传输线的电阻及电抗,减小干扰在其上耦合产生的影响④将有用信号ES在传输前进行放大,在接收端再衰减2)减少共模的影响,,①采用差分方式传输和接收②采用电流环传输③简单的单端隔离措施④双端隔离⑤隔离加电流环⑥用强信号传输⑦光纤传输⑧在信号传送过程中保持双线的平衡⑨注意传输线的长度3. 电源电路的抗干扰措施,,1)电源中的干扰来源,,电源中的干扰来源大致有如下这几种:,,①在电网直接受到雷击或因雷电感应所产生的极高的浪涌电压②各种电器设备的接通或断开所引起的电网浪涌电压③电网上连接的电气设备接地或接地断开时所引起的浪涌电压④各种电气设备工作时产生的干扰馈送到电网上,使电网电压中带有干扰⑤ 电源电路本身产生的干扰图11.33 电网电压波形中的脉冲干扰,,2) 抗干扰措施,,人们已经研究了许多抑制电源干扰的措施,在实际应用系统中,可以选择适合自己所设计的电源系统的抗干扰手段。
①电源变压器的初次级屏蔽②利用初级平衡式绕制法绕制电源变压器③采用防雷电变压器④减少电源变压器的泄漏磁通⑤采用噪声隔离变压器⑥采用电源滤波器⑦采用性能好的稳压电源图11.34 变压器初次级加屏蔽措施,,图11.35 防雷变压器的结构,,图11.36 滤除串模和共模干扰的滤波器,,图11.37 滤除电网干扰的供电电路,,4. 良好的接地措施,,接地是每个系统设计者都会遇到的问题看起来似乎很简单,但如果处理不好,会使系统的干扰大大增加,甚至使系统无法工作1) 放大器与信号源的接地,,2)电缆及其接地,,3) 回路及电路板的接地,,4)系统的接地,,,图11.35 放大器及其接地,,(a)放大器与信号源的连接;(b)两端分别接地等效电路;,,(c)单端接地等效电路,,图11.39 屏蔽双绞线及同轴电缆的接地方法,,(a)、(b)屏蔽双绞线的单端接地方法;,,(c)、(d)同轴电缆的单端接地方法,,图11.40 电路板内电路接地电阻耦合,,图11.41 几个电路采用一点接地,,图11.42 系统各局部接地示意图,,5. 仔细设计印刷电路板,增强抗干扰能力,,1)引线阻抗,,2)仔细设计地线,,3)滤波,,4)抑制引线间的串扰,,5)注意抑制反射干扰,,6.认真进行结构设计,,,11.6 可靠性的总体考虑,,11.6.1 设计过程,,1.系统设计的进程,,在系统设计的每一步,除了考虑系统性能指标的实现外,同时要考虑有关可靠性的要求。
图5.43表示系统设计的进程及与之相对应的有关可靠性的进程图11.43 系统可靠性的设计进程,,2. 生产及使用过程,,在生产及使用过程中,要对故障进行详细记录,定期提出报告并进行认真的分析要及时总结有关系统的工作情况,找出故障的原因11.6.2 可靠性的分配方法,,1.可靠性方框图的逐步展开,,2.可靠性的预估,,在本章前面的局部中,我们已经提到串联系统的可靠性表示方法,如式(11―16)所示当我们考虑到可靠度与时间有关系时,可以写成:,,(11―26),(11―27),,令 可以得到:,,(11―25),但是,在使用上面的公式进行预估时,没有考虑,,(至少公式中未能表达)质量对元器件的影响为了考,,虑这一问题,在元器件级上进行可靠性预估时,可以,,采用如下的计算公式:,(11―29),,式中,λS为构成部件的所有元器件均考虑后的总失效率;,,λG为第i个元器件的根本失效率;,,πQ为第i个元器件的质量系数;,,Ni为第i个元器件的数量;,,n为构成部件的元器件品种数图11.44 可靠性方框图的展开过程,,在(11―29)中,没有考虑对元器件失效影响很大的应力因素。
为了更全面地考虑这些因素进行可靠性的预估,又有人提出公式(11―30):,,,式中, λG为根本失效率;,,πE为环境因子;,,πQ为质量因子;,,πR为电流因子;,,πA为应用因子;,,πS为电压应力因子;,,πC为配置因子11―30),,例如,某种型号的二极管,查出其根本失效率为10-5失效数/h,而且πE、πQ、πR、πA、πS、πC分别为3.9、0.3、2、1.5、0.7、1,将这些参数代入式(11―30),即可求出该二极管的失效率为:,,λP=2.5×10-5失效数/h,,对每一种元器件,都可以用(11.30)式计算它的失效率之后,再利用下式:,,3.可靠性分配,,1)均等分配法,,这种分配方法是把相同的可靠度赋予每一局部,使它们都具有相同的可靠度根据前面提到的公式:,,,,为串联系统各局部的可靠度与整个系统可靠度的关系如果各局部的可靠度是相等的,那么每一局部的可靠度可以分配为:,,,,(11―31),,2) 航空无线电公司分配法,,航空无线公司的可靠性分配方法主要包括如下几项内容:,,①到达的目标是满足下式:,,(11―32),,式中,λ是系统总的失效率;,,λ,i,是分配给各分系统的失效率。
②根据先验知识预计每个分系统的失效率λ,r,③计算加权因子W,r,加权因子由下式进行计算:,,,(11―33),④对每一个分系统分配失效率λ,r,:,(11―34),,首先,求出系统的失效率,因为:,,得到,λ=0.005λ1=0.003,,,λ2=0.001,λ3=0.004,求出,,此后,就可以计算出各分系统所分配的失效率分别为:,,λ′,1,=W,1,λ=0.375×0.05=0.001575,,λ′,2,=W,2,λ=0.125×0.05=0.000625,,λ′,3,=W,3,λ=0.5×0.05=0.0025,,同时,可以得出各分系统20h的可靠度为:,,R,1,(20)=exp[-20×(0.001575)]=0.96,,R,2,(20)=exp[-20×(0.001625)]=0.99,,R,3,(20)=exp[-20×(0.0025)]=0.95,,。
