在考慮設(shè)計(jì)可靠性時(shí),大部分工程師都將注意力集中在一個(gè)綜合性度量標(biāo)準(zhǔn):平均故障間隔時(shí)間。事實(shí)上,平均故障間隔時(shí)間(MTBF)是評(píng)估設(shè)計(jì)可靠性重要參數(shù)之一。但是另一個(gè)參數(shù)“成功概率”,也同樣重要。因此為了最終推出可靠的設(shè)計(jì)方案,設(shè)計(jì)人員應(yīng)該充分考慮其它因素并確保進(jìn)行準(zhǔn)確的可靠性分析。
無(wú)論您設(shè)計(jì)哪種產(chǎn)品,可靠性都是必不可少的,盡管原因不盡相同,但都取決于終端應(yīng)用。航空航天與軍事設(shè)計(jì)人員必須確保操作員/乘客的安全,確保成功完成任務(wù)。在電信領(lǐng)域,實(shí)現(xiàn)可靠性的目的則是防止出現(xiàn)服務(wù)中斷的情況,因?yàn)檫@樣會(huì)影響收入流與聲譽(yù)。工業(yè)和流程控制工程師的任務(wù)就是盡可能縮短停機(jī)時(shí)間,在故障發(fā)生時(shí),能夠確保安全、無(wú)故障運(yùn)行。對(duì)于商業(yè)應(yīng)用,設(shè)計(jì)人員必須確保其產(chǎn)品在規(guī)定的質(zhì)保期內(nèi)不會(huì)出現(xiàn)任何問(wèn)題。
使用FPGA可以研發(fā)出集成度更高的解決方案,從而可以延長(zhǎng)系統(tǒng)的平均故障間隔時(shí)間。當(dāng)器件制造商定期提供季度可靠性報(bào)告時(shí),這一點(diǎn)更為明顯,賽靈思就是如此做的,其出版的季度可靠性報(bào)告UG116。
從最高層次來(lái)說(shuō),可從兩個(gè)角度來(lái)考慮可靠性。第一,系統(tǒng)在規(guī)定使用壽命內(nèi)順利運(yùn)行的可信度。這一點(diǎn)可以采用MTBF、成功概率以及熟悉的浴盆曲線。第二,發(fā)生錯(cuò)誤事件時(shí),如何確保您的設(shè)計(jì)可以繼續(xù)工作并保持無(wú)故障運(yùn)行,或者針對(duì)尚未解決的問(wèn)題出具報(bào)告。我們工程師開展設(shè)計(jì)與分析的方法可以影響到可靠性的上述兩個(gè)方面。
為了確保解決方案的可靠性,您的開發(fā)環(huán)境必須建立正確的工程設(shè)計(jì)治理制度,設(shè)置審查關(guān)口、設(shè)計(jì)規(guī)則與指南,同時(shí)在生命周期內(nèi),應(yīng)該安排同行在適當(dāng)?shù)狞c(diǎn)進(jìn)行獨(dú)立審核。
MTBF與浴盆曲線
MTBF的定義是從統(tǒng)計(jì)學(xué)角度預(yù)測(cè)系統(tǒng)運(yùn)行過(guò)程中的故障間隔時(shí)間。制造商取各個(gè)組件的故障率倒數(shù)計(jì)算MTBF。我們一般將這些故障率稱為FIT率,其中,故障時(shí)間(FIT)為1e-9小時(shí)-1。您既可向組件供應(yīng)商索取故障率,亦可根據(jù)軍用手冊(cè)MIL-HDBK-217F或Bell-core/Telcordia SR332標(biāo)準(zhǔn)計(jì)算。MTBF與FIT率之間的關(guān)系如下所示:
但是,上述故障率僅對(duì)浴盆曲線中的恒定故障率周期有效,如圖1所示。
圖1 - 浴盆曲線追蹤產(chǎn)品引入時(shí)的早期(“早期故障期”)故障、使用壽命內(nèi)所出現(xiàn)的故障以及壽命結(jié)束后的“磨損”故障。
浴盆曲線描繪的是產(chǎn)品引入時(shí)的早期(“早期故障期”)故障、正常使用壽命內(nèi)發(fā)生的故障(“恒定故障率”)以及產(chǎn)品設(shè)計(jì)壽命結(jié)束時(shí)的故障。因此,生產(chǎn)過(guò)程中,通常會(huì)進(jìn)行某種形式的“老化試驗(yàn)”,排除早期故障期故障。老化試驗(yàn)過(guò)程中,在各種溫度作用下,器件潛在缺陷會(huì)加快發(fā)生,這樣便可以確保器件在交付、裝入系統(tǒng)之前失效。
您可以通過(guò)韋伯分布、或壽命數(shù)據(jù)與分析來(lái)確定您的產(chǎn)品或系統(tǒng)在浴盆內(nèi)的位置,利用Excel很容易完成。形狀參數(shù)β表明故障率是穩(wěn)定、增加還是減少。若形狀參數(shù)(β)小于1.0,則表明早期故障期內(nèi),故障率在下降,若形狀參數(shù)大于1.0,則表明故障率在上升,而此現(xiàn)象會(huì)在磨損階段出現(xiàn)。
為了確保成功概率合格,許多產(chǎn)品都要求MTBF必須遠(yuǎn)遠(yuǎn)高于預(yù)期使用壽命。
確定您在浴盆曲線中的位置后,如果您認(rèn)為系統(tǒng)至少在MTBF期間可以繼續(xù)無(wú)故障運(yùn)行,那也是情有可原的。然而情況并非如此。MTBF是從統(tǒng)計(jì)學(xué)角度描述產(chǎn)品在使用壽命內(nèi)可能出現(xiàn)的故障率;并非指產(chǎn)品的預(yù)期使用壽命。如果想要獲得產(chǎn)品的預(yù)期使用壽命,我們需要考慮通過(guò)以下公式所求得的成功概率,其中t表示預(yù)期工作時(shí)間(單位:小時(shí))。
將成功概率繪制成圖之后,可以看到,當(dāng)預(yù)期工作時(shí)間接近MTBF時(shí),成功概率為0.37左右,如圖2所示。這意味著成功概率這一單個(gè)模塊在MTBF達(dá)到0.37所消耗的時(shí)間之后,仍然有效。如果考慮到一批器件,則其中的37%仍然正常工作。
因此,為了確保工作壽命內(nèi)成功概率合格,許多系統(tǒng)/產(chǎn)品都要求MTBF必須遠(yuǎn)遠(yuǎn)高于預(yù)期使用壽命。例如,假設(shè)使用壽命為五年,成功概率為0.99,則產(chǎn)品所要求的MTBF必須達(dá)到4,361,048小時(shí)或497年,如以下公式所示。
顯而易見,這遠(yuǎn)遠(yuǎn)超過(guò)了使用壽命。
可靠性計(jì)算
您可以采用以下方法之一計(jì)算可靠性與MTBF——零件計(jì)數(shù)分析或零件應(yīng)力分析。其中零件計(jì)數(shù)分析比較簡(jiǎn)單,有時(shí)候可以在開發(fā)周期早期進(jìn)行,作為產(chǎn)品是否達(dá)到可靠性要求的指標(biāo)之一。此類分析考慮到了零件質(zhì)量水平、數(shù)量以及使用環(huán)境。零件計(jì)數(shù)分析可以快速進(jìn)行。但是,結(jié)果趨向于保守,導(dǎo)致故障率上升,MTBF縮短。
圖2 - 當(dāng)預(yù)期工作時(shí)間接近MTBF時(shí),成功概率為0.37。
零件應(yīng)力分析將會(huì)考慮到更多參數(shù),因此所需時(shí)間更長(zhǎng),但是此類分析的結(jié)果更加準(zhǔn)確。應(yīng)力分析需要考慮到溫度、電應(yīng)力、質(zhì)量、結(jié)構(gòu)、工作環(huán)境等許多因素,具體取決于您所分析的組件種類。對(duì)于當(dāng)前應(yīng)用而言,此類分析所獲得的故障率要準(zhǔn)確得多。
提高可靠性
有許多方法和技術(shù)可用于幫助延長(zhǎng)MTBF,進(jìn)而提高您系統(tǒng)或產(chǎn)品的成功概率。最常用的方法是降低組件所承受的額定電應(yīng)力與熱應(yīng)力。通過(guò)如此降額,在進(jìn)行上述零件應(yīng)力分析時(shí),您可將器件應(yīng)力考慮在內(nèi)。各個(gè)公司通常都會(huì)制定自己的降額規(guī)則。但是,如果沒(méi)有內(nèi)部規(guī)則,則您可以參考業(yè)界標(biāo)準(zhǔn)規(guī)則,例如歐洲空間局的ECSS-Q-30-11A與美國(guó)海軍的NAVSEA TE000-AB-GTP-010。
雖然零件應(yīng)力分析會(huì)增加非經(jīng)常性工程成本,但是對(duì)于工程團(tuán)隊(duì)而言,還有許多其它選項(xiàng),這些選項(xiàng)均會(huì)影響到經(jīng)常性成本。
第一個(gè)選項(xiàng)便是提升組件質(zhì)量,同時(shí)應(yīng)用類似的降額規(guī)則。這可能意味著,從標(biāo)準(zhǔn)商業(yè)零件到高質(zhì)量的軍用(通過(guò)QML Q認(rèn)證的IC)乃至航空(通過(guò)QML V認(rèn)證的IC)組件全面提升質(zhì)量。然而值得注意的是,隨著組件質(zhì)量水平的提升,其價(jià)格亦會(huì)隨之提升。表1顯示了集成電路、混合件以及分立件所需的各種不同標(biāo)準(zhǔn)。
表1:IC、混合件與分立件的標(biāo)準(zhǔn)版、軍用版與航空版
第二個(gè)選項(xiàng)便是引入冗余,無(wú)論是模塊間的還是模塊內(nèi)的。冗余可增加尺寸、重量以及解決方案的成本,但其所帶來(lái)的后果是對(duì)系統(tǒng)可靠性造成顯著影響,進(jìn)而影響系統(tǒng)可用性。通常最好的做法便是在系統(tǒng)層面做出冗余決策,在系統(tǒng)中故障率較高位置安裝額外組件。此種方法是專門針對(duì)冗余而開發(fā)的最佳解決方案。
在考慮冗余時(shí),您可以選擇熱冗余或冷冗余。對(duì)于“熱”冗余解決方案,冗余系統(tǒng)采用電動(dòng),其配置可以通過(guò)無(wú)縫切換替換失效模塊,不會(huì)對(duì)系統(tǒng)性能產(chǎn)生任何影響。缺點(diǎn)在于此種情況下,冗余設(shè)備會(huì)承受應(yīng)力。
在“冷”冗余方案中,冗余系統(tǒng)通常不采用電動(dòng),只有在主模塊失效之后,才會(huì)重新啟動(dòng)。系統(tǒng)會(huì)終止活動(dòng),直到對(duì)冗余端進(jìn)行重新配置,非失效模塊才會(huì)繼續(xù)工作。雖然工作會(huì)中斷,但是優(yōu)點(diǎn)在于冷冗余解決方案不會(huì)老化,因?yàn)槔淙哂嗖徊捎秒妱?dòng),不會(huì)承受電應(yīng)力。
引入冗余之后,您必須注意確保故障不會(huì)擴(kuò)散,因?yàn)樵谥髂K側(cè)失效的時(shí)候,如果故障擴(kuò)散,則就會(huì)影響到冗余模塊的性能。
系統(tǒng)級(jí)考慮事項(xiàng)
考慮了零件質(zhì)量以及冗余對(duì)系統(tǒng)造成的重大影響之后,您還可以執(zhí)行其它選項(xiàng),以確保發(fā)生錯(cuò)誤或故障事件時(shí)系統(tǒng)性能正常。這些選項(xiàng)包括:
● 危險(xiǎn)故障擴(kuò)散模式
● 內(nèi)置測(cè)試、遙測(cè)以及事件日志,用于監(jiān)控和記錄系統(tǒng)健康狀況
● 設(shè)備接口,無(wú)論是單一連接器還是主模塊與冗余
● 關(guān)鍵命令順序(例如,分離系統(tǒng)“手臂”與“消防”命令)
● 內(nèi)存與數(shù)據(jù)鏈路錯(cuò)誤率(BER、ECC)可接受
作為監(jiān)管或認(rèn)證標(biāo)準(zhǔn)的一部分,您必須進(jìn)行危險(xiǎn)性分析,以確定設(shè)備發(fā)生故障時(shí)可能出現(xiàn)的潛在危險(xiǎn)。因此,您需要負(fù)責(zé)確保系統(tǒng)級(jí)的設(shè)計(jì)能夠采取適當(dāng)措施,通過(guò)聯(lián)鎖裝置等避免上述危險(xiǎn)發(fā)生。如有必要,您應(yīng)該將這些減緩措施作為規(guī)定要求應(yīng)用到各個(gè)子系統(tǒng),以便確保這些故障模式均得到正確處理。
了解設(shè)備健康狀態(tài),然后上報(bào)或記錄,您可以通過(guò)此方式進(jìn)行預(yù)測(cè),確保運(yùn)行不會(huì)受到故障的影響,確定設(shè)備故障原因,有利于對(duì)其進(jìn)行維修。更多的復(fù)雜系統(tǒng)可能包括全面的自測(cè)功能,通電之后或者運(yùn)行期間可以連續(xù)運(yùn)行此功能。表2顯示了更加詳細(xì)的您可能考慮監(jiān)控的需求中斷測(cè)試。
表2:狀況監(jiān)控詳情表
上述結(jié)果可以通過(guò)通信鏈路以健康狀態(tài)的形式進(jìn)行傳送,保存在非易失性存儲(chǔ)器之中,例如,flash或FRAM或二者同時(shí)使用。通常情況下,您可能會(huì)選擇采用實(shí)時(shí)時(shí)鐘或越時(shí)計(jì)數(shù)器(elapsed-time counter),對(duì)這些事件逐一標(biāo)記時(shí)間,以便形成參考系。
在惡劣環(huán)境下,工程師所面臨的另一個(gè)問(wèn)題是連接器。連接器是故障多發(fā)位置,因?yàn)槔锩娴膯为?dú)電纜可能會(huì)斷開,或者連接器本身會(huì)因振動(dòng)或震動(dòng)等環(huán)境影響而掉落。因此,您可以通過(guò)裝入冗余連接器和電纜來(lái)增加可靠性。第一個(gè)連接器發(fā)生故障后,冗余連接器可以接管通信,如圖3所示。但是,這種冗余的代價(jià)是增加了復(fù)雜性,尤其是當(dāng)您需要連接大量模塊時(shí)。一種替代方案就是采用專門針對(duì)惡劣環(huán)境設(shè)計(jì)的連接器,例如MIL-STD 38999系列連接器。
圖3 - 如果原始連接器出現(xiàn)故障的話,冗余連接器將接管工作,但代價(jià)是增加了復(fù)雜性。
圖4 - 對(duì)于電氣噪音比較大的環(huán)境,“手臂消防”順序有助于降噪。
若系統(tǒng)或產(chǎn)品將用于惡劣環(huán)境,例如,電氣噪音比較大,則系統(tǒng)內(nèi)部總線所傳送的命令考慮采用手臂/消防方案是比較明智的。在上述方案中(參見圖4),初始命令被傳送至接收器,然后接收器確認(rèn)命令,并啟動(dòng)超時(shí)。如果接收器無(wú)法接收消防命令,則會(huì)發(fā)出不予確認(rèn)字符(NACK)命令,作為響應(yīng),接收器在啟動(dòng)超時(shí)之前會(huì)發(fā)出確認(rèn)字符(ACK)命令。類似的,如果接收器接收到其它命令,則其會(huì)發(fā)送NACK命令,并重新開始處理。此方案可確保,其中一個(gè)命令因電磁干擾(EMI)而被中斷時(shí),不會(huì)無(wú)意中產(chǎn)生關(guān)鍵命令。
此外,您還可以采用與手臂消防方法相類似的方法,確保所有通信鏈路和內(nèi)存均有糾錯(cuò)與檢測(cè)代碼,確??煽客ㄐ?、數(shù)據(jù)得到可靠保存。至于是單獨(dú)選擇錯(cuò)誤檢測(cè)代碼,還是選擇錯(cuò)誤檢測(cè)與糾錯(cuò)代碼,將取決于終端應(yīng)用。然而,您可以使用許許多多的代碼,從非常簡(jiǎn)單到比較復(fù)雜(表3)均可使用。保護(hù)級(jí)別隨代碼復(fù)雜程度增加而相應(yīng)變化。
表3:EDAC代碼,從簡(jiǎn)單到復(fù)雜。
所有工程師,無(wú)論其正在研究的終端應(yīng)用是什么,均必須考慮到終端系統(tǒng)的可靠性。工程師可自行選擇許多方法,用于幫助實(shí)現(xiàn)高可靠性產(chǎn)品。
---> END <---
-
設(shè)備
+關(guān)注
關(guān)注
2文章
4528瀏覽量
70750 -
可靠性設(shè)計(jì)
+關(guān)注
關(guān)注
0文章
47瀏覽量
14355 -
成功率
+關(guān)注
關(guān)注
0文章
2瀏覽量
6594
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論