張發(fā)林,從事嵌入式系統(tǒng)軟硬件研發(fā)工作超過(guò)20年,目前在上海未來(lái)伙伴機(jī)器人有限公司擔(dān)任電子總工程師。深入理解從產(chǎn)品需求分析、方案論證設(shè)計(jì)、技術(shù)研發(fā)、產(chǎn)品化、測(cè)試認(rèn)證、批量量產(chǎn)等各環(huán)節(jié)的難點(diǎn)、痛點(diǎn),解決過(guò)大量研發(fā)、產(chǎn)品化和生產(chǎn)難題,參與或領(lǐng)導(dǎo)開(kāi)發(fā)的多款工業(yè)自動(dòng)化設(shè)備、通信設(shè)備、監(jiān)控系統(tǒng)、物聯(lián)網(wǎng)及機(jī)器人產(chǎn)品等均已投入大規(guī)模量產(chǎn)銷售。
在成長(zhǎng)實(shí)錄之教訓(xùn)系列之三中我有提到,2005年五一期間我們解決了ADSL局端及終端設(shè)備的頻帶干擾問(wèn)題,初步測(cè)試下來(lái)功能正常,性能滿足要求,終于可以交付到測(cè)試部門(mén)進(jìn)行完整的測(cè)試。不出意料的,新問(wèn)題來(lái)了。
測(cè)試工程師測(cè)試下來(lái)發(fā)現(xiàn)一個(gè)問(wèn)題,設(shè)備正常工作一段時(shí)間后會(huì)莫名奇妙的自動(dòng)重啟,從開(kāi)機(jī)到重啟的時(shí)間每次不固定,而且手上的5臺(tái)樣機(jī)都存在同一問(wèn)題。
接到測(cè)試報(bào)告后,軟硬件團(tuán)隊(duì)開(kāi)始聯(lián)手進(jìn)行系統(tǒng)調(diào)試。有系統(tǒng)開(kāi)發(fā)經(jīng)驗(yàn)的都知道,這個(gè)問(wèn)題對(duì)工程師調(diào)試來(lái)說(shuō)喜憂參半,喜的是這是一個(gè)必現(xiàn)的bug,相對(duì)來(lái)說(shuō)問(wèn)題比較容易復(fù)現(xiàn)和定位,問(wèn)題是否得到解決比較好驗(yàn)證;憂的是這個(gè)問(wèn)題出現(xiàn)的時(shí)間長(zhǎng)短是隨機(jī)的,功能都已實(shí)現(xiàn),性能也達(dá)到要求,這種情況下的問(wèn)題往往不簡(jiǎn)單,需要調(diào)試的工作量很大。
這個(gè)問(wèn)題對(duì)于硬件部分比較常見(jiàn)的問(wèn)題一般有電源設(shè)計(jì)不良、復(fù)位電路、晶振電路、過(guò)熱保護(hù)、元器件不良、生產(chǎn)制程不良等;軟件部分可能存在的問(wèn)題有系統(tǒng)配置不正確、異常流程處理不當(dāng)、內(nèi)部看門(mén)狗不正確觸發(fā)等。
硬件團(tuán)隊(duì)首先排查了可能存在制程問(wèn)題,通過(guò)目視檢查和X-ray照射,未發(fā)現(xiàn)明顯異常;全面監(jiān)測(cè)復(fù)位、供電和晶振等,均未發(fā)現(xiàn)自動(dòng)重啟時(shí)存在異常狀態(tài),通過(guò)對(duì)電路板全面的熱監(jiān)測(cè)也未發(fā)現(xiàn)存在過(guò)熱區(qū)域;軟件團(tuán)隊(duì)也對(duì)可能存在的問(wèn)題逐一排除,未發(fā)現(xiàn)任何異常。調(diào)試陷入僵局,項(xiàng)目一時(shí)無(wú)法進(jìn)展。
沒(méi)辦法,軟硬件團(tuán)隊(duì)再次回到對(duì)故障現(xiàn)象的分析梳理,重新擬定測(cè)試方案,尋找重啟時(shí)的共同點(diǎn)。經(jīng)常大量的測(cè)試,終于發(fā)現(xiàn)當(dāng)系統(tǒng)傳輸大容量數(shù)據(jù)時(shí)出現(xiàn)重啟概率要大很多,而那種很輕負(fù)載狀態(tài)的設(shè)備重啟幾率較小,時(shí)間間距也會(huì)拉開(kāi)更大。找到規(guī)律不代表就能找到確切問(wèn)題點(diǎn),甚至更加讓人迷茫。
當(dāng)所有的分析測(cè)試都沒(méi)有結(jié)果時(shí),我們重新回到對(duì)生產(chǎn)制程的分析,由于主控芯片和MAC芯片都是BGA封裝,電路板本身是10層板,大部分走線都是走在內(nèi)層,對(duì)我們的排查來(lái)說(shuō)困難重重。經(jīng)過(guò)不懈努力,發(fā)現(xiàn)主控芯片到MAC的16根地址線因走線和貼裝工藝存在瑕疵而有虛短路現(xiàn)象,其中一根和地之間的阻抗由正常的10兆歐左右降為1兆歐左右,由于檢查BGA貼裝質(zhì)量的X-ray主要檢查是否存在短路或斷路問(wèn)題,對(duì)于虛短是很難檢查出來(lái)的。由于該地址線并未短路,在初始化或低速率傳輸數(shù)據(jù)時(shí)問(wèn)題不大,但當(dāng)大容量數(shù)據(jù)高速傳輸時(shí),地址線之間的差異就會(huì)顯現(xiàn)出來(lái),導(dǎo)致程序運(yùn)行異常而觸發(fā)內(nèi)部看門(mén)狗,從現(xiàn)象上看就是系統(tǒng)自動(dòng)重啟。
經(jīng)驗(yàn)教訓(xùn):
1、 不是能夠正常工作了硬件就萬(wàn)事大吉,還要關(guān)注壓力測(cè)試和長(zhǎng)時(shí)間測(cè)試;
2、 阻抗匹配很重要,對(duì)于很多問(wèn)題,數(shù)據(jù)線和地址線等對(duì)地阻抗測(cè)試會(huì)告訴我們很多信息;
3、 嵌入式系統(tǒng)的調(diào)試一定要有系統(tǒng)概念,軟硬件及測(cè)試團(tuán)隊(duì)的通力協(xié)作是快速發(fā)現(xiàn)問(wèn)題、定位問(wèn)題和解決問(wèn)題的前提和保證,很多現(xiàn)象是多種因素引起的,只有經(jīng)多細(xì)致分析,大膽推測(cè)、反復(fù)驗(yàn)證才能解決問(wèn)題。
-
看門(mén)狗
+關(guān)注
關(guān)注
10文章
562瀏覽量
70813 -
嵌入式系統(tǒng)
+關(guān)注
關(guān)注
41文章
3593瀏覽量
129482 -
BUG
+關(guān)注
關(guān)注
0文章
155瀏覽量
15670
原文標(biāo)題:20年經(jīng)驗(yàn)的電子總工程師回憶錄之讓項(xiàng)目陷入僵局的阻抗匹配bug
文章出處:【微信號(hào):eedesigner,微信公眾號(hào):eeDesigner】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論