0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

記錄一次hard fault on handler的解決過程

冬至子 ? 來源:BruceTan ? 作者:BruceTan ? 2023-10-12 16:45 ? 次閱讀

背景

最近在做一個OTA的功能時,遇到一個hard fault on handler的問題,前前后后排查了將近2天,才將此問題解決,因此做一個記錄,方便其它工程師,遇到此類問題的時候有個參考。

環(huán)境

rt-thread v4.1.0
lwip2.1.2
cJSON-lastest
使能了posix的select和poll
CmBacktrace v1.3.0
使能了ulog組件

問題和排查過程
最開始遇到問題的時候,報以下錯誤

psr: 0xa100000f
r00: 0xffffffff
r01: 0x2000def4
r02: 0xffffffff
r03: 0x7fffffff
r04: 0x00000000
r05: 0x20017f18
r06: 0x20000358
r07: 0xdeadbeef
r08: 0x00000000
r09: 0x00000001
r10: 0xdeadbeef
r11: 0xdeadbeef
r12: 0x00000000
lr: 0x08042ed9
pc: 0x08042ef8
hard fault on handler
bus fault:
SCB_CFSR_BFSR:0x82 PRECISERR SCB->BFAR:FFFFFFFF

使用CmBacktrace軟件包定位問題

后來在論壇搜索相關(guān)的關(guān)鍵詞,有人推薦使用CmBacktrace軟件包,于是去安裝此軟件包,但是安裝了以后,報如下錯誤

thread pri status sp stack size max used left tick error


rf_led 10 suspend 0x00000080 0x00000100 50% 0x0000000a 000
rf_send 10 suspend 0x000000a0 0x00000800 16% 0x00000009 000
rf_read 10 suspend 0x000000c0 0x00000200 39% 0x00000003 000
可以看到,CmBacktrace沒有打印完全,這時候我又去CmBacktrace的github倉庫,看有沒有人提相關(guān)的issue,發(fā)現(xiàn)是因為我打開了ulog組件導(dǎo)致的,具體可以參考這個issue

Usage fault下沒輸出關(guān)鍵的call_stack信息

然后我按照鏈接,手動修改CmBacktrace的打印宏定義為rt_kprintf,使用CmBacktrace的cmb_test的除零測試命令測試以后,可以正常打印了,這時候我太開心了,以為問題基本上可以定位了,然而我發(fā)現(xiàn)我高興的還是太早了。

在cmb_test正常以后,當(dāng)我把問題再次復(fù)現(xiàn)時,CmBacktrace打印的信息,還是不全,和之前完全沒有變化?。?!如下所示。

thread pri status sp stack size max used left tick error


rf_led 10 suspend 0x00000080 0x00000100 50% 0x0000000a 000
rf_send 10 suspend 0x000000a0 0x00000800 16% 0x00000009 000
rf_read 10 suspend 0x000000c0 0x00000200 39% 0x00000003 000

這就非常奇怪了,明明使用CmBacktrace的除零測試是OK的,為什么還是打印不正常呢?

使用PC和LR反推

看樣子是不能用CmBacktrace了,也許是我使用的姿勢不對,也許是其他問題,那就只能靠自己了。

我試著按照文章的方法去排查,結(jié)果發(fā)現(xiàn)復(fù)現(xiàn)問題的時候,是在rtthread的timer里面,如下圖所示

1.jpg

這就讓我犯難了,這不會是rt-thread的問題吧,rt-thread這么多年了,難道我一用就出問題?

不破不立

不可能,絕對不可能,一定是我用的姿勢不對,再換一個姿勢吧,不破不立,由于我的代碼是分模塊的,于是我就將自己感覺有問題的模塊,一個一個注釋掉,如下圖所示,從后面往前面一個一個注釋,每注釋一個模塊,我就看看是否還會發(fā)生hardfualt

1.jpg

當(dāng)我把ota_init模塊注釋掉的時候,發(fā)現(xiàn)hardfualt沒了,這…這怎么可能呢,這個模塊我之前測試過的呀,跑了兩天都是正常的。

然后我發(fā)現(xiàn),設(shè)備每次出現(xiàn)hardfault的時候,系統(tǒng)的tick都是553600ms左右,如下所示,換算成分鐘也就是9分鐘這樣,9分鐘,9分鐘,9分鐘,9分鐘的時候還沒有出現(xiàn)hardfualt,我的ota模塊,是每10分鐘去服務(wù)器拉取一次做版本檢測,這么說,是這里的問題了?

| /

RT - Thread Operating System
/ | 4.1.0 build Jan 6 2023 17:42:12
2006 - 2022 Copyright by RT-Thread team
lwIP-2.1.2 initialized!
[4416] I/sal.skt: Socket Abstraction Layer initialize success.
[4574] I/rfid_config: reader.id : 4403061904001
[4579] I/rfid_config: reader.beep : 0
[4584] I/rfid_config: report.interval : 60
[4588] I/rfid_config: reader.power : 10
[4594] D/ota_module: ota_flag == ERASE_IAP_FLAG
msh />[4715] D/rfid_module: rfid_report tag
[65630] D/rfid_module: rfid_report tag
[126649] D/rfid_module: rfid_report tag
[187613] D/rfid_module: rfid_report tag
[248612] D/rfid_module: rfid_report tag
[309611] D/rfid_module: rfid_report tag
[370595] D/rfid_module: rfid_report tag
[430629] D/rfid_module: rfid_report tag
[491631] D/rfid_module: rfid_report tag
[552598] D/rfid_module: rfid_report tag
thread pri status sp stack size max used left tick error

tcp_ser 10 suspend 0x000001d8 0x00000800 25% 0x0000000a 000
udp_ser 10 suspend 0x00000228 0x00000400 53% 0x0000000a 000
rf_led 10 suspend 0x00000080 0x00000100 50% 0x0000000a 000
rf_send 10 suspend 0x000000a0 0x00000800 16% 0x00000003 000
rf_read 10 suspend 0x000000c0 0x00000200 37% 0x00000004 000
| /

RT - Thread Operating System
/ | 4.1.0 build Jan 6 2023 17:42:12
2006 - 2022 Copyright by RT-Thread team
lwIP-2.1.2 initialized!
[4416] I/sal.skt: Socket Abstraction Layer initialize success.
[4574] I/rfid_config: reader.id : 4403061904001
[4579] I/rfid_config: reader.beep : 0
[4584] I/rfid_config: report.interval : 60
[4588] I/rfid_config: reader.power : 10
[4594] D/ota_module: ota_flag == ERASE_IAP_FLAG
msh />[4716] D/rfid_module: rfid_report tag
[65642] D/rfid_module: rfid_report tag
[126601] D/rfid_module: rfid_report tag
[151604] D/rfid_module: rfid_report tag
[187619] D/rfid_module: rfid_report tag
[248596] D/rfid_module: rfid_report tag
[309616] D/rfid_module: rfid_report tag
[370621] D/rfid_module: rfid_report tag
[431620] D/rfid_module: rfid_report tag
[492616] D/rfid_module: rfid_report tag
[553600] D/rfid_module: rfid_report tag
thread pri status sp stack size max used left tick error


rf_led 10 suspend 0x00000080 0x00000100 50% 0x0000000a 000
rf_send 10 suspend 0x000000a0 0x00000800 16% 0x00000009 000
rf_read 10 suspend 0x000000c0 0x00000200 39% 0x00000003 000

于是我把OTA的時間改成每10秒一次,果然10秒以后,就出現(xiàn)了hardfault

峰回路轉(zhuǎn)

那么問題很明確了,就是這個OTA模塊的問題,于是我在OTA模塊里面打斷點排查,發(fā)現(xiàn)在socket里面,發(fā)送UDP數(shù)據(jù)包的時候,就出現(xiàn)了hardfault,如下所示

1.jpg

這會是數(shù)組越界導(dǎo)致的嗎?于是我開始排查在這個udp發(fā)送函數(shù)前面的代碼,仔細(xì)排查以后,沒發(fā)現(xiàn)有數(shù)組越界的現(xiàn)象。線索又?jǐn)嗔恕?怎么辦呢?我左思右想,問題就出現(xiàn)在這,到底是什么原因?

柳暗花明

udp發(fā)送,udp發(fā)送,會不會是這個線程爆棧了,于是我瞟了一眼這個線程的棧大小,哎喲我去,512字節(jié)。

thread = rt_thread_create("ota", ota_thread, RT_NULL, 512, 10, 10);
那我就改一下吧,改1024試試,果然,正常了….松了一口氣…

原來這個線程的棧是1024字節(jié)的,后面我使用ps命令看了這個線程棧的利用率還很低,于是我改成了512字節(jié),這也就是說,為什么我之前測試了2天這個模塊都是正常的,現(xiàn)在卻不行了。因為我使用ps命令的時候,那會才運行了幾分鐘,看到的線程棧利用率是沒有調(diào)用udp發(fā)送函數(shù)的,也就是說,那會看到的棧利用率,是不準(zhǔn)的,那時候我去減小它,肯定就容易出問題了

當(dāng)系統(tǒng)正常以后,我再次去ps,發(fā)現(xiàn)線程實際的棧利用率是92%,如下所示(前面的ps是沒有調(diào)用udp函數(shù)之前的,后面的ps是調(diào)用udp函數(shù)以后的,這時候的棧我設(shè)置的大小是1024),也就是說,512字節(jié),肯定是不夠的,甚至1024都快爆了,還得增大。

thread pri status sp stack size max used left tick error

ota 10 suspend 0x0000007c 0x00000400 32% 0x00000005 000
sys_led 10 suspend 0x0000007c 0x00000100 48% 0x0000000a 000
tshell 20 running 0x00000094 0x00001000 13% 0x00000003 000
tcpip 10 suspend 0x000000d0 0x00002000 07% 0x00000014 000
etx 12 suspend 0x00000094 0x00000400 14% 0x00000010 000
erx 12 suspend 0x00000094 0x00000400 56% 0x00000010 000
sys work 23 suspend 0x00000060 0x00000800 53% 0x0000000a 000
tidle0 31 ready 0x00000048 0x00000100 45% 0x00000009 000
timer 4 suspend 0x00000064 0x00000200 24% 0x00000009 000
main 10 suspend 0x00000084 0x00000800 33% 0x0000000e 000
msh />
msh />
msh />
msh />
msh />[14598] D/udp_module: send success
[14628] D/ota_module: ota_flag == ERASE_IAP_FLAG
ps
thread pri status sp stack size max used left tick error

ota 10 suspend 0x0000007c 0x00000400 92% 0x00000001 000
sys_led 10 suspend 0x0000007c 0x00000100 48% 0x0000000a 000
tshell 20 running 0x0000020c 0x00001000 13% 0x00000007 000
tcpip 10 suspend 0x000000d0 0x00002000 07% 0x00000014 000
etx 12 suspend 0x00000094 0x00000400 14% 0x00000010 000
erx 12 suspend 0x00000094 0x00000400 56% 0x00000010 000
sys work 23 suspend 0x00000060 0x00000800 53% 0x0000000a 000
tidle0 31 ready 0x00000058 0x00000100 45% 0x00000018 000
timer 4 suspend 0x00000064 0x00000200 24% 0x00000009 000
main 10 suspend 0x00000084 0x00000800 33% 0x0000000e 000

總結(jié)

使用了網(wǎng)絡(luò)的線程,一定要將線程棧開大一點,512字節(jié)肯定是不夠的,最少1536字節(jié)以上
使用ps命令打印出來的線程棧最大使用率,是在代碼運行過一段時間以后,才準(zhǔn)的,比如我的代碼中,udp發(fā)送數(shù)據(jù)是在系統(tǒng)啟動10分鐘以后才運行到,所以我在前面幾分鐘的時候使用的ps命令看,ota線程是沒有爆棧的,只有在運行到這個網(wǎng)絡(luò)發(fā)送數(shù)據(jù)的代碼,這個棧才會溢出。

因此如果有一些代碼不是立即運行的,在調(diào)試的時候,可以把這個時間提前,盡量讓系統(tǒng)上電以后,把所有的代碼都能跑一遍,這樣對于一些跑了一段時間才出現(xiàn)棧溢出的問題,比較容易復(fù)現(xiàn),容易復(fù)現(xiàn)也就容易解決。

或者可以在調(diào)試代碼的時候,可以把線程棧設(shè)置大一些,讓代碼先能夠正常跑起來,然后跑個幾天,再去ps一下看看棧的最大利用率,幾天以后所有的代碼、流程應(yīng)該基本上都跑過一遍了,這時候的棧利用率才是比較準(zhǔn)的,這時候才去優(yōu)化這個棧大小,會比較合適。

在遇到hardfault的時候,不要怕,用工具不行,我們就手動一個一個模塊去排查,把問題的范圍縮小,盡管耗費的時間會長一點,但是總會定位到問題的。

最后我想,如果rt-thread可以在棧溢出的時候,自動檢測并且定位出來就好了,比如我這個ota的線程棧溢出了,rt-thread就告訴我,xxxx線程棧溢出啦,你得開辟大一點,就好了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • OTA
    OTA
    +關(guān)注

    關(guān)注

    7

    文章

    582

    瀏覽量

    35269
  • LwIP協(xié)議棧
    +關(guān)注

    關(guān)注

    0

    文章

    19

    瀏覽量

    7390
  • RT-Thread
    +關(guān)注

    關(guān)注

    31

    文章

    1293

    瀏覽量

    40219
  • UDP通信
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    1935
收藏 人收藏

    評論

    相關(guān)推薦

    【經(jīng)驗】飛思卡爾工程師教你如何定位Kinetis MCU Hard Fault 異常

    看到有朋友遇到Hard Fault 異常錯誤,特地找到篇飛思卡爾工程師寫的片經(jīng)驗帖,定位Hard F
    發(fā)表于 01-31 22:06

    記錄一次STM32H743 CANFD調(diào)試過程中的一次BUG

    記錄一次STM32H743 CANFD調(diào)試過程中的一次BUG
    發(fā)表于 08-13 06:30

    通過SPI往SD卡寫數(shù)據(jù)出現(xiàn)bus hard_fault該怎樣去解決這個問題呢

    ???難道是系統(tǒng)時鐘不穩(wěn)定么,設(shè)備測試一次,大約需要寫卡2.5w,有概率會出現(xiàn)這個bug,但出現(xiàn)一次hard_fault就裂開了。請各位老師支支招,萬分感謝
    發(fā)表于 08-15 11:29

    記錄一次hard fault on handler的解決過程

    背景最近在做個OTA的功能時,遇到hard fault on handler的問題,前前后后排查了將近2天,才將此問題解決,因此做
    發(fā)表于 02-09 14:36

    新手求助刪掉某行LOG_I會導(dǎo)致hard fault on handler?

    : 0x0806128d pc: 0x08061290 hard fault on handler usage fault: SCB_CFSR_UFSR:0x01 UNDEFINSTR
    發(fā)表于 05-17 10:14

    程序在運行段時間后報In Hard Fault Handler錯誤怎么解決?

    各位大神,我的程序在運行段時間后報In Hard Fault Handler錯誤, In Hard F
    發(fā)表于 06-13 08:22

    M0516LDE老是進(jìn)入Hard_Fault_Handler的原因?怎么解決?

    M0516 LDE,老是進(jìn)入Hard_Fault_Handler
    發(fā)表于 06-27 08:57

    程序在運行段時間后報In Hard Fault Handler錯誤的原因?怎么解決?

    各位大神,我的程序在運行段時間后報In Hard Fault Handler錯誤, In Hard F
    發(fā)表于 06-28 06:02

    程序在運行段時間后報In Hard Fault Handler錯誤的原因?

    各位大神,我的程序在運行段時間后報In Hard Fault Handler錯誤, In Hard F
    發(fā)表于 08-28 07:45

    一次過程的等值電路

    一次過程的等值電路 圖 一次過程的等值電路 在電動機(jī)端子上安裝阻抗匹配器可
    發(fā)表于 07-18 11:24 ?1713次閱讀
    <b class='flag-5'>一次</b>波<b class='flag-5'>過程</b>的等值電路

    鬼魅樣的 Hard Fault

    STM32 鬼魅樣的 Hard Fault
    發(fā)表于 12-07 17:53 ?0次下載

    使用指針調(diào)用函數(shù)產(chǎn)生 Hard Fault

    使用指針調(diào)用函數(shù)產(chǎn)生 Hard Fault
    發(fā)表于 12-07 17:52 ?0次下載

    stm32h743外部RAM非字節(jié)對齊訪問,引起的hard fault

    stm32h743外部RAM非字節(jié)對齊訪問,引起的hard fault
    發(fā)表于 12-09 09:21 ?5次下載
    stm32h743外部RAM非字節(jié)對齊訪問,引起的<b class='flag-5'>hard</b> <b class='flag-5'>fault</b>

    單片機(jī)硬錯誤排查方法

    \PROCIMPORT hard_fault_handler_cTST LR, #4ITE EQMRSEQ R0, MSPMRSNE R0, PSPB hard_fault_handler_cENDP2、然后把 hard_fault_h
    發(fā)表于 12-16 16:54 ?0次下載
    單片機(jī)硬錯誤排查方法

    STM32H750上使用PCROP后導(dǎo)致Hard Fault

    電子發(fā)燒友網(wǎng)站提供《STM32H750上使用PCROP后導(dǎo)致Hard Fault.pdf》資料免費下載
    發(fā)表于 09-20 09:10 ?11次下載
    STM32H750上使用PCROP后導(dǎo)致<b class='flag-5'>Hard</b> <b class='flag-5'>Fault</b>