1 寫在前言
最近在排查一個項目的性能壓測問題,十分偶然地發(fā)現(xiàn)一個莫名偶現(xiàn)的網(wǎng)絡(luò)掉線問題,最后排查發(fā)現(xiàn)居然跟系統(tǒng)的隨機數(shù)特性有莫大的關(guān)系。
由于我們現(xiàn)在的應(yīng)用場景都是基于Wi-Fi的網(wǎng)絡(luò)連接,所以本文會結(jié)合這個偶現(xiàn)的網(wǎng)絡(luò)掉線問題,重點分析下在網(wǎng)絡(luò)通訊中,如果隨機數(shù)不隨機會引發(fā)什么問題,以及如何去排查和解決這些問題。
通過本文的閱讀,你將可以了解到:
-
在網(wǎng)絡(luò)通訊中,如果隨機數(shù)不隨機會引發(fā)什么問題?
-
MQTT中的keepalive參數(shù)有何作用?
-
TCP三次握手和四次揮手的過程是怎么樣的?
-
lwip協(xié)議棧的實現(xiàn)中是如何使用隨機數(shù)的?
-
嵌入式Wi-Fi設(shè)備如何抓取通訊報文?
-
如何“重載”標(biāo)準(zhǔn)C庫的rand函數(shù)?
2 問題描述
我們先來看下當(dāng)時測試提的issue是怎么說的。
當(dāng)我第一時間看到這個問題的時候,就想起來,其實我們的版本還在內(nèi)測階段的時候,就已經(jīng)發(fā)現(xiàn)了類似的問題,只不過這個問題復(fù)現(xiàn)概率相對較低,當(dāng)時還一度懷疑是偶然的熱點掉線啥的,所以就不了了之了。當(dāng)時內(nèi)測的issue記錄如下:
其中,仔細(xì)分析我們內(nèi)測階段提的issue是可以看出問題的,至少我們可以知道:
-
出現(xiàn)問題時,無論云端到終端,還是終端到云端,通訊數(shù)據(jù)都是不暢通的,這一點可以基本判定設(shè)備是掉線的;
-
出現(xiàn)問題時,排除是網(wǎng)絡(luò)中斷的情況;畢竟ping外網(wǎng)是通的;
-
issue中都提到了中斷2-3分鐘(感官時間,不是精準(zhǔn)計時,精準(zhǔn)應(yīng)該是3分鐘)后,觸發(fā)重連機制,重連成功后,問題解除了;
-
該問題的觸發(fā)時間節(jié)點,一定是某次重啟之后的第一次網(wǎng)絡(luò)通訊;
-
跟具體的云平臺無關(guān),但與具體的模組型號強相關(guān)。
以上就是這些是通過觀看設(shè)備的log以及結(jié)合一些簡單的測試方法就可以得出的基本結(jié)論,但是并不能準(zhǔn)確得出結(jié)論,為何在這個節(jié)點下設(shè)備會掉線,或者說,為何在成功配網(wǎng)后,發(fā)起ping包才會發(fā)現(xiàn)掉線,前面的配網(wǎng)不是交互得好好的嗎?掉線究竟是設(shè)備端主動掉的還是云端關(guān)閉連接的?最重要的是,這種情況能不能規(guī)避或者妥善解決?
帶著這些疑問,我們需要做更進(jìn)一步的實驗和分析。
3 場景再現(xiàn)
3.1 復(fù)現(xiàn)環(huán)境搭建
大部分軟件問題難解決主要有兩個方面,一個是難復(fù)現(xiàn)或者說找不到穩(wěn)定復(fù)現(xiàn)的路勁,還有一種就是你能找到穩(wěn)定復(fù)現(xiàn)的路勁,但是這個bug解決不了,或者說你解決不了,要么它有外部依賴,要么它就是個已知bug,你就是解決不了。
說句不好聽的:寫軟件的,誰還沒幾個解決不了的bug?
但是,說是這樣說,至少你需要去嘗試復(fù)現(xiàn),指不定能找到復(fù)現(xiàn)的路徑呢;只有當(dāng)你的確找到了復(fù)現(xiàn)路徑,且使用了各種手段嘗試去解決也沒法解決,哪怕找原廠協(xié)助也依然無能為力,我們才能把問題歸為第二類。
根據(jù)issue提供的信息,快速搭建復(fù)現(xiàn)環(huán)境,嘗試復(fù)現(xiàn)。注意,我們在issue的附件log中很清晰地看到出問題的節(jié)點下,MQTT的ping包丟了,所以在搭建復(fù)現(xiàn)環(huán)境的時候,我們嘗試了修改MQTT ping包的發(fā)送周期。我們提測的版本用的是典型值60S,所以復(fù)測中我們同步修改2個版本,分別是30S和120S。
好巧不巧,120S的版本,按照正常的配網(wǎng)流程操作個沒幾次,一下子就復(fù)現(xiàn)了。這讓我們有點驚呆,不知是運氣好,還是真的這個復(fù)現(xiàn)概率就是這么高?。?!
3.2 復(fù)現(xiàn)問題的說明
既然問題很快復(fù)現(xiàn)了,我們應(yīng)該正視問題的排查和分析思路。從復(fù)現(xiàn)問題點開始,嘗試ping網(wǎng)關(guān),嘗試ping外網(wǎng),發(fā)現(xiàn)都是通的,難道真的只是一次偶發(fā)的網(wǎng)絡(luò)掉線?
為何會有這樣的問號,那是因為辦公室的Wi-Fi網(wǎng)絡(luò)環(huán)境的確比較差,無線通訊干擾很大,不排除偶然有這種掉線的可能性。
面對這個復(fù)現(xiàn)問題,我們還想到了抓空口包,試著分析當(dāng)前狀態(tài)的空口數(shù)據(jù)的情況,順帶觀測下當(dāng)前無線網(wǎng)絡(luò)的通暢情況。
我們也做好了另一份方案,抓網(wǎng)絡(luò)包,也就是TCP/IP包;抓這個包的作用主要是觀測問題節(jié)點下網(wǎng)絡(luò)報文的傳輸情況,曾經(jīng)在第一時間看到這個issue的時候,還有一個懷疑點就是通訊鏈路斷了,到底斷沒斷,TCP/IP包大概就能看出來。
以下就是基于復(fù)現(xiàn)的問題節(jié)點做出的初步排查和分析方案,具體的操作還得看下文后續(xù)的分析、解決及驗證。
4 問題分析
作為一個嵌入式軟件工程師,我個人認(rèn)為,當(dāng)出現(xiàn)問題,首先應(yīng)該排除硬件的問題,也就是說,先假設(shè)設(shè)備硬件完好的情況下去分析軟件問題;只有當(dāng)你把所有的軟件可能性排除得差不多了,或者你在排除的過程中,找到了充分的證據(jù)證明硬件問題的可能性非常大,那么這個時候你就可以去找硬件工程師battle battle了。
其次,排查軟件問題,無非兩個方向,要不從大到小,要么從小到大。從大到小指的是先從宏觀的軟件架構(gòu)層面去思考和分析,層層剝離,循序漸進(jìn),直到分析可能出現(xiàn)的更小范圍,各個排查突破;從小到大指的是從微觀的末端錯誤log開始分析,一步步反推導(dǎo)致這個錯誤的出現(xiàn)的可能性,層層剝離,結(jié)合上下文信息深入分析,直至找到問題的根源。
4.1 從大到?。豪斫廛浖軜?gòu)
上面也提到了,從小到大的排查方式是從代碼架構(gòu)層面去分析;為了聚焦在網(wǎng)絡(luò)這一塊,我把原本比較復(fù)雜的架構(gòu)精簡了一下,僅保留與網(wǎng)絡(luò)通訊相關(guān)的內(nèi)容,大致如下圖所示:
從第2章節(jié)的issue描述以及第3章節(jié)自己的復(fù)測,我們可以知道出現(xiàn)問題是在MQTT這個組件中爆發(fā)了問題,且在芯片PLATFORM中只有XXX上面才會出現(xiàn),于是我們可以大膽地假設(shè)一個觀點:問題很有可能出現(xiàn)在mbedtls組件或lwip組件!
同時,由于我們在做架構(gòu)圖的時候,更多的是在邏輯層面,所以在代碼架構(gòu)圖中,并沒有很好地對lwip的物理存在做準(zhǔn)確的描述。理論上說,物理架構(gòu)必須是服從于邏輯架構(gòu),但在實操過程中,我們在這一原則上的確偷了一下懶,原因就是YYY和XXX都已經(jīng)移植好了現(xiàn)成的lwip組件,關(guān)鍵是他們適配的版本不一樣,所以我們并沒有統(tǒng)一lwip組件,而實際執(zhí)行的軟件架構(gòu)圖是下面這張圖:
配合這個物理架構(gòu)圖,1路勁沒有問題,而2路勁卻出問題了,基本可以推斷出是lwip組件的問題。
4.2 從小到大:拋開現(xiàn)象看本質(zhì)
從復(fù)現(xiàn)的問題現(xiàn)場的末端,最直觀的就是mqtt send ping
發(fā)出去了,但是沒有mqtt recv pingrsp
。
單從這個現(xiàn)象,我們需要尋找的本質(zhì)是:
MQTT模塊是否工作不正常了?MQTT掉線了?MQTT自己斷開掉線還是broker斷開導(dǎo)致的掉線?
如果MQTT工作不正常,那么TCP層工作是否正常?畢竟MQTT是基于TCP層,在其之上。
另外,4.1復(fù)現(xiàn)問題中,對MQTT的keepalive參數(shù)做了調(diào)整,是否這個參數(shù)有著致命的影響?
MQTT規(guī)范中對keepalive是如何描述的?
一個簡單的現(xiàn)象,要看清其本質(zhì)并不容易,需要下面大量的輔助分析過程。
就像這樣:
MQTT掉線 --》PINGREQ包發(fā)出去了嗎?--》PINGRESP包收到了嗎?--》TCP鏈接什么情況?--》空口通訊是否正常?
4.3 要放大招:三板斧出擊
從上面的都僅僅是初步的假設(shè)分析,還沒法找到真正的證據(jù);再要深入細(xì)節(jié),底層的log以及網(wǎng)絡(luò)報文肯定少不了。
4.3.1 第一板斧:MQTT log
我們使用的是pahu的C語言版本的MQTT,通過瀏覽器代碼實現(xiàn),我們可以知道其MQTT層的log開關(guān)位于:
打開這里的開關(guān),我們就可以看到更多細(xì)致的MQTT log,包括MQTT基礎(chǔ)報文的收發(fā)都可以看到。這個就可以相對清晰地知道,在發(fā)生MQTT掉線(ping lost)的時候,究竟有沒有收到ping resp?
有一種情況是的確沒有收到,這種肯定是lost;還有一種是,可能收到了,但是在MQTT層解析、拆包、校驗的時候發(fā)現(xiàn)是一個非法包,然后直接丟棄了,不能丟到上層去處理。通常來說,第二種情況比較少見。
還有一點,我們使用的MQTT實現(xiàn)包中對MQTT收到的報文,全部都是在mqtt_yield(Client, timeout_ms)
查詢式接收,當(dāng)收到一個有效的MQTT報文,會有類似下面一段的處理代碼:
// check recv MQTT packet type
switch (packetType) {
case CONNACK: {
mqtt_debug("CONNACK");
break;
}
#if !WITH_MQTT_ONLY_QOS0
case PUBACK: {
mqtt_debug("PUBACK");
rc = iotx_mc_handle_recv_PUBACK(c);
if (SUCCESS_RETURN != rc) {
mqtt_err("recvPubackProc error,result = %d", rc);
}
break;
}
#endif
case SUBACK: {
mqtt_debug("SUBACK");
rc = iotx_mc_handle_recv_SUBACK(c);
if (SUCCESS_RETURN != rc) {
mqtt_err("recvSubAckProc error,result = %d", rc);
}
break;
}
case PUBLISH: {
mqtt_debug("PUBLISH");
/* HEXDUMP_DEBUG(c->buf_read, 32); */
rc = iotx_mc_handle_recv_PUBLISH(c);
if (SUCCESS_RETURN != rc) {
mqtt_err("recvPublishProc error,result = %d", rc);
}
break;
}
case UNSUBACK: {
mqtt_debug("UNSUBACK");
rc = iotx_mc_handle_recv_UNSUBACK(c);
if (SUCCESS_RETURN != rc) {
mqtt_err("recvUnsubAckProc error,result = %d", rc);
}
break;
}
case PINGRESP: {
rc = SUCCESS_RETURN;
mqtt_info("receive ping response!");
break;
}
default:
mqtt_err("INVALID TYPE");
_reset_recv_buffer(c);
HAL_MutexUnlock(c->lock_read_buf);
return FAIL_RETURN;
}
倘若正常收到ping回復(fù)的,一定會有"receive ping response!"的log輸出,這也是斷定MQTT是否掉線的一個簡單判斷。
4.3.2 第三板斧:TCP/IP抓包
由于我們使用的是Wi-Fi網(wǎng)絡(luò)通訊,所以要想抓取模組的TCP/IP報文,通常有以下幾種方法:
-
方法1:在無線路由器中抓取流過路由器的報文,這種方法對路由器有要求,實踐中,我們并沒有采取這種方法,感興趣可以去了解下。
-
方法2:利用中間人原理來抓包,以前我就曾經(jīng)使用過這個方法抓一些蜂窩網(wǎng)絡(luò)的網(wǎng)絡(luò)報文,效果還是不錯的,只不過代碼層面需要稍作點服務(wù)器的地址、端口修改,它的原理如下圖所示。它有個弊端,就是需要一個具備抓包環(huán)境的公網(wǎng)服務(wù)器;同時在公網(wǎng)PC端需要一個代理軟件,這里推薦使用一個叫sockit的開源軟件,感興趣可以了解下。
-
方法3:利用無線熱點的功能特性來抓包,它的原理如下圖所示,大家一看便懂,其實就是PC電腦使用無線網(wǎng)卡或類似360Wi-Fi這種,開啟一個無線AP熱點,讓設(shè)備連接這個無線熱點,從而達(dá)到探測網(wǎng)絡(luò)報文的目的。不過,它也是多少有些缺陷,感興趣可以了解下,但是基本應(yīng)付我們這種抓包場景肯定是沒有問題的。
經(jīng)綜合考慮,我們采用的是方法3來抓包,配合前面提及的復(fù)現(xiàn)方法,很快就抓到了對應(yīng)的TCP報文(感興趣的可以去[這里]()取報文)。
通過這種方式抓包會把PC上所有的網(wǎng)絡(luò)報文中抓包,為了精準(zhǔn)展示設(shè)備的報文,我們需要對所抓的報文進(jìn)行過濾,使用的過濾指令是 “tcp.port=xxx && ip.addr=yyy.yyy.yyy.yyy“,其中xxx表示設(shè)備端鏈接服務(wù)器端的端口號,yyy.yyy.yyy.yyy是服務(wù)器主機的IP地址;如果服務(wù)器是域名的形式的話,先在PC上使用ping命令把域名解析成IP。
wireshark中對報文的過濾操作,如下圖所示:
通過wireshark簡單一看,找到對應(yīng)ping lost的時間節(jié)點,MQTT的ping包看似壓根就沒發(fā)出去,因為ping包在TCP層一直是重傳的,壓根得不到服務(wù)器的ACK。
如下所示:
4.3.3 第二板斧:空口抓包
空口抓包,我們使用的是omnipeek軟件,這也是業(yè)內(nèi)常規(guī)使用的空口抓包工具。
關(guān)于如何搭建omnipeek的抓包環(huán)境,我這里不再贅述,感興趣的可以科學(xué)上網(wǎng),找一些參考教程,一學(xué)便會。
它的抓包界面長這樣:
具體解析的數(shù)據(jù)幀解析界面長這樣:
如不習(xí)慣使用它來看報文,倒是可以導(dǎo)出其網(wǎng)絡(luò)包,使用wireshark來看網(wǎng)絡(luò)報文,也是一種常見的分析手段。
有了omnipeek的抓包環(huán)境,配合前面的復(fù)現(xiàn)方法,我們發(fā)現(xiàn)當(dāng)問題出現(xiàn)時,omnipeek是能抓到一些TCP報文流過的,這至少能說明,在問題節(jié)點下空口通訊是正常的,需要再往上層協(xié)議去排查。
4.3.4 分析小結(jié)
看這里好像是三板斧分三個階段走,在實操過程中,其實三板斧是同時進(jìn)行的,這也是為了能夠在問題節(jié)點下分析出更多的線索和可能性。三者是相輔相成的,都聯(lián)系在一起。
4.4 關(guān)鍵轉(zhuǎn)機:找到突破口
誰來也巧,在上面抓TCP包分析的時候,我們可以看到MQTT ping包變成了Application Data,為什么?
原因在于我們在MQTT層上加了TLS,實際上跑的MQTTS;我們的實現(xiàn)是:MQTT+mbedtls。
我當(dāng)時有個想法就是,能不能把MQTTS中的密文解開來,看著也舒服些,遇到開始查找資料,找到了這篇參考教程,是RT-Thread輸出的教程:基于RT-Thread 使用 wireshark 抓取 HTTPS 數(shù)據(jù)包。
它的思路很新穎也很聰明,實現(xiàn)原理圖長這樣:
使用這個方案, 電腦創(chuàng)建 一個Wi-Fi 熱點,設(shè)備端連接電腦熱點,并發(fā)起 https 請求(TLS),服務(wù)器接收到請求,向設(shè)備端發(fā)出響應(yīng),設(shè)備端根據(jù)響應(yīng)的內(nèi)容,計算出密鑰, 并將設(shè)備端隨機數(shù)和密鑰通過 udp 發(fā)送到 pc,保存到sslkey.log文件,wireshark 根據(jù)設(shè)備端隨機數(shù)和密鑰即可將TLS 數(shù)據(jù)包解密。
其核心邏輯就是讓處于抓包狀態(tài)的wireshark拿到設(shè)備與服務(wù)器端最終協(xié)商的那個數(shù)據(jù)加密的key,從而把密文的數(shù)據(jù)還原成明文。
參考教程,我很快就把相應(yīng)的流程跑起來了,但是遺憾的是wireshark并沒能成功地幫我解開密文數(shù)據(jù)。
不過也不是完全一無所獲,因為我發(fā)現(xiàn)了一個致命的問題在里面,這個致命問題倒是給我提供了一個新思路,真是塞翁失馬焉知非福!
在以前的金融POS機器安全研發(fā)的工作經(jīng)歷中,我曾經(jīng)花很大的力氣專門研究過TLS握手相關(guān)的握手以及數(shù)據(jù)的加解密流程,所以對上述教程中提及的TLS相關(guān)的講解,也是理解得比較透徹。
但我發(fā)現(xiàn)其中的致命問題是,我從設(shè)備截獲的CLIENT RANDOM字段保存在sslkey.log中,居然每次開機都是一模一樣的:
這肯定不行?。∫肋@可是TLS握手中客戶端的隨機數(shù)???怎么能每次都一樣呢?豈不是會被人重放攻擊?
這種情況下,要么是mbedtls庫實現(xiàn)有問題,要不就是隨機數(shù)有問題?
既然mbedtls別人用了那么多,而且我們其他芯片平臺也用啊,也沒遇到這種問題,所以隨機數(shù)的可能就非常大了!
也確認(rèn)了下mbedtls中使用隨機數(shù)的最終調(diào)用接口:
static unsigned int _avRandom()
{
return (((unsigned int)rand() << 16) + rand());
}
static int _ssl_random(void *p_rng, unsigned char *output, size_t output_len)
{
uint32_t rnglen = output_len;
uint8_t rngoffset = 0;
while (rnglen > 0) {
*(output + rngoffset) = (unsigned char)_avRandom();
rngoffset++;
rnglen--;
}
return 0;
}
// mbedtls connection init
{
// ...
mbedtls_ssl_conf_rng(&(pTlsData->conf), _ssl_random, NULL);
// ...
}
WC !居然是標(biāo)準(zhǔn)C庫的rand函數(shù)!這!?。?/span>
直到這里,我才正兒八經(jīng)地往隨機數(shù)的方向去懷疑了,最后的實踐證明,這個思路恰好對了。
隨機數(shù)這個思路一打開之后,我突然想起大概2個月前幫Wi-Fi組的同事排查過一個lwip隨機數(shù)引發(fā)的問題,但是腦子里有些模糊,只記得好像會引發(fā)斷線啥的。
果然找到對口的同事(還在隔離中),語音確認(rèn)了一波,果然問題的現(xiàn)象我們這無比的相應(yīng),要知道他當(dāng)時調(diào)的芯片平臺和SDK都不是我現(xiàn)在用的這套,這就足以證明,這個問題是首次在我們的SDK和芯片平臺上爆發(fā),而且這個問題估計原廠還未同步發(fā)現(xiàn)。
4.5 知識點補缺
上面的思路,已經(jīng)將疑點對準(zhǔn)隨機數(shù)了,但是為了能準(zhǔn)確分析解決問題,我們需要將相關(guān)的理論知識惡補以下。
4.5.1 MQTT的心跳機制
這種純理論知識,我想沒有什么比MQTT的協(xié)議規(guī)范更有說服力,于是我查找了MQTT-V3.1.1的規(guī)范文檔,找到了相關(guān)說明:
-
keepalive參數(shù)
-
PINGREQ報文和PINGRESP報文
簡單總結(jié)下:
當(dāng)客戶端啟動了keepalive特性之后,客戶端至少應(yīng)在keepalive間隔內(nèi)發(fā)起一條PINGREQ,如果服務(wù)端在一點五倍的保持連接時間內(nèi)沒有收到客戶端的控制報文,它必須斷開客戶端的網(wǎng)絡(luò)連接,認(rèn)為網(wǎng)絡(luò)連接已斷開。反之,如果服務(wù)器收到了PINGREQ,就必須響應(yīng)PINGRESP以表示自己還活著。
4.5.2 lwip協(xié)議棧
lwip是一個非常輕量級的TCP/IP協(xié)議棧的C版本實現(xiàn),它在有無操作系統(tǒng)的支持都可以運行。LwIP實現(xiàn)的重點是在保持TCP協(xié)議主要功能的基礎(chǔ)上減少對RAM 的占用,它只需十幾KB的RAM和40K左右的ROM就可以運行,這使LwIP協(xié)議棧適合在低端的嵌入式系統(tǒng)中使用。更多簡要介紹,可以參考(百度百科)[https://baike.baidu.com/item/LwIP/10694326].
對于lwip的使用,我們已經(jīng)很熟悉了,因為它兼容原生的BSD socket,很容易就可以基于socket API把網(wǎng)絡(luò)程序給跑起來。同時,原廠已經(jīng)幫忙把lwip在指定的RTOS系統(tǒng)(本案例是freeRTOS)中,但我們應(yīng)該好好學(xué)一學(xué)lwip移植相關(guān)的內(nèi)容,可以參考下這里。
我這里重點提及下它使用隨機數(shù)的地方,關(guān)于它的初始化流程可以參見這里。
在它的初始化流程中,需要執(zhí)行到一個tcp_init的函數(shù)
,位于tcp.c中:
//init.c
void
lwip_init(void)
{
#ifndef LWIP_SKIP_CONST_CHECK
int a;
LWIP_UNUSED_ARG(a);
LWIP_ASSERT("LWIP_CONST_CAST not implemented correctly. Check your lwIP port.", LWIP_CONST_CAST(void*, &a) == &a);
#endif
#ifndef LWIP_SKIP_PACKING_CHECK
LWIP_ASSERT("Struct packing not implemented correctly. Check your lwIP port.", sizeof(struct packed_struct_test) == PACKED_STRUCT_TEST_EXPECTED_SIZE);
#endif
/* Modules initialization */
stats_init();
#if !NO_SYS
sys_init();
#endif /* !NO_SYS */
mem_init();
memp_init();
pbuf_init();
netif_init();
#if LWIP_IPV4
ip_init();
#if LWIP_ARP
etharp_init();
#endif /* LWIP_ARP */
#endif /* LWIP_IPV4 */
#if LWIP_RAW
raw_init();
#endif /* LWIP_RAW */
#if LWIP_UDP
udp_init();
#endif /* LWIP_UDP */
#if LWIP_TCP
tcp_init();
#endif /* LWIP_TCP */
#if LWIP_IGMP
igmp_init();
#endif /* LWIP_IGMP */
#if LWIP_DNS
dns_init();
#endif /* LWIP_DNS */
#if PPP_SUPPORT
ppp_init();
#endif
#if LWIP_TIMERS
sys_timeouts_init();
#endif /* LWIP_TIMERS */
}
//tcp.c
/**
* Initialize this module.
*/
void
tcp_init(void)
{
#if LWIP_RANDOMIZE_INITIAL_LOCAL_PORTS && defined(LWIP_RAND)
tcp_port = TCP_ENSURE_LOCAL_PORT_RANGE(LWIP_RAND()); //關(guān)鍵操作:初始化的時候隨機取得tcp_port
os_printf("tcp_port:%d
", tcp_port);
#endif /* LWIP_RANDOMIZE_INITIAL_LOCAL_PORTS && defined(LWIP_RAND) */
}
OK,我們這里看到它使用了一個LWIP_RAND操作,而原廠適配lwip的時候并沒有把這個LWIP_RAND切換到硬件的RAND,而是用了標(biāo)準(zhǔn)C庫的rand函數(shù),前面已經(jīng)有跡象表明,它就不是隨機的,這里還用?
tcp_init無非是取得一個tcp_port的基準(zhǔn)偏移,后面在創(chuàng)建客戶端的時候,對服務(wù)器發(fā)起TCP鏈接,本地的端口號就是根據(jù)這個tcp_port來計算出來的,代碼如下:
//tcp.c
/**
* Allocate a new local TCP port.
*
* @return a new (free) local TCP port number
*/
static u16_t
tcp_new_port(void)
{
u8_t i;
u16_t n = 0;
struct tcp_pcb *pcb;
again:
//關(guān)鍵操作:tcp_port+1獲得新的端口號
if (tcp_port++ == TCP_LOCAL_PORT_RANGE_END) {
tcp_port = TCP_LOCAL_PORT_RANGE_START;
}
/* Check all PCB lists. */
for (i = 0; i < NUM_TCP_PCB_LISTS; i++) {
for (pcb = *tcp_pcb_lists[i]; pcb != NULL; pcb = pcb->next) {
if (pcb->local_port == tcp_port) {
if (++n > (TCP_LOCAL_PORT_RANGE_END - TCP_LOCAL_PORT_RANGE_START)) {
return 0;
}
goto again;
}
}
}
return tcp_port;
}
所以,到這基本就解釋了,重啟后的那次TCP鏈接為何使用了前一次TCP鏈接的端口號,因為tcp_port兩次(很有可能)是一樣的。
4.5.3 TCP的狀態(tài)圖
要熟練地分析上面的各個場景,務(wù)必需要對TCP的各個狀態(tài)非常了解。從網(wǎng)上找了一張關(guān)于TCP狀態(tài)介紹稍全的圖,供大家參考下:
關(guān)于TCP的狀態(tài)切換圖,我也還在學(xué)習(xí),期間我找大神(小林coding)討論過這個有趣的問題,原來他之前寫過這個場景的分析,那我就直接搬過來了,感興趣的可以一看。
他的核心觀點就是:
處于 establish 狀態(tài)的服務(wù)端如果收到了客戶端的 SYN 報文(注意此時的 SYN 報文其實是亂序的,因為 SYN 報文的初始化序列號其實是一個隨機數(shù)),會回復(fù)一個攜帶了正確序列號和確認(rèn)號的 ACK 報文,這個 ACK 被稱之為 Challenge ACK。接著,客戶端收到這個 Challenge ACK,發(fā)現(xiàn)序列號并不是自己期望收到的,于是就會回 RST 報文,服務(wù)端收到后,就會釋放掉該連接。
結(jié)合我們抓的TCP報文,這不就是剛好驗證了我們的復(fù)現(xiàn)場景嗎?
4.5.4 TCP報文的標(biāo)志位
TCP的報文中規(guī)定有6種重要的標(biāo)志位:
-
URG:(Urgent Pointer field significant)緊急指針。用到的時候值為1,用來處理避免TCP數(shù)據(jù)流中斷?!具@個標(biāo)志位很少見】
-
ACK:(Acknowledgment fieldsignificant)置1時表示確認(rèn)號(AcknowledgmentNumber)為合法,為0的時候表示數(shù)據(jù)段不包含確認(rèn)信息,確認(rèn)號被忽略。
-
PSH:(Push Function),PUSH標(biāo)志的數(shù)據(jù),置1時請求的數(shù)據(jù)段在接收方得到后就可直接送到應(yīng)用程序,而不必等到緩沖區(qū)滿時才傳送。
-
RST:(Reset the connection)用于復(fù)位因某種原因引起出現(xiàn)的錯誤連接,也用來拒絕非法數(shù)據(jù)和請求。如果接收到RST位時候,通常發(fā)生了某些錯誤。
-
SYN:(Synchronize sequence numbers)用來建立連接,在連接請求中,SYN=1,ACK=0,連接響應(yīng)時,SYN=1,ACK=1。即,SYN和ACK來區(qū)分Connection Request和Connection Accepted。
-
FIN:(No more data from sender)用來釋放連接,表明發(fā)送方已經(jīng)沒有數(shù)據(jù)發(fā)送了。
熟悉這幾個標(biāo)志位的基礎(chǔ)含義,基本上就可以看懂一段TCP網(wǎng)絡(luò)報文了。
4.6 深入分析:從理論分析到實戰(zhàn)分析
有了上面的知識點補充,我們嘗試著深入分析,看看把這些知識點結(jié)合實際的案例場景串起來?
4.6.1 理論分析:理論上的復(fù)現(xiàn)路徑
從lwip的初始化分析,我們可以知道在設(shè)備重開機后,設(shè)備發(fā)起的第一筆TCP鏈接使用的端口是跟其初始化的tcp_port有直接的關(guān)系(tcp_port + 1);而我們的Wi-Fi設(shè)備都是連接的無線路由熱點的,所以設(shè)備重啟后,很大可能也是取到同一個子網(wǎng)IP。這樣的話,重啟前后的兩次TCP鏈接使用的四元組就是完全相同的:(客戶端端口號、客戶端本地IP、服務(wù)端端口號、服務(wù)器IP)。
會發(fā)生什么事情,我直接用小林的一張圖來說明:
處于 establish 狀態(tài)的服務(wù)端如果收到了客戶端的 SYN 報文(注意此時的 SYN 報文其實是亂序的,因為 SYN 報文的初始化序列號其實是一個隨機數(shù)),會回復(fù)一個攜帶了正確序列號和確認(rèn)號的 ACK 報文,這個 ACK 被稱之為 Challenge ACK。
接著,客戶端收到這個 Challenge ACK,發(fā)現(xiàn)序列號并不是自己期望收到的,于是就會回 RST 報文,服務(wù)端收到后,就會釋放掉該連接。
他的博文中是分析了linux系統(tǒng)下的TCP協(xié)議對這種場景的報文回復(fù)情況,那么我試著從lwip協(xié)議棧的實現(xiàn)中,找找相關(guān)的處理是怎么樣的。
當(dāng)客戶端發(fā)起tcp connect的時候,調(diào)用的是lwip_connect,具體可以參考下面。
函數(shù)調(diào)用順序:-> lwip_connect-> netconn_connect
-> netconn_apimsg
-> lwip_netconn_do_connect
-> tcp_connect
-> ...
err_t
tcp_connect(struct tcp_pcb *pcb, const ip_addr_t *ipaddr, u16_t port,
tcp_connected_fn connected)
{
err_t ret;
u32_t iss;
u16_t old_local_port;
// 省略部分實現(xiàn)
/* Send a SYN together with the MSS option. */
ret = tcp_enqueue_flags(pcb, TCP_SYN);
if (ret == ERR_OK) {
/* SYN segment was enqueued, changed the pcbs state now */
pcb->state = SYN_SENT;
if (old_local_port != 0) {
TCP_RMV(&tcp_bound_pcbs, pcb);
}
TCP_REG_ACTIVE(pcb);
MIB2_STATS_INC(mib2.tcpactiveopens);
tcp_output(pcb);
}
return ret;
}
通過tcp_connect這樣就可以看到lwip在組一個帶有SYN的TCP報文,通過底層的接口發(fā)送出去,同時將TCP的狀態(tài)切換到SYN_SENT狀態(tài)。
由于我們實現(xiàn)的lwip是異步模式,所以最終接收對方的響應(yīng)報文在tcp_in.c里面,我們注意到有這么一個函數(shù)tcp_process,它就是TCP狀態(tài)的狀態(tài)機實現(xiàn)函數(shù)。
函數(shù)調(diào)用順序:-> tcp_input-> tcp_process ...
/**
* Implements the TCP state machine. Called by tcp_input. In some
* states tcp_receive() is called to receive data. The tcp_seg
* argument will be freed by the caller (tcp_input()) unless the
* recv_data pointer in the pcb is set.
*
* @param pcb the tcp_pcb for which a segment arrived
*
* @note the segment which arrived is saved in global variables, therefore only the pcb
* involved is passed as a parameter to this function
*/
static err_t
tcp_process(struct tcp_pcb *pcb)
{
struct tcp_seg *rseg;
u8_t acceptable = 0;
err_t err;
err = ERR_OK;
//忽略部分代碼
/* Do different things depending on the TCP state. */
switch (pcb->state) {
case SYN_SENT:
LWIP_DEBUGF(TCP_INPUT_DEBUG, ("SYN-SENT: ackno %"U32_F" pcb->snd_nxt %"U32_F" unacked %"U32_F"
", ackno,
pcb->snd_nxt, lwip_ntohl(pcb->unacked->tcphdr->seqno)));
/* received SYN ACK with expected sequence number? */
if ((flags & TCP_ACK) && (flags & TCP_SYN)
&& (ackno == pcb->lastack + 1)) {
pcb->rcv_nxt = seqno + 1;
pcb->rcv_ann_right_edge = pcb->rcv_nxt;
pcb->lastack = ackno;
pcb->snd_wnd = tcphdr->wnd;
pcb->snd_wnd_max = pcb->snd_wnd;
pcb->snd_wl1 = seqno - 1; /* initialise to seqno - 1 to force window update */
pcb->state = ESTABLISHED;
#if TCP_CALCULATE_EFF_SEND_MSS
pcb->mss = tcp_eff_send_mss(pcb->mss, &pcb->local_ip, &pcb->remote_ip);
#endif /* TCP_CALCULATE_EFF_SEND_MSS */
pcb->cwnd = LWIP_TCP_CALC_INITIAL_CWND(pcb->mss);
LWIP_DEBUGF(TCP_CWND_DEBUG, ("tcp_process (SENT): cwnd %"TCPWNDSIZE_F
" ssthresh %"TCPWNDSIZE_F"
",
pcb->cwnd, pcb->ssthresh));
LWIP_ASSERT("pcb->snd_queuelen > 0", (pcb->snd_queuelen > 0));
--pcb->snd_queuelen;
LWIP_DEBUGF(TCP_QLEN_DEBUG, ("tcp_process: SYN-SENT --queuelen %"TCPWNDSIZE_F"
", (tcpwnd_size_t)pcb->snd_queuelen));
rseg = pcb->unacked;
if (rseg == NULL) {
/* might happen if tcp_output fails in tcp_rexmit_rto()
in which case the segment is on the unsent list */
rseg = pcb->unsent;
LWIP_ASSERT("no segment to free", rseg != NULL);
pcb->unsent = rseg->next;
} else {
pcb->unacked = rseg->next;
}
tcp_seg_free(rseg);
/* If there's nothing left to acknowledge, stop the retransmit
timer, otherwise reset it to start again */
if (pcb->unacked == NULL) {
pcb->rtime = -1;
} else {
pcb->rtime = 0;
pcb->nrtx = 0;
}
/* Call the user specified function to call when successfully
* connected. */
TCP_EVENT_CONNECTED(pcb, ERR_OK, err);
if (err == ERR_ABRT) {
return ERR_ABRT;
}
tcp_ack_now(pcb);
}
/* received ACK? possibly a half-open connection */
else if (flags & TCP_ACK) {
/* send a RST to bring the other side in a non-synchronized state. */
tcp_rst(ackno, seqno + tcplen, ip_current_dest_addr(),
ip_current_src_addr(), tcphdr->dest, tcphdr->src);
/* Resend SYN immediately (don't wait for rto timeout) to establish
connection faster, but do not send more SYNs than we otherwise would
have, or we might get caught in a loop on loopback interfaces. */
if (pcb->nrtx < TCP_SYNMAXRTX) {
pcb->rtime = 0;
tcp_rexmit_rto(pcb);
}
}
break;
//忽略其他代碼
return ERR_OK;
}
函數(shù)比較長,我們抓重點,它這里就是根據(jù)當(dāng)前TCP的不同狀態(tài)做不同的處理。我們看到第80行,這里:
看注釋很清晰,當(dāng)TCP的狀態(tài)是SYN_SENT狀態(tài)的時候,收到一個只帶ACK的報文,那么它就會回應(yīng)一個RST報文,同時快速重傳一個SYN報文。
接著這個函數(shù),我們看下服務(wù)器端的處理,如果TCP鏈接已經(jīng)處于ESTABLISHED狀態(tài),當(dāng)它收到SYN報文時,它會怎么處理呢?
/**
* Implements the TCP state machine. Called by tcp_input. In some
* states tcp_receive() is called to receive data. The tcp_seg
* argument will be freed by the caller (tcp_input()) unless the
* recv_data pointer in the pcb is set.
*
* @param pcb the tcp_pcb for which a segment arrived
*
* @note the segment which arrived is saved in global variables, therefore only the pcb
* involved is passed as a parameter to this function
*/
static err_t
tcp_process(struct tcp_pcb *pcb)
{
struct tcp_seg *rseg;
u8_t acceptable = 0;
err_t err;
err = ERR_OK;
/* Process incoming RST segments. */
if (flags & TCP_RST) {
/* First, determine if the reset is acceptable. */
if (pcb->state == SYN_SENT) {
/* "In the SYN-SENT state (a RST received in response to an initial SYN),
the RST is acceptable if the ACK field acknowledges the SYN." */
if (ackno == pcb->snd_nxt) {
acceptable = 1;
}
} else {
/* "In all states except SYN-SENT, all reset (RST) segments are validated
by checking their SEQ-fields." */
if (seqno == pcb->rcv_nxt) {
acceptable = 1;
} else if (TCP_SEQ_BETWEEN(seqno, pcb->rcv_nxt,
pcb->rcv_nxt + pcb->rcv_wnd)) {
//在接收窗口內(nèi)的RST報文,最終是在這里處理?。?!
/* If the sequence number is inside the window, we only send an ACK
and wait for a re-send with matching sequence number.
This violates RFC 793, but is required to protection against
CVE-2004-0230 (RST spoofing attack). */
tcp_ack_now(pcb);
}
}
if (acceptable) {
LWIP_DEBUGF(TCP_INPUT_DEBUG, ("tcp_process: Connection RESET
"));
LWIP_ASSERT("tcp_input: pcb->state != CLOSED", pcb->state != CLOSED);
recv_flags |= TF_RESET;
pcb->flags &= ~TF_ACK_DELAY;
return ERR_RST;
} else {
LWIP_DEBUGF(TCP_INPUT_DEBUG, ("tcp_process: unacceptable reset seqno %"U32_F" rcv_nxt %"U32_F"
",
seqno, pcb->rcv_nxt));
LWIP_DEBUGF(TCP_DEBUG, ("tcp_process: unacceptable reset seqno %"U32_F" rcv_nxt %"U32_F"
",
seqno, pcb->rcv_nxt));
return ERR_OK;
}
}
//當(dāng)服務(wù)器端收到一個處于ESTABLISHED狀態(tài)的連接收到一個SYN報文,就直接回復(fù)ACK報文了。
if ((flags & TCP_SYN) && (pcb->state != SYN_SENT && pcb->state != SYN_RCVD)) {
/* Cope with new connection attempt after remote end crashed */
tcp_ack_now(pcb);
return ERR_OK;
}
//忽略部分代碼
結(jié)合下面的實際抓包,我們再仔細(xì)分析分析。
4.6.2 實戰(zhàn)分析:實戰(zhàn)中的場景路勁
文不如圖,針對真實的場景路徑,我想我直接從所抓到的TCP報文來入手分析可能會效果更好。
下面幾張圖,是從復(fù)現(xiàn)問題的報文中截取出來的,我分為了以下三部分:(完整報文戳[這里]())
-
開機正常連上服務(wù)器,正常收到報文,PING包能發(fā)能收
這里可以看到報文序號#1使用端口號26947去連接服務(wù)器,一切正常,后面交互PING包也非常正常。
-
設(shè)備重啟后,連接服務(wù)器,后面開始出現(xiàn)掉線
這里我們注意報文序號#41-#47,這個時間節(jié)點,就是設(shè)備重啟后首次發(fā)起(第一次)TCP連接,我們可以清晰地看到,它使用的端口號仍然是26947,與重啟前的端口號是一樣的,這不就進(jìn)入到前一小節(jié)的理論分析中了嗎?
我們再仔細(xì)看下,這個時候,報文交互上發(fā)生了什么?
41號報文,使用帶SYN=1且Seq為0(相對值為0)的的報文發(fā)起TCP連接,緊接著#42報文,服務(wù)器端回應(yīng)了一個ACK報文(Seq=4670,ACK=1284),隨后#43報文,設(shè)備端認(rèn)為服務(wù)器回復(fù)的不對,從而發(fā)出了帶RST的鏈接重置的報文。
熟悉TCP鏈接的三次握手,我們都知道,正常的握手流程應(yīng)該是:SYN(seq=0,ACK=0) -> SYN,ACK(seq=0,ACK=1) -> ACK(seq=1,ACK=1);而我們看到的這次三次握手卻不是我們的期望的。
我們重點看看,服務(wù)器端在回應(yīng)客戶端SYN報文回復(fù)的這個報文,究竟是啥意思。Seq=4670,ACK=1284,意味著服務(wù)器還認(rèn)為客戶端給過去的報文交互,還是重啟前那一次的呢;ACK=1284表示服務(wù)器對前1284個字節(jié)都已經(jīng)收到了,所以呢wireshark也很聰明,直接把客戶端的SYN報文標(biāo)記為TCP Retransmission(報文重傳:它認(rèn)為#41報文時#1報文的重傳),而服務(wù)端回應(yīng)SYN的報文標(biāo)記為TCP Dup ACK #39-1(重復(fù)ACK確認(rèn):它認(rèn)為服務(wù)器對#39號報文重復(fù)確認(rèn)了,因為它們都是ACK=1284)。
接下來是最重要的一條報文#42號RST報文:根據(jù)TCP的標(biāo)志位介紹,我們可以知道這條報文客戶端是想重置這個鏈接,也就是它要廢棄這個服務(wù)器認(rèn)為正常的TCP鏈接,但似乎服務(wù)器并不買單,我們繼續(xù)看下面的報文。
期間能正常收到服務(wù)器的推送(設(shè)備收到MQTT推送arrived的log也可以佐證這一點),直到#73 #74報文客戶端需要發(fā)PING包的時候,發(fā)現(xiàn)掉線了。
-
觸發(fā)掉線重連機制,重新連上服務(wù)器
看著三次握手多順利,同時我們留意到這次的客戶端端口不再是26947了,而是一個新的端口號26946;這是因為抓包方式的原因,這個端口號并不完全體現(xiàn)是設(shè)備端lwip的tcp_port,但至少是能反映它是在變化的。
重連成功后,設(shè)備重新在線,PING包交互正常,恢復(fù)了。
4.6.3 解決疑惑:為何偶現(xiàn)而不必現(xiàn)
既然上面分析得頭頭是道,照這么說應(yīng)該是一個必現(xiàn)的問題呀?為何在實際生產(chǎn)案例中,卻是偶現(xiàn)的呢?難道還有什么因素我們沒考慮進(jìn)去?
首先,在上面的分析中,我們得出一個很重要的結(jié)論,當(dāng)服務(wù)器端還處于連接狀態(tài)的TCP鏈接,收到一個由相同的四元組組成的SYN報文,最終就會觸發(fā)設(shè)備端產(chǎn)生RST報文,從而使得通訊鏈接發(fā)生“假鏈接”,影響實際通訊!
在這個結(jié)論中,有幾個前提必須要滿足:
-
相同的四元組構(gòu)成的SYN報文;
-
前一個鏈接在TCP服務(wù)端還處于TCP狀態(tài)中的已鏈接狀態(tài)。
短時間內(nèi)連接同一個無線路由,很大概率獲取同一個本地IP,由于隨機數(shù)的問題,本地端口也是同一個,所以第一條相同四元組是很容易滿足的,第二條需要滿足前一鏈接還保持在已鏈接狀態(tài),這就要求兩次間隔重啟不能間隔時間太長,否則就會觸發(fā)服務(wù)器端的掉線檢測機制,從而被識別到設(shè)備端已掉線,那么這種情況下,肯定不能復(fù)現(xiàn)如題的問題。
但是,我們在復(fù)測的過程,發(fā)現(xiàn)有時緊挨著時間重啟,也沒有發(fā)生類似的掉線問題,也就是說重啟后的鏈接一樣是好好的。
通過抓包來看,唯一不同的是沒有出問題的這個重啟,客戶端發(fā)起SYN報文,最后并沒有觸發(fā)客戶端發(fā)送RST報文,如下圖所示:
而異常的場景下,報文如下:
這個的確令我百思不得解,看來TCP理論知識還不夠扎實,還要再去惡補惡補。有分析思路的朋友,也歡迎在評論席與我一同討論。
5 問題修復(fù)
當(dāng)一切的分析都站穩(wěn)了腳跟的時候,修復(fù)問題便是水到渠成的事情。
這里的修復(fù),其實主要是兩個方面:
5.1 解決鏈接標(biāo)準(zhǔn)C庫的rand函數(shù)的問題
在原生的lwip組件代碼中,隨機數(shù)的適配本身就是移植的一部分,很遺憾,在我們出問題的芯片上看到的隨機數(shù)還是原生態(tài)的rand函數(shù)。
要想解決掉這個問題,有兩個思路:
一個是直接在lwip組件中的arch.h里宏定義LWIP_RAND的地方直接切換成芯片的硬隨機數(shù)接口xxx_rand,這種是在預(yù)編譯階段就完成的;
還有一種就是在鏈接階段處理的,把原本鏈接rand函數(shù)直接替換鏈接成芯片平臺的硬隨機數(shù)接口xxx_rand,gcc編譯就一個這樣的鏈接選項支持這樣的功能。
為了最大化保持lwip組件的代碼完整,我們不想改它一行代碼,所以我們采用第二種解決思路,只需要在編譯構(gòu)建的全局鏈接參數(shù)中加上以下參數(shù)即可:
# enable hal-rand
GLOBAL_LDFLAGS += -Wl,--wrap=rand
同時在hal層的C文件中,添加實現(xiàn)一個叫__warp_rand的函數(shù)即可。
/* wrap hal TRNG function */
int __wrap_rand(void)
{
extern int xxx_trng_rand(void);
int ret = (int)xxx_trng_rand(); //call TRNG API
return ret;
}
經(jīng)以上修改之后,lwip組件中調(diào)用的rand函數(shù),最終就會調(diào)到xxx_trng_rand接口了,基本就解決了隨機數(shù)的問題。
5.2 解決芯片硬件隨機數(shù)不隨機的問題
但是,上面的分析部分,我們也提到了,這個芯片居然還出現(xiàn)了硬件隨機數(shù)不隨機的問題,準(zhǔn)確說,它獲取的不是隨機數(shù),而是一個無序的存儲序列,這無疑是一個重大bug。
就像這樣:
第一次開機:隨便獲取8個隨機數(shù),初步得到 12345 2345 3456 6789 5678 9867 234 567第二次開機:隨便獲取8個隨機數(shù),還是得到 12345 2345 3456 6789 5678 9867 234 567
第三次開機:隨便獲取8個隨機數(shù),依然得到 12345 2345 3456 6789 5678 9867 234 567
這顯然是不隨機的,是會出問題的。由于我們沒有芯片的datasheet以及不能完全掌握其TRNG的工作原理,我們把問題拋給了原廠,幸運的是,原廠很快給我們打了個小patch。
這個小patch說簡單是真的簡單,就僅僅是加了一個延時;但是這個延時,代價有點大?。?!
以下是偽代碼,但足以展示這個代價的威力!
uint32_t xxx_trng_rand(void)
{
//enable TRNG register
//patch here msleep(10); //dealy 10ms
//read TRNG register data
uint32_t ret = read_TRNG();
//disable TRNG register
return ret;
}
what???每獲取一個隨機數(shù)都要延時10ms?那我在某次網(wǎng)絡(luò)通訊中,可能要獲取成百上千個隨機數(shù)???這積累的延時簡直不能接受啊!
按理說,芯片不能“弱”成這樣,也沒有這么不合理的設(shè)計!看它這個延時,無非的意思就是說,我的TRNG寄存器不是一上電就可以工作的,你得先給它預(yù)熱下,稍后再來取嘛。
OK,既然你是這樣的特性,那么我們可不可以在驅(qū)動初始化的時候就給你預(yù)熱呢?獲取隨機數(shù)的時候就不預(yù)熱了哇?
試試看,于是有了這樣的偽代碼:
void sys_driver_init(void)
{
//normal driver init
//special for TRNG warm up
//step1. enable TRNG register
//step2. msleep(10); //dealy 10ms
//step3. disable TRNG register
}
uint32_t xxx_trng_rand(void)
{
//enable TRNG register
//read TRNG register data
uint32_t ret = read_TRNG();
//disable TRNG register
return ret;
}
這樣代碼一測試,完美!至少不需要每次獲取隨機數(shù)都dealy??!其實在寫這段熱身代碼的時候,也踩了些坑的,比如沒有先enable TRNG寄存器就去delay,這無疑是delay了個寂寞啊?
至少,所以需要修正的代碼已經(jīng)修正完成。值得注意的是,我們沒有改一行應(yīng)用層及組件層的代碼,那么修復(fù)后的情況究竟如何,下一章節(jié)我們來驗證驗證。
6 問題驗證
6.1 隨機數(shù)的問題驗證
這里的驗證,其實是要一層層來驗證,由于問題的根源在于隨機數(shù)的不隨機導(dǎo)致,那么我們有限要驗證的應(yīng)該是芯片TRNG的隨機性。
幸運的是,通過第5部分的patch代碼,我們有效地看到了TRNG的隨機性基本滿足了我們的要求,我們的驗證方法很簡單,就是開機完成初始化之后就獲取一組隨機數(shù),然后就重啟;不斷地測試,觀察1000左右的數(shù)據(jù)。
從1000的數(shù)據(jù),初步是可以看出去隨機性的,但如果需要過隨機數(shù)認(rèn)證的話,還得使用NIST專門的測試工具做更進(jìn)一步的驗證測試,這里就不展開論述了,有興趣的可以自行去了解下,像金融領(lǐng)域的PCI安全認(rèn)證,隨機數(shù)的測試是非常關(guān)鍵的一環(huán)。
6.2 偶發(fā)的網(wǎng)絡(luò)掉線問題驗證
這個驗證就要回到issue本身了,雖然我們在上面的分析階段,其實也做了部分邊分析邊修正邊驗證的工作,但上面的場景更加側(cè)重的是在不清楚穩(wěn)定的復(fù)現(xiàn)路徑的情況下不停地試錯。
所以,回歸驗證這個issue還是需要根據(jù)穩(wěn)定的復(fù)現(xiàn)路徑,做一些控制變量來單項驗證,比如每次重啟后就固定使用12345端口發(fā)起MQTT鏈接,觀察其復(fù)現(xiàn)情況;恢復(fù)正常修復(fù)后的隨機端口號,觀測其情況。
同時,還得把壓測環(huán)境搭建好,同步進(jìn)行壓力測試,觀測其情況。
只有以上幾點都通過驗證后,我們才有扎實的信心說:“這個issue可以close了”!
7 經(jīng)驗總結(jié)
-
當(dāng)你對一個網(wǎng)絡(luò)問題靠邏輯思考解決不了的時候,第一要想到的方法就是抓包分析;
-
抓包分析有方法,優(yōu)先排查上層網(wǎng)絡(luò)協(xié)議的報文,比如TCP/TLS等;當(dāng)上層協(xié)議包分析不出問題的時候,嘗試抓空口包;
-
TCP鏈接的狀態(tài)切換是所有基于TCP/IP協(xié)議的網(wǎng)絡(luò)通訊的基礎(chǔ),重點分析它有助于打開你的分析思路;
-
所有偶現(xiàn)的問題,一定有復(fù)現(xiàn)路勁;如果你還沒出現(xiàn),僅僅是你的測試次數(shù)還不夠多;
-
嵌入式里面的C庫,往往不是標(biāo)準(zhǔn)的,不能太輕易相對傳統(tǒng)意義上的C標(biāo)準(zhǔn)接口,多持懷疑的態(tài)度;
-
隨機數(shù)的隨機性在網(wǎng)絡(luò)通訊中非常重要,當(dāng)你的網(wǎng)絡(luò)通訊超出你的想象的時候,不妨想想隨機數(shù)的可能性;
-
lwip協(xié)議棧的實現(xiàn)在嵌入式設(shè)備中太常用了,關(guān)于它的移植不能簡單的”拿來主義“,需要系統(tǒng)地、全面地了解其工作原理、代碼架構(gòu)和適配的基本工作,了解其可能出問題的點和常規(guī)的解決方法;
-
技術(shù)偷懶使不得,技術(shù)債遲早都是要還的;
-
疑難bug的解決要及時總結(jié)和復(fù)盤,形成一定的分析方法論,指不定哪天就幫助你解決其他相關(guān)的疑難問題。
原文標(biāo)題:【網(wǎng)絡(luò)通訊與網(wǎng)絡(luò)安全】網(wǎng)絡(luò)通訊中的隨機數(shù)如果不隨機會怎么樣!
文章出處:【微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7586瀏覽量
89007 -
wi-fi
+關(guān)注
關(guān)注
14文章
2157瀏覽量
124715 -
通訊
+關(guān)注
關(guān)注
9文章
911瀏覽量
34985
原文標(biāo)題:【網(wǎng)絡(luò)通訊與網(wǎng)絡(luò)安全】網(wǎng)絡(luò)通訊中的隨機數(shù)如果不隨機會怎么樣!
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論