當今可用的許多源代碼分析工具,包括 Coverity Prevent、GrammaTech CodeSonar、Klocwork K7 和 MathWorks PolySpace Verifier,可檢測軟件缺陷和漏洞。在過去的幾年里,對可執(zhí)行機器代碼進行類似分析的興趣越來越大。三個主要因素推動了對直接機器代碼分析的興趣:控制 COTS 軟件可靠性和安全性的需要、相對于源代碼分析的技術優(yōu)勢,以及最近其可行性和實用性的增加,這些已被研究的突破所證實社區(qū)。David 探討了機器代碼分析的優(yōu)勢并總結了當前的技術水平。
收回對應用程序可靠性和安全性的控制
上市時間和成本要求增加了開發(fā)人員在嵌入式軟件應用程序中使用 COTS 組件的情況。雖然這些組件具有優(yōu)勢,但它們的代價是一些公認的缺點。特別是,消費者通常必須接受軟件,“按原樣”,并相信生產(chǎn)者已采取必要措施來確保安全性和可靠性。不幸的是,經(jīng)驗表明情況并非總是如此。
消費者如何知道 COTS 組件是否具有滿足其需求的可接受的安全性和可靠性?一些 COTS 組件提供了一些關于所遵循的開發(fā)和測試過程的信息。示例包括一些實時操作系統(tǒng) (RTOS),它們提供文檔以幫助航空電子軟件開發(fā)人員完成 DO-178B 認證過程。但即使在這些不尋常的情況下,通常也只有 RTOS 的精簡功能版本有據(jù)可查。對于大多數(shù)第三方組件,沒有關于開發(fā)和測試過程的信息可用。
對于開發(fā)安全或高可靠性應用程序的組織而言,無法評估第三方組件的質量是一個重大問題。毫不奇怪,最早支持開發(fā)更好的可執(zhí)行文件分析技術的人之一是國家安全局,它在 2004 年公開強調(diào)了分析二進制文件的工具的重要性。特別值得關注的是用于國家關鍵基礎設施的軟件,例如應急準備通信和發(fā)電廠。
機器代碼分析提供了一種評估第三方代碼的方法,即使源不可用。檢測缺陷、漏洞和故意插入的惡意代碼的能力使用戶能夠重新獲得一些控制權來確定一個軟件是否符合他們的接受標準。用戶不必盲目信任軟件生產(chǎn)者。
機器碼分析的技術優(yōu)勢
COTS 軟件通常不提供源代碼,因此需要進行機器代碼分析。事實上,即使源代碼可用,機器代碼分析也比其他分析技術具有許多優(yōu)勢。這是因為源代碼沒有被執(zhí)行;相反,它被編譯成機器代碼程序(可執(zhí)行文件)。分析用解釋性語言編寫的程序是另一回事,盡管在那里,源代碼也不是直接在處理器上執(zhí)行的。
由于多種原因,源代碼語義和編譯后的可執(zhí)行語義之間可能存在差異。這種潛在的不匹配被稱為“你所看到的不是你所執(zhí)行的”(WYSINWYX)效應。WYSINWYX 承認,鑒于過程中實際執(zhí)行的內(nèi)容,源代碼中的語義可能不完整或不精確。
WYSINWYX 效果可能由多種因素引起,包括編譯器錯誤和鏈接第三方庫。圖 1 說明了原始程序的含義如何隨著在最終可執(zhí)行文件創(chuàng)建之前添加模塊而發(fā)生變化。
圖1
在 2002 年 Microsoft的一次安全審查中發(fā)現(xiàn)了一個引發(fā) WYSINWYX 效應的編譯器錯誤示例。在這種情況下,登錄程序的源代碼中出現(xiàn)了如下代碼:
memset(密碼,,?ò\0,??, len);
免費(密碼);
如其名稱所示,緩沖區(qū)密碼用于保存用戶的密碼。作為安全預防措施,程序員希望盡量減少這些敏感信息在內(nèi)存中的保存時間。因此,在釋放緩沖區(qū)(第 2 行)之前,目的是用零覆蓋敏感密碼(第 1 行)。
但是,在這種情況下,Microsoft C++ 編譯器確定密碼歸零語句是“無用”,并將其刪除。從技術意義上說,編譯器是正確的:memset 寫入的零不應該被任何其他語句讀取,并且刪除 memset 不會影響程序的結果。然而,優(yōu)化導致了源代碼中不可見的安全漏洞。
每一個潛在的 WYSINWYX 效果都強調(diào)了機器代碼分析工具,?? 優(yōu)于源代碼分析工具的優(yōu)勢。上一節(jié)討論了無法訪問程序源代碼的問題。然而,即使是擁有源代碼的開發(fā)人員也很少擁有最終包含在可執(zhí)行文件中的所有代碼的源代碼。通常,他們將其源代碼鏈接到僅以二進制形式存在的第三方庫。特別是在嵌入式軟件中,源代碼可能包括內(nèi)聯(lián)匯編。在某些情況下,會在編譯源代碼后對可執(zhí)行文件進行修改。源工具通常針對以一種語言編寫的程序,但可執(zhí)行文件可以從多種不同語言的源代碼編譯。
WYSINWYX 效應最突出的原因之一是源語言語義通常未指定。例如,C 和 C++ 沒有指定函數(shù)調(diào)用參數(shù)的求值順序。(Scott Meyers的 Effective C++ 中的示例請參見側邊欄。)從技術上講,由于源語言歧義導致的問題在源代碼中是可見的。然而,分析一個模棱兩可的陳述的所有可能行為很快就會變得棘手。出于這個原因,源代碼分析工具(通常是程序員)通常通過任意選擇一種合理的解釋來解決歧義。由于無法保證他們的選擇與編譯器相同,因此語言歧義被認為是 WYSINWYX 效應的主要原因。
編譯器為解決源語言歧義所做的選擇可能會對漏洞的存在產(chǎn)生重要影響。安全漏洞經(jīng)常依賴于數(shù)據(jù)對象布局、堆棧中變量的順序、值是存儲在 RAM 中還是僅存儲在寄存器中等細節(jié)。在像 C 或 C++ 這樣的語言中,這些細節(jié)中的大部分都由編譯器自行決定。
源代碼分析工具不能考慮編譯器可能選擇的所有不同選項,至少在沒有做出模糊近似的情況下不能考慮。然而,機器代碼分析具有查看編譯器做出的確切決定的優(yōu)勢。出于這個原因,機器代碼分析有可能比源代碼分析更精確。
機器碼分析的最新進展
研究人員在將靜態(tài)分析應用于機器代碼方面取得了長足的進步。幾個小組已經(jīng)證明了機器代碼分析在識別惡意代碼、安全漏洞和影響可靠性的缺陷方面的實用性。
機器代碼分析的一種用途是創(chuàng)建捕獲程序語義的中間表示 (IR)。用于查找錯誤和安全漏洞的源代碼分析工具通常依賴于源代碼中現(xiàn)成的信息(例如類型),而不是機器代碼。IR 恢復的目標是填補這一空白,并允許開發(fā)人員在機器代碼上使用源分析技術。與開發(fā)專門技術或一次采用一種源分析技術相比,IR 恢復可以同時啟用多種技術。
CodeSurfer/x86 是從可執(zhí)行文件中恢復 IR 的一種高級工具,它是 GrammaTech 和威斯康星大學合作研究的成果。對于需要了解一段惡意代碼的潛在影響的安全分析師來說,CodeSurfer/x86 是一個很有價值的工具。雖然該工具目前支持 x86 機器代碼分析,但支持其他處理器架構的工作正在進行中,包括 PowerPC 架構和 ARM。它的目的是構建一個類似于編譯器或源分析工具使用的 IR。具體來說,恢復的 IR 代表以下信息:
拆解清單
控制流圖,解決了間接跳轉
調(diào)用圖,解決了間接調(diào)用
關于程序的信息,??s 變量
指針變量的可能值
每個控制流圖節(jié)點的已使用、已終止和可能已終止的變量集
數(shù)據(jù)依賴關系,包括涉及內(nèi)存訪問的指令之間的依賴關系
類型信息(例如,基類型、指針類型和結構)
CodeSurfer/x86 從在 Intel x86 處理器上運行的可執(zhí)行文件執(zhí)行 IR 恢復。IR 可用作構建進一步分析以查找錯誤和漏洞的基礎,或用于瀏覽 GUI 界面。圖 2 顯示了臭名昭著的 Nimda 病毒版本的恢復 IR??梢暬?IR 組件包括反匯編列表、所選程序點的可能數(shù)據(jù)值和調(diào)用圖。
圖 2
許多因素會使 IR 恢復復雜化。CodeSurfer/x86 不依賴符號表或源代碼信息,因為這些信息通常從 COTS 產(chǎn)品中剝離。即使存在此信息,它在潛在的惡意代碼中也不可靠?;謴陀嘘P潛在指針值的信息需要同時分析指針和數(shù)值,因為地址值和數(shù)值不容易區(qū)分。必須根據(jù)數(shù)據(jù)訪問模式推斷類型信息,因為沒有可用的結構化數(shù)據(jù)類型。
盡管執(zhí)行 IR 恢復有困難,但該技術已經(jīng)發(fā)展到足以開始產(chǎn)生結果。Balakrishnan 和 Reps 最近在 Windows 設備驅動程序分析中展示了 IR 恢復的使用。他們發(fā)現(xiàn) CodeSurfer 的 IR 恢復在設備驅動程序上產(chǎn)生了精確的結果,并證明通過在恢復的 IR 上進行構建,他們可以采用一種分析設備驅動程序源代碼的技術來分析機器代碼并復制一些相同的結果。分析機器代碼也有助于解決前面討論的所見即所得問題。
滿足安全關鍵需求
機器代碼分析已經(jīng)在識別軟件中的錯誤和安全漏洞以及幫助用戶評估第三方代碼方面發(fā)揮著重要作用。預計安全關鍵軟件生產(chǎn)商將開始對他們自己的軟件使用機器代碼分析來解釋所見即所得效應。不斷增長的需求和不斷增加的工具支持和功能將繼續(xù)推動機器代碼分析的增長。
審核編輯:郭婷
-
C++
+關注
關注
22文章
2110瀏覽量
73691 -
源代碼
+關注
關注
96文章
2945瀏覽量
66787 -
編譯器
+關注
關注
1文章
1635瀏覽量
49166
發(fā)布評論請先 登錄
相關推薦
評論