0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

KiloGram是一種用于管理文件中的大型n-gram的新算法

倩倩 ? 來源:互聯(lián)網(wǎng)分析沙龍 ? 2020-04-03 14:55 ? 次閱讀

最近,一組研究人員在KiloGram上發(fā)表了他們的論文,KiloGram是一種用于管理文件中的大型n-gram的新算法,可以改善機(jī)器學(xué)習(xí)對(duì)惡意軟件的檢測能力。新算法比以前的方法快60倍,并且可以處理n = 1024或更高的n-gram。n的大值具有可解釋的惡意軟件分析和簽名生成的其他應(yīng)用程序。

在KDD 2019網(wǎng)絡(luò)安全學(xué)習(xí)和采礦研討會(huì)上發(fā)表的論文中,來自馬里蘭大學(xué)和網(wǎng)絡(luò)安全公司Endgame的研究人員描述了他們的算法,用于在大型文件數(shù)據(jù)集中查找最頻繁的n-gram。以前的方法在增加n的大小時(shí)會(huì)在內(nèi)存和運(yùn)行時(shí)中遇到“指數(shù)成本”,而在分析具有數(shù)十萬個(gè)文件的數(shù)據(jù)集時(shí),它們的n值將小于8。相比之下,KiloGram算法能夠從數(shù)百萬個(gè)文件中的5TB數(shù)據(jù)中提取n-gram,而僅使用9GB的RAM,并且“運(yùn)行時(shí)間不會(huì)隨n的增加而增加”。這允許算法為較大的n值提取n-gram,以測試這些n-gram是否為機(jī)器學(xué)習(xí)算法提供了更好的準(zhǔn)確性。

一個(gè)n-gram是n個(gè)項(xiàng)的唯一序列,并且該思想被用于許多機(jī)器學(xué)習(xí)任務(wù)中,尤其是自然語言處理(NLP)。在檢測到惡意軟件的情況下,n-gram是來自文件的字節(jié)序列,該文件將被分類為惡意軟件或良性文件。惡意軟件檢測的早期工作表明,較大的n-gram(例如n = 15或20)對(duì)于訓(xùn)練檢測系統(tǒng)是理想的,但是現(xiàn)代數(shù)據(jù)集的大小使得使用大于6的n值太昂貴。由于KiloGram算法可以處理那些較大的值,因此研究團(tuán)隊(duì)能夠測試較大值更好的想法。

該團(tuán)隊(duì)使用可執(zhí)行文件和Adobe PDF文檔的多個(gè)數(shù)據(jù)集,訓(xùn)練了Elastic-Net正則化邏輯回歸分類器來檢測惡意軟件;為了進(jìn)行回歸,輸入特征是使用KiloGram算法提取的n元語法。與文獻(xiàn)中的建議相反,研究人員發(fā)現(xiàn)“預(yù)測精度不會(huì)增加到n = 8以上”。較大的n-gram會(huì)產(chǎn)生精度降低的模型;但是,它們具有可解釋性的優(yōu)點(diǎn)。較小的n-gram產(chǎn)生“黑匣子”模型,而較大的n-gram特征集包含可能對(duì)分析人員有意義的字節(jié)序列。例如,它們可能代表代碼片段或文本字符串。

研究人員認(rèn)為,較大的n-gram在回歸模型中使用時(shí)不那么精確,因?yàn)樗鼈兏囟ㄓ谔囟ǖ膼阂廛浖簟?shí)際上,它們會(huì)導(dǎo)致過度擬合。但是,當(dāng)在諸如Yara之類的簽名模型中使用時(shí),它們的優(yōu)點(diǎn)是它們的假陽性率低。也就是說,盡管Yara模型可能會(huì)錯(cuò)誤地將更多文件標(biāo)記為良性文件,但如果它確實(shí)表明文件為惡意軟件,則很少有錯(cuò)。這使得KiloGram算法可用于構(gòu)建結(jié)合了機(jī)器學(xué)習(xí)模型和基于簽名的模型的分層系統(tǒng)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4624

    瀏覽量

    93112
  • 網(wǎng)絡(luò)安全
    +關(guān)注

    關(guān)注

    10

    文章

    3181

    瀏覽量

    59988
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8428

    瀏覽量

    132841
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AT6N135、AT6N136 是一種用于單通道的高速光耦合器

    AT6N135、AT6N136 是一種用于單通道的高速光耦合器, 由個(gè) 850nm 的 AlGaAs LED 光學(xué)耦合到
    發(fā)表于 01-13 09:54 ?0次下載

    探討移動(dòng)設(shè)備的緩存文件管理

    ? 本文發(fā)表于FAST 2022。 探討 緩存文件管理方法。本文 通過個(gè)輕量級(jí)的基于機(jī)器學(xué)習(xí)的分類引擎來篩選和個(gè)性化管理緩存文件 ,實(shí)驗(yàn)
    的頭像 發(fā)表于 11-28 11:50 ?555次閱讀
    探討移動(dòng)設(shè)備<b class='flag-5'>中</b>的緩存<b class='flag-5'>文件</b><b class='flag-5'>管理</b>

    IBIS文件的Series Model簡介及設(shè)計(jì)仿真實(shí)例

    Model是指一種用于描述電路串聯(lián)元件(如電阻、電感、電容等)的模型。這些串聯(lián)元件通常用于模擬信號(hào)路徑的寄生效應(yīng),例如信號(hào)線上的電阻、
    的頭像 發(fā)表于 11-25 11:29 ?375次閱讀

    華納云:Chord算法如何管理節(jié)點(diǎn)間的聯(lián)系?

    Chord算法一種分布式哈希表(DHT)協(xié)議,它通過構(gòu)建個(gè)環(huán)狀結(jié)構(gòu)來管理節(jié)點(diǎn)間的聯(lián)系。以下是Chord算法如何
    發(fā)表于 11-08 16:03

    一種基于深度學(xué)習(xí)的二維拉曼光譜算法

    近日,天津大學(xué)精密儀器與光電子工程學(xué)院的光子芯片實(shí)驗(yàn)室提出了一種基于深度學(xué)習(xí)的二維拉曼光譜算法,成果以“Rapid and accurate bacteria identification
    的頭像 發(fā)表于 11-07 09:08 ?265次閱讀
    <b class='flag-5'>一種</b>基于深度學(xué)習(xí)的二維拉曼光譜<b class='flag-5'>算法</b>

    TPM在光伏電站安全生產(chǎn)管理的應(yīng)用

    在可再生能源日益成為全球能源戰(zhàn)略重心的當(dāng)下,大型光伏電站以其高效、清潔的特性受到廣泛關(guān)注。然而,如何確保這些龐大系統(tǒng)安全、穩(wěn)定運(yùn)行,成為業(yè)界亟待解決的問題。TPM(全面生產(chǎn)維護(hù))作為一種先進(jìn)的管理
    的頭像 發(fā)表于 07-18 10:15 ?382次閱讀

    邊緣計(jì)算網(wǎng)關(guān)在智能能源管理系統(tǒng)的應(yīng)用

    隨著物聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,數(shù)據(jù)生成和處理的需求呈現(xiàn)爆炸式增長。在大型工業(yè)園區(qū),能源管理是確保生產(chǎn)效率和環(huán)境可持續(xù)性的關(guān)鍵因素。邊緣計(jì)算網(wǎng)關(guān)作為一種位于物聯(lián)網(wǎng)設(shè)備和云端之間的智能設(shè)備,
    的頭像 發(fā)表于 07-09 15:52 ?345次閱讀
    邊緣計(jì)算網(wǎng)關(guān)在智能能源<b class='flag-5'>管理</b>系統(tǒng)<b class='flag-5'>中</b>的應(yīng)用

    振弦采集儀在大型工程安全監(jiān)測的應(yīng)用探索

    振弦采集儀在大型工程安全監(jiān)測的應(yīng)用探索 振弦采集儀是一種用于監(jiān)測結(jié)構(gòu)振動(dòng)和變形的設(shè)備,它通過采集振弦信號(hào)來分析結(jié)構(gòu)的動(dòng)態(tài)特性。在大型工程安
    的頭像 發(fā)表于 06-28 14:22 ?236次閱讀
    振弦采集儀在<b class='flag-5'>大型</b>工程安全監(jiān)測<b class='flag-5'>中</b>的應(yīng)用探索

    鴻蒙開發(fā)文件管理:【@ohos.fileio (文件管理)】

    該模塊提供文件存儲(chǔ)管理能力,包括文件基本管理、文件目錄管理、
    的頭像 發(fā)表于 06-12 18:12 ?1316次閱讀
    鴻蒙開發(fā)<b class='flag-5'>文件</b><b class='flag-5'>管理</b>:【@ohos.fileio (<b class='flag-5'>文件</b><b class='flag-5'>管理</b>)】

    DSP教學(xué)實(shí)驗(yàn)箱_DSP算法實(shí)驗(yàn)_嵌入式教程:4-3 有限沖激響應(yīng)濾波器(FIR)算法(CCS顯示)

    限長的,其系統(tǒng)函數(shù)可記為: 其中,N-1為FIR的濾波器的階數(shù)。 帶有常系數(shù)的FIR濾波器是一種LTI(線性時(shí)不變)數(shù)字濾波器。沖激響應(yīng)是有限的意味著在濾波器沒有發(fā)反饋。長度為N
    發(fā)表于 05-16 09:30

    文速覽鐵威馬TOS 6全新“文件管理

    TOS 6 Beta已經(jīng)上線段時(shí)間了,各位鐵粉用著怎么樣呢?今天就和大家分享,TOS 6全新文件管理。 為了向用戶提供更流暢、更便捷的文件管理
    的頭像 發(fā)表于 04-16 12:11 ?348次閱讀
    <b class='flag-5'>一</b>文速覽鐵威馬TOS 6全新“<b class='flag-5'>文件</b><b class='flag-5'>管理</b>”

    分布式運(yùn)維管理平臺(tái)助力大型電商系統(tǒng)穩(wěn)定運(yùn)行的案例分析

    、引言 隨著電子商務(wù)的快速發(fā)展,大型電商系統(tǒng)面臨著前所未有的挑戰(zhàn)。如何確保系統(tǒng)的穩(wěn)定運(yùn)行、提高用戶體驗(yàn)、降低運(yùn)維成本,成為電商企業(yè)亟待解決的問題。分布式運(yùn)維管理平臺(tái)作為一種新型的運(yùn)維
    的頭像 發(fā)表于 03-26 16:32 ?503次閱讀

    一種用于微液滴單細(xì)胞無標(biāo)記分析的液滴篩選(LSDS)方法

    基于液滴的單細(xì)胞分析是一種非常強(qiáng)大的工具,可用于以單細(xì)胞分辨率研究表型和基因組異質(zhì)性,從而解決各種生物問題。
    的頭像 發(fā)表于 03-26 11:17 ?595次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>用于</b>微液滴<b class='flag-5'>中</b>單細(xì)胞無標(biāo)記分析的液滴篩選(LSDS)方法

    分享一種大型SOC設(shè)計(jì)功能ECO加速的解決方案

    大型SOC項(xiàng)目的綜合非常耗時(shí)間,常?;ㄙM(fèi)好幾天。當(dāng)需要做功能ECO時(shí),代碼的改動(dòng)限定在某些子模塊里,設(shè)計(jì)人員并不想重跑次完整的綜合,這種方法縮短了輪ECO的時(shí)間,保證了項(xiàng)目進(jìn)度。
    的頭像 發(fā)表于 03-11 10:41 ?506次閱讀
    分享<b class='flag-5'>一種</b><b class='flag-5'>大型</b>SOC設(shè)計(jì)<b class='flag-5'>中</b>功能ECO加速的解決方案

    淺談工業(yè)能源管理系統(tǒng)在大型機(jī)場的應(yīng)用

    淺談工業(yè)能源管理系統(tǒng)在大型機(jī)場的應(yīng)用 張穎姣 江蘇安科瑞電器制造有限公司 江蘇江陰 214405 摘要:近年來,隨著我國機(jī)場建設(shè)腳步的加快,機(jī)場建設(shè)對(duì)能耗
    的頭像 發(fā)表于 02-27 14:57 ?434次閱讀
    淺談工業(yè)能源<b class='flag-5'>管理</b>系統(tǒng)在<b class='flag-5'>大型</b>機(jī)場<b class='flag-5'>中</b>的應(yīng)用