歷經(jīng)十五年的發(fā)展,區(qū)塊鏈技術以完整的技術生態(tài)系統(tǒng)重塑千行百業(yè),其廣泛應用也為金融、醫(yī)療、物流等多個領域帶來巨大變革。但凡事皆有兩面性,技術向善,也能為惡。
區(qū)塊鏈技術在普及應用的同時,也滋生了一系列的安全風險,尤以涉虛擬貨幣犯罪為重。此類新型科技犯罪形式,不僅對人民及社會的安全造成了嚴重威脅,也對現(xiàn)有法律和執(zhí)法提出了全新挑戰(zhàn)。本文主要講述了我們如何用機器學習模型來打擊虛擬貨幣違法犯罪行為。
圖 1:數(shù)據(jù)顯示,涉幣犯罪愈演愈烈
區(qū)塊鏈:“黑暗森林”的形成
區(qū)塊鏈技術的核心特點是去中心化、匿名性,參與區(qū)塊鏈交易的真實主體難以追蹤,犯罪分子在鏈上自由交易,不必擔心執(zhí)法小隊的追蹤獵殺。
圖 2:區(qū)塊鏈技術:去中心化、安全透明、可追溯的分布式賬本技術
虛擬貨幣具有去中心化、無法監(jiān)管、無國界、跨境限制、交易無限制和交易低成本的特征。不僅如此區(qū)塊鏈技術還為犯罪分子提供了豐富的手段來隱匿蹤跡、抵擋追蹤。“混幣器、隱私幣”等的出現(xiàn),進一步增強了其匿名性,為犯罪分子創(chuàng)造了毀滅追蹤路徑的“迷霧地帶”。違法犯罪活動多以穩(wěn)定幣 USDT(泰達幣)為主要犯罪媒介,此外也常見于通過 BTC(比特幣)、ETH(以太坊)、XRP(瑞波幣)、XMR(門羅幣)等虛擬貨幣作為載體的犯罪行為。
盡管區(qū)塊鏈技術為不法分子實施犯罪帶來諸多便利,但鏈上交易數(shù)據(jù)完全公開透明的特性,也為涉幣案件的分析研判提供了海量數(shù)據(jù)。很多安全專家試圖將分析傳統(tǒng)法幣犯罪案件的實戰(zhàn)經(jīng)驗,應用在鏈上交易數(shù)據(jù)分析。但鑒于區(qū)塊鏈技術的獨特性,這些傳統(tǒng)方法仍需與時俱進優(yōu)化。
涉幣案件的偵破流程耗時很長,一個案件從獲取線索到結案,通常會超過半年。為了提升結案成果率,案件的線索階段就需廣撒網(wǎng)、多線跟蹤,這對于辦案人員的分析產(chǎn)出質量與時效要求甚高。辦案人員不僅需要具備深厚的區(qū)塊鏈技術知識,也要深刻了解犯罪分子的行為模式與作案策略,門檻較高。目前,業(yè)內優(yōu)秀的辦案人員實屬稀缺。為更高效精準打擊涉幣犯罪,執(zhí)法領域在招募并培養(yǎng)復合型涉幣案件辦案人員的同時,要不斷引進相關創(chuàng)新技術進行賦能,進一步提升偵破能力。
利用大數(shù)據(jù)和機器學習技術來分析海量鏈上數(shù)據(jù),幫助發(fā)現(xiàn)人力難以識別的線索,從而找到犯罪分子的蹤跡”,已成為當前打擊涉虛貨幣犯罪領域創(chuàng)新探索與方法研究的重要而前沿的方向,并在業(yè)內釋放了巨大的應用價值與潛能。
機器學習如何用于涉幣犯罪分析
機器學習新技術已在合規(guī)領域尤其是金融犯罪風險防控方面,如金融風險評估、反洗錢等場景有了較為廣泛的應用。近年來,業(yè)內不斷布局探索圖計算技術的動作,旨在進一步提升模型表現(xiàn)。
相較基于人工經(jīng)驗主觀判斷的風險評估系統(tǒng),機器學習模型的優(yōu)勢在于:
最大限度利用獲取的信息,發(fā)現(xiàn)人力難以找到的規(guī)律。如在反洗錢領域,機器學習技術這一優(yōu)勢得到充分發(fā)揮。洗錢活動往往涉及復雜的交易鏈和隱蔽的資金流向,機器學習模型通過對大量交易數(shù)據(jù)進行分析,可自動識別出可疑的交易模式與行為,從而幫助金融機構及時發(fā)現(xiàn)和阻止洗錢犯罪;
判斷更加精準高效,擺脫人工經(jīng)驗的主觀性。如在金融風險評估中,傳統(tǒng)方法十分依賴人工經(jīng)驗主觀判斷,效率低下,且僅能針對劃分出的人群進行粗略判斷;機器學習技術可以自動為每位客戶甚至每筆交易進行分析推斷,生成風險評分,并且確保這些評分均基于完整和準確的信息客觀計算產(chǎn)出,精準度和可靠性極大提升;
數(shù)據(jù)資源是人工智能發(fā)展的驅動力之一。隨著數(shù)據(jù)量的快速增長和技術的飛速進步,機器學習模型可不斷進行迭代優(yōu)化,從而確保其表現(xiàn)始終處于最佳狀態(tài)。
上述機器學習模型,在傳統(tǒng)金融安全領域發(fā)揮的優(yōu)勢,同樣也可在涉幣案件偵查中發(fā)揮巨大作用。我們基于區(qū)塊鏈交易特征進行迭代完善,形成了圖計算機器學習模型,并將其應用于涉幣案件偵查平臺的實戰(zhàn)后,證實卓有成效。
圖計算模型:判斷涉案地址關聯(lián)度
在涉虛擬幣新型網(wǎng)絡犯罪案件中,起始線索地址往往是犯罪活動的初始資金歸集地址。以涉幣網(wǎng)絡賭博案件為例,該地址可能是用于歸集賭客充值兌換籌碼資金的地址,以此線索地址作為追蹤犯罪團伙,開展偵查工作的實戰(zhàn)開端,但從起始線索地址追蹤到犯罪團伙的各個核心職能地址,中間分析過程可能涉及數(shù)十萬個相關聯(lián)的地址。如何在這些大量地址中,準確又快速找到相關性最強的可疑地址,是偵查工作突破的關鍵。
傳統(tǒng)的人工偵查方法存在以下痛點:
主要依賴人工操作,偵查效率低下,且容易出錯。由于人本身的能力有限,即使投入大量人力成本,去追蹤覆蓋數(shù)十萬個地址的可能性也微乎其微;
展開鏈上節(jié)點數(shù)量、層級有限。由于技術與資源的限制,傳統(tǒng)偵查方法往往只能展開有限的節(jié)點數(shù)量和層級(最多 3 層),這樣的實戰(zhàn)節(jié)奏可以窺見,追蹤到犯罪團隊的核心地址并不明朗。
人力能夠并行處理的特征數(shù)量少。依靠人工經(jīng)驗,往往只能綜合考慮有限的主要特征(5-10 個),無法同時考慮更多維度特征。
人為主觀因素影響巨大。優(yōu)秀的涉幣案件分析師人才十分稀缺,已從業(yè)人員專業(yè)水平參差不齊,業(yè)內也并沒有形成公認的標準偵查方法并培訓普及,每個辦案人員的方法與歷史實戰(zhàn)經(jīng)驗均不相同,便會導致結果因人而異;即使擁有培訓經(jīng)歷,分析師也只能綜合考慮 5-10 個標準化的主要特征,且每個人基于自身經(jīng)驗賦予各特征的權重也不一樣,也會造成結果因人而異。
所有機器學習產(chǎn)品功能的成功落地應用,皆是一個公司“業(yè)務、算法和工程”三方實力的綜合體現(xiàn),三者相輔相成。圖計算模型的成功開發(fā)落地,首先根植于案件分析師團隊依托大量案例實踐沉淀的業(yè)務理解。在近一年多的時間里,分析師們通過借鑒大量傳統(tǒng)法幣案件的偵破經(jīng)驗,并結合虛擬幣交易的特征,針對幾十起具體涉幣案件的情況深入分析研判,積累了極具價值的“特征判定規(guī)則”。這些規(guī)則可以幫助分析師更加準確地判斷虛擬貨幣交易是否涉及犯罪行為,以及發(fā)現(xiàn)和追蹤可疑交易。人力發(fā)掘出案件中的可疑涉案地址后,通過警方向交易所調取涉案地址的身份與交易信息,進一步確認了結果的準確性,并根據(jù)結果來修正“特征判定規(guī)則”。
涉案團伙分工明確,資金歸集、洗錢、收益發(fā)放、資金沉淀和兌換等各類職能劃分清晰,此類多層級的組織結構和交易行為模式形成了復雜的網(wǎng)絡關系。應用風險管理領域最前沿的圖計算模型,可以將涉案團伙的成員、職能以及交易活動等數(shù)據(jù)信息整合成“點和邊”的形式呈現(xiàn),從而構建出復雜的不限層級的全幣種全鏈路的網(wǎng)狀圖,并自動學習其中包含信息;此外,網(wǎng)圖的拓撲結構也釋放了高價值信息,可以深入揭示出團伙內部的組織關系、資金流動路徑以及犯罪收益的分配情況等關鍵線索與證據(jù)。
圖 3:涉幣網(wǎng)絡賭博案件的資金流轉脈絡
模型實現(xiàn)步驟
圖計算模型實現(xiàn)的步驟如下:
1.搜索提取全量交易數(shù)據(jù)。首先獲取一個起始線索地址,通常是一個案件初始資金的歸集地址。從數(shù)據(jù)庫中搜索并提取從該地址出發(fā)的所有下游交易,可根據(jù)案件類型靈活設置向后搜索的層級。隨著搜索層級的增加,對計算資源要求也呈指數(shù)加大,但并不會發(fā)現(xiàn)更多高價值的涉案地址,增量價值遞減;
2.根據(jù)交易數(shù)據(jù)構建網(wǎng)圖(Graph)。網(wǎng)圖的“節(jié)點”是交易對手方的地址,“邊”是兩個地址之間的交易關系,鏈路則是一個起始地址到一個終點地址之間的交易通路。起始線索地址與任意一個終點地址之間,可能存在多條不同長度的鏈路。這將構建一個包含數(shù)十萬節(jié)點與邊的復雜網(wǎng)絡。
3.提取特征。生成網(wǎng)圖后,按照鏈路維度,從鏈路中每個地址和每筆交易中提取關鍵特征。這里,我們主要用到了 5 大類,共計超過 100 個特征,包括:
地址資金余額相關特征:比如平均賬戶余額、賬戶余額的標準差、最新余額等;
交易模式相關特征:比如平均交易頻率、交易頻率的標準差、交易總次數(shù)、交易間隔等;
交易金額相關特征:比如除了均值、中位數(shù)、標準差等,還有異常大額交易等;
交易時間特征:比如時間戳分布(是否有特定的交易活動時間段),交易時間重合度等;
社交網(wǎng)絡相關特征:用戶的連接度(用戶連接的其他用戶數(shù)量),用戶的社交網(wǎng)絡位置(中心性),用戶所屬社群的數(shù)量等。
4.模型訓練。搭建基于特征的規(guī)則模型,并用機器學習方法不斷迭代規(guī)則閾值和注意力權重。規(guī)則模型為特征進行打分,最后加權求和,得出各鏈路分數(shù),再根據(jù)鏈路數(shù)量、各鏈路分數(shù),綜合計算出起始線索地址與某個終點地址之間的“關聯(lián)度”。
5.結果產(chǎn)出。計算從起始線索地址到所有終點地址的“關聯(lián)度”并進行排序,關聯(lián)度最高的終點地址,就是高度可疑的涉案地址,用戶可以針對這些涉案地址進行下一步的分析偵查,比如發(fā)函向其所在的交易所要求調取證據(jù)。
圖 4:多特征圖計算模型
能快速實現(xiàn)上述大規(guī)模計算,主要依賴區(qū)塊鏈大數(shù)據(jù)積累。區(qū)塊鏈 AI 安全廠商中科鏈源自建了三大區(qū)塊鏈(以太坊、幣安智能鏈和波場鏈)的全節(jié)點,并實時將交易數(shù)據(jù)解析處理,以確保數(shù)據(jù)的及時性和準確性,同時,為提高數(shù)據(jù)的安全性與可靠性,將數(shù)據(jù)存儲到實時和離線兩套數(shù)據(jù)庫中,便于后續(xù)的數(shù)據(jù)分析和挖掘,這樣就擁有了從鏈的創(chuàng)世區(qū)塊到最新的所有完整交易數(shù)據(jù)的優(yōu)勢;并且根據(jù)模型特征計算需求,在數(shù)倉中建立了按天更新的業(yè)務中間表,以確保數(shù)據(jù)的新鮮度和準確性,同時提高計算效率,在接到用戶發(fā)出的計算任務后,調用中間表,在 30 分鐘內完成計算并產(chǎn)出結果。
圖 5:用戶使用去向關聯(lián)分析功能,體驗多特征圖計算模型服務
模型結果計算完畢后,中科鏈源自研的 SAFEIS 安士區(qū)塊鏈 AI 信息作戰(zhàn)系統(tǒng)會為用戶呈現(xiàn)計算結果。作戰(zhàn)系統(tǒng)的核心組件是以區(qū)塊鏈交易資金流向形成的網(wǎng)狀分析視圖,在這里,用戶可以點擊任意地址,對其有交易關聯(lián)的相關地址進行展開,從而形成巨大的網(wǎng)狀圖,便于追蹤分析。該組件的使用場景與圖計算模型的功能高度匹配,所以模型功能便深度融合到此數(shù)智執(zhí)法產(chǎn)品的核心組件中。用戶通過右鍵菜單,可以對任意地址調用模型,來計算其資金關聯(lián)高的涉案地址,并將結果也展示在網(wǎng)狀圖上,直觀揭示出犯罪行為的動態(tài)演變過程,方便進一步研判分析。
圖 6:調用模型功能計算資金關聯(lián)高的涉案地址
機器學習模型在涉幣資金分析中的優(yōu)勢和效果
機器學習模型可以自動快速處理和分析海量鏈上數(shù)據(jù),減少人工參與的需求,極大提高效率。模型可以突破人類能夠處理的信息極限,分析范圍可覆蓋到數(shù)十萬的下游節(jié)點,并自動從數(shù)據(jù)中提取有用的特征,同時綜合考慮多種特征進行分析,如統(tǒng)計特征、圖特征等,進而提供相較于單純依賴人工分析更為全面和準確的分析結果。最后,模型的決策基于數(shù)據(jù)和算法,如此避免了人工由于能力、經(jīng)驗參差不齊或主觀判斷等因素造成的結果不穩(wěn)定。
功能上線后,我們與幾位資深分析師合作,將模型投入到新案件的實戰(zhàn)中驗證效果。針對每個起始線索地址,我們用模型計算出 Top30 的可疑涉案地址,相關度從高到低排列。同時由分析師自行通過人工分析,再對比雙方結果。
偵查案件對準確性與時效性的要求很高,關鍵在于快速找到一定數(shù)量的高質量線索進行突破,而無需費時找齊所有涉案線索,因此我們在評估中重點關注準確率,忽略了召回率。由于網(wǎng)絡復雜,人工也難以窮盡所有節(jié)點,評估召回率則異常困難。
從準確率來看,模型計算的 Top3 中,有 60% 左右的地址與人工分析的結果匹配,準確率符合預期;此外,另有 15% 的地址,沒有通過人工找到,但經(jīng)驗證后發(fā)現(xiàn)相關度很高,這部分是模型的增量價值,可以發(fā)現(xiàn)人力難以察覺的信息。
模型功能開發(fā)難點攻堅
在模型的開發(fā)過程中,我們遇到以下主要難點:
1.源數(shù)據(jù)查詢性能壓力。
隨著模型搜索分析覆蓋的范圍增加(深入到 5 層就有幾十萬個地址節(jié)點、千萬級別的交易數(shù)據(jù)),導致查詢性能壓力劇增,對性能優(yōu)化和分析策略提出較高要求。
對此,我們優(yōu)化了 SQL 查詢邏輯,首先基于對案件特點的理解,合理設置了數(shù)據(jù)查詢的限制條件,盡可能在數(shù)據(jù)源頭提前篩除信息價值不高的數(shù)據(jù)。此外,我們還建立了精簡高效的臨時表,從根本上改進了查詢性能。
2.特征計算壓力。
在獲取了幾十萬個地址節(jié)點、千萬級別的交易數(shù)據(jù)后,需要構建出網(wǎng)狀圖,并且需根據(jù)這些數(shù)據(jù)計算出上百個特征,包括統(tǒng)計特征和圖特征,這使得數(shù)據(jù)處理和分析計算量巨大。
對此,我們引入了 Numpy 矩陣計算庫和 Networkx 圖特征計算庫。通過此類高效的計算庫,我們實現(xiàn)了高達 10 倍的計算速度提升。
3.不斷挖掘新特征,提升模型效果。
僅使用傳統(tǒng)的交易數(shù)據(jù)的統(tǒng)計特征,已很難達到理想效果,需要根據(jù)案件特征,來發(fā)掘更多的高質量特征,以提高模型的推斷能力。
對此,我們引入了圖特征,通過將網(wǎng)絡拓撲結構與數(shù)據(jù)融合,為模型提供了更多的高價值信息。此外,根據(jù)資深分析師的經(jīng)驗,地址之間 gas fee 的流通也是其潛在關系的重要特征,在增加這一關鍵特征后,模型效果也得到了較大提升。
未來:模型迭代方向
目前,我們仍在積極與資深分析師團隊展開密切合作,試圖將該模型更多用于實戰(zhàn),并在實踐中探索改進點。未來,我們探索的主要方向是挖掘尋找更多特征,提高模型的準確性和泛化能力,同時形成更完整的規(guī)則進行判斷,以幫助構建更強大的模型。
模型產(chǎn)品優(yōu)化后,鑒于更多用戶的持續(xù)使用,并給模型結果進行評分,我們進而可以拿到更多有價值的標注數(shù)據(jù),用來優(yōu)化特征計算,優(yōu)化機器學習方法,進一步迭代模型,提高模型性能與質量,賦能數(shù)智執(zhí)法產(chǎn)品,從而為用戶提供更好的需求服務。
-
模型
+關注
關注
1文章
3279瀏覽量
48978 -
機器學習
+關注
關注
66文章
8428瀏覽量
132850 -
虛擬貨幣
+關注
關注
5文章
309瀏覽量
13343
原文標題:如何用機器學習模型打擊虛擬貨幣犯罪?
文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論