各行各業(yè)的欺詐者一直存在,尤其是金融服務(wù)行業(yè)欺詐性事件更是數(shù)不勝數(shù)。為了阻止欺詐事件的產(chǎn)生,反欺詐者也越來(lái)越多。隨著人工智能在計(jì)算機(jī)領(lǐng)域的發(fā)展,使用機(jī)器學(xué)習(xí)進(jìn)行欺詐檢測(cè)已在許多行業(yè)中流行起來(lái)。
用于欺詐檢測(cè)的最佳機(jī)器學(xué)習(xí)算法
一、使用機(jī)器學(xué)習(xí)相對(duì)于傳統(tǒng)方法的好處
1.機(jī)器學(xué)習(xí)的概念
在深入研究如何使用機(jī)器學(xué)習(xí)來(lái)檢測(cè)欺詐之前,我們先簡(jiǎn)要定義一下機(jī)器學(xué)習(xí)是什么。機(jī)器學(xué)習(xí)是人工智能的一種應(yīng)用,它使系統(tǒng)能夠從經(jīng)驗(yàn)中學(xué)習(xí)和改進(jìn),而無(wú)需明確編程。
2.欺詐檢測(cè)的方法
欺詐檢測(cè)有兩種方法。最常見(jiàn)的是基于規(guī)則的方法,而最有效的是使用機(jī)器學(xué)習(xí)。基于規(guī)則的檢測(cè)已經(jīng)存在了一段時(shí)間并且仍被廣泛使用,但該方法難以應(yīng)對(duì)不斷變化的欺詐環(huán)境。此外,使用規(guī)則意味著必須撒大網(wǎng),可能會(huì)導(dǎo)致一些正常的交易被標(biāo)記為欺詐。例如,風(fēng)險(xiǎn)分析師可以根據(jù)位置創(chuàng)建規(guī)則從而阻止假定有風(fēng)險(xiǎn)的位置的交易。
通過(guò)機(jī)器學(xué)習(xí),規(guī)則進(jìn)行了相應(yīng)的改進(jìn)。通過(guò)機(jī)器學(xué)習(xí),系統(tǒng)可以從以往的經(jīng)驗(yàn)(數(shù)據(jù))中學(xué)習(xí),而這往往是應(yīng)對(duì)欺詐事件的好方法。使用機(jī)器學(xué)習(xí)并不意味著規(guī)則沒(méi)有用或已經(jīng)過(guò)時(shí)。事實(shí)上,結(jié)合使用這兩種方法可以讓你在與欺詐者斗智斗勇過(guò)程中獲得最佳機(jī)會(huì)。
二、使用機(jī)器學(xué)習(xí)進(jìn)行欺詐檢測(cè)
在使用機(jī)器學(xué)習(xí)檢測(cè)欺詐時(shí),通常有兩種方法可以解決:
第一個(gè)是異常檢測(cè),它從無(wú)監(jiān)督學(xué)習(xí)的角度解決問(wèn)題。
另一種是分類,這是一種有監(jiān)督的學(xué)習(xí)方法。
1.異常檢測(cè)
一般來(lái)說(shuō),異常檢測(cè),也稱為聚類,是一種用于識(shí)別異常行為的機(jī)器學(xué)習(xí)技術(shù)。表明異常行為的遙遠(yuǎn)數(shù)據(jù)點(diǎn)被稱為點(diǎn)異常。在檢測(cè)金融欺詐時(shí),重要的是要了解大多數(shù)金融交易(超過(guò) 99%)不是欺詐性的。因此,欺詐者實(shí)際進(jìn)行的交易中只有一小部分是點(diǎn)異常,這些小部分的點(diǎn)異常則是企業(yè)系統(tǒng)需要標(biāo)記的事務(wù)。
2.分類
在機(jī)器學(xué)習(xí)中使用分類,是通過(guò)不同的角度解來(lái)檢測(cè)欺詐。在這里,需要訓(xùn)練一個(gè)模型來(lái)學(xué)習(xí)好交易和壞交易的特征,以便對(duì)新交易進(jìn)行分類。值得注意的是,需要有足夠數(shù)量的數(shù)據(jù)并標(biāo)記好了“好的交易數(shù)據(jù)”和“壞交易的數(shù)據(jù)”,這樣系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行模型訓(xùn)練后才能分辨哪些交易具有欺詐性。
三、機(jī)器學(xué)習(xí)欺詐檢測(cè)算法
目前有多種算法可以進(jìn)行欺詐檢測(cè),至于哪種算法更好、更適用,關(guān)鍵還要看企業(yè)的數(shù)據(jù)。下面是目前使用比較多的一些機(jī)器學(xué)習(xí)欺詐檢測(cè)算法。
1.邏輯回歸
邏輯回歸是最基本,但功能最強(qiáng)大的算法,可用于預(yù)測(cè)真假(二進(jìn)制)值。邏輯回歸通過(guò)將數(shù)據(jù)擬合到邏輯函數(shù)來(lái)從一組自變量中估計(jì)離散值(通常是欺詐/無(wú)欺詐等二進(jìn)制值)。
2.決策樹(shù)
決策樹(shù)是另一種流行的算法,它學(xué)習(xí)規(guī)則來(lái)分割或分類數(shù)據(jù)。決策樹(shù)算法最有趣的一點(diǎn)是,該模型是一組易于解釋的規(guī)則,同時(shí)也可以采用這些規(guī)則并創(chuàng)建基于規(guī)則的系統(tǒng)。但是,該模型絕不是基于規(guī)則的系統(tǒng),因?yàn)榛A(chǔ)數(shù)據(jù)的微小變化可能會(huì)導(dǎo)致一組完全不同的規(guī)則。
3.隨機(jī)森林
隨機(jī)森林是一種基于多個(gè)決策樹(shù)的算法,可以提供更準(zhǔn)確的分類。它通過(guò)平均單個(gè)決策樹(shù)的結(jié)果來(lái)做到這一點(diǎn),其預(yù)測(cè)能力是非常優(yōu)秀的。隨機(jī)森林適用于具有大量輸入變量的訓(xùn)練集。
但從一方面看,隨機(jī)森林比決策樹(shù)更難解釋。通過(guò)隨機(jī)森林最終會(huì)得到許多規(guī)則,而不是一套規(guī)則。尤其需要對(duì)系統(tǒng)合規(guī)性或其他監(jiān)管要求進(jìn)行解釋時(shí),多種規(guī)則可能會(huì)出現(xiàn)問(wèn)題。
4.K-近鄰算法 (KNN)
K-近鄰算法是一個(gè)簡(jiǎn)單的算法,它存儲(chǔ)所有可用案例,通過(guò)對(duì)其k個(gè)最佳鄰居進(jìn)行多數(shù)投票來(lái)對(duì)新案例進(jìn)行分類。在K-近鄰算法中,會(huì)使用像歐幾里得距離這樣的距離函數(shù)。此外,該算法的訓(xùn)練過(guò)程并不完全生成模型。相反,“訓(xùn)練”和“分類”是即時(shí)發(fā)生的。
這使得 KNN 算法在欺詐檢測(cè)方面比其他機(jī)器學(xué)習(xí)算法的計(jì)算密集度更高。
5.K-均值
K-均值是一種解決聚類問(wèn)題的無(wú)監(jiān)督學(xué)習(xí)算法(不同于 KNN)。該算法將給定的數(shù)據(jù)集分組到多個(gè)集群中,以使集群中的數(shù)據(jù)點(diǎn)盡可能相似。與KNN類似,K-均值也會(huì)使用距離函數(shù)。
四、在欺詐檢測(cè)中使用機(jī)器學(xué)習(xí)面臨的挑戰(zhàn)
1.標(biāo)簽不平衡
在現(xiàn)實(shí)世界的欺詐檢測(cè)中,幾乎都需要處理不平衡的數(shù)據(jù)集,因?yàn)槠墼p條目在數(shù)據(jù)集中僅占少數(shù)。如果用戶使用的是有監(jiān)督的機(jī)器學(xué)習(xí),則更適合處理平衡數(shù)據(jù)而非不平衡的數(shù)據(jù)集。
對(duì)于該問(wèn)題,一種常見(jiàn)的解決方案是使用上采樣等技術(shù)來(lái)增加少數(shù)欺詐樣本或使用下采樣來(lái)減少大多數(shù)合法樣本。
2.非平穩(wěn)數(shù)據(jù)
想要抓住欺詐者,就像一場(chǎng)貓捉老鼠的游戲。因?yàn)槠墼p行為會(huì)迅速發(fā)生變化,這也會(huì)導(dǎo)致數(shù)據(jù)發(fā)生變化。因此,不斷訓(xùn)練新模型來(lái)應(yīng)對(duì)欺詐非常關(guān)鍵。一種有效的方法是建立一個(gè)模型再訓(xùn)練過(guò)程,以便更快地適應(yīng)并更好地捕捉欺詐行為。
審核編輯 :李倩
-
算法
+關(guān)注
關(guān)注
23文章
4613瀏覽量
92957 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8420瀏覽量
132687
原文標(biāo)題:【11月1日虹科免費(fèi)課程直播】Redis欺詐檢測(cè)方案及機(jī)器學(xué)習(xí)算法!
文章出處:【微信號(hào):Hongketeam,微信公眾號(hào):廣州虹科電子科技有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論