文章概覽
各行各業(yè)的欺詐者一直存在,尤其是金融服務(wù)行業(yè)欺詐性事件更是數(shù)不勝數(shù)。為了阻止欺詐事件的產(chǎn)生,反欺詐者也越來越多。隨著人工智能在計算機領(lǐng)域的發(fā)展,使用機器學(xué)習(xí)進行欺詐檢測已在許多行業(yè)中流行起來。
本文中,虹科云科技將探討如何使用機器學(xué)習(xí)進行欺詐檢測、一些最常用的機器學(xué)習(xí)欺詐檢測算法和最佳實踐,同時虹科云科技將會在11月1日20:00舉辦免費直播,從Redis數(shù)據(jù)庫角度分享企業(yè)欺詐檢測解決方案。
用于欺詐檢測的最佳機器學(xué)習(xí)算法
一、使用機器學(xué)習(xí)相對于傳統(tǒng)方法的好處
1.機器學(xué)習(xí)的概念
在深入研究如何使用機器學(xué)習(xí)來檢測欺詐之前,我們先簡要定義一下機器學(xué)習(xí)是什么。機器學(xué)習(xí)是人工智能的一種應(yīng)用,它使系統(tǒng)能夠從經(jīng)驗中學(xué)習(xí)和改進,而無需明確編程。
2.欺詐檢測的方法
欺詐檢測有兩種方法。最常見的是基于規(guī)則的方法,而最有效的是使用機器學(xué)習(xí)。基于規(guī)則的檢測已經(jīng)存在了一段時間并且仍被廣泛使用,但該方法難以應(yīng)對不斷變化的欺詐環(huán)境。此外,使用規(guī)則意味著必須撒大網(wǎng),可能會導(dǎo)致一些正常的交易被標(biāo)記為欺詐。例如,風(fēng)險分析師可以根據(jù)位置創(chuàng)建規(guī)則從而阻止假定有風(fēng)險的位置的交易。
通過機器學(xué)習(xí),規(guī)則進行了相應(yīng)的改進。通過機器學(xué)習(xí),系統(tǒng)可以從以往的經(jīng)驗(數(shù)據(jù))中學(xué)習(xí),而這往往是應(yīng)對欺詐事件的好方法。使用機器學(xué)習(xí)并不意味著規(guī)則沒有用或已經(jīng)過時。事實上,結(jié)合使用這兩種方法可以讓你在與欺詐者斗智斗勇過程中獲得最佳機會。
二、使用機器學(xué)習(xí)進行欺詐檢測
在使用機器學(xué)習(xí)檢測欺詐時,通常有兩種方法可以解決:
第一個是異常檢測,它從無監(jiān)督學(xué)習(xí)的角度解決問題。
另一種是分類,這是一種有監(jiān)督的學(xué)習(xí)方法。
1.異常檢測
一般來說,異常檢測,也稱為聚類,是一種用于識別異常行為的機器學(xué)習(xí)技術(shù)。表明異常行為的遙遠(yuǎn)數(shù)據(jù)點被稱為點異常。在檢測金融欺詐時,重要的是要了解大多數(shù)金融交易(超過 99%)不是欺詐性的。因此,欺詐者實際進行的交易中只有一小部分是點異常,這些小部分的點異常則是企業(yè)系統(tǒng)需要標(biāo)記的事務(wù)。
2.分類
在機器學(xué)習(xí)中使用分類,是通過不同的角度解來檢測欺詐。在這里,需要訓(xùn)練一個模型來學(xué)習(xí)好交易和壞交易的特征,以便對新交易進行分類。值得注意的是,需要有足夠數(shù)量的數(shù)據(jù)并標(biāo)記好了“好的交易數(shù)據(jù)”和“壞交易的數(shù)據(jù)”,這樣系統(tǒng)對數(shù)據(jù)進行模型訓(xùn)練后才能分辨哪些交易具有欺詐性。
三、機器學(xué)習(xí)欺詐檢測算法
目前有多種算法可以進行欺詐檢測,至于哪種算法更好、更適用,關(guān)鍵還要看企業(yè)的數(shù)據(jù)。下面是目前使用比較多的一些機器學(xué)習(xí)欺詐檢測算法。
1.邏輯回歸
邏輯回歸是最基本,但功能最強大的算法,可用于預(yù)測真假(二進制)值。邏輯回歸通過將數(shù)據(jù)擬合到邏輯函數(shù)來從一組自變量中估計離散值(通常是欺詐/無欺詐等二進制值)。
2.決策樹
決策樹是另一種流行的算法,它學(xué)習(xí)規(guī)則來分割或分類數(shù)據(jù)。決策樹算法最有趣的一點是,該模型是一組易于解釋的規(guī)則,同時也可以采用這些規(guī)則并創(chuàng)建基于規(guī)則的系統(tǒng)。但是,該模型絕不是基于規(guī)則的系統(tǒng),因為基礎(chǔ)數(shù)據(jù)的微小變化可能會導(dǎo)致一組完全不同的規(guī)則。
3.隨機森林
隨機森林是一種基于多個決策樹的算法,可以提供更準(zhǔn)確的分類。它通過平均單個決策樹的結(jié)果來做到這一點,其預(yù)測能力是非常優(yōu)秀的。隨機森林適用于具有大量輸入變量的訓(xùn)練集。
但從一方面看,隨機森林比決策樹更難解釋。通過隨機森林最終會得到許多規(guī)則,而不是一套規(guī)則。尤其需要對系統(tǒng)合規(guī)性或其他監(jiān)管要求進行解釋時,多種規(guī)則可能會出現(xiàn)問題。
4.K-近鄰算法 (KNN)
K-近鄰算法是一個簡單的算法,它存儲所有可用案例,通過對其k個最佳鄰居進行多數(shù)投票來對新案例進行分類。在K-近鄰算法中,會使用像歐幾里得距離這樣的距離函數(shù)。此外,該算法的訓(xùn)練過程并不完全生成模型。相反,“訓(xùn)練”和“分類”是即時發(fā)生的。
這使得 KNN 算法在欺詐檢測方面比其他機器學(xué)習(xí)算法的計算密集度更高。
5.K-均值
K-均值是一種解決聚類問題的無監(jiān)督學(xué)習(xí)算法(不同于 KNN)。該算法將給定的數(shù)據(jù)集分組到多個集群中,以使集群中的數(shù)據(jù)點盡可能相似。與KNN類似,K-均值也會使用距離函數(shù)。
四、在欺詐檢測中使用機器學(xué)習(xí)面臨的挑戰(zhàn)
1.標(biāo)簽不平衡
在現(xiàn)實世界的欺詐檢測中,幾乎都需要處理不平衡的數(shù)據(jù)集,因為欺詐條目在數(shù)據(jù)集中僅占少數(shù)。如果用戶使用的是有監(jiān)督的機器學(xué)習(xí),則更適合處理平衡數(shù)據(jù)而非不平衡的數(shù)據(jù)集。
對于該問題,一種常見的解決方案是使用上采樣等技術(shù)來增加少數(shù)欺詐樣本或使用下采樣來減少大多數(shù)合法樣本。
2.非平穩(wěn)數(shù)據(jù)
想要抓住欺詐者,就像一場貓捉老鼠的游戲。因為欺詐行為會迅速發(fā)生變化,這也會導(dǎo)致數(shù)據(jù)發(fā)生變化。因此,不斷訓(xùn)練新模型來應(yīng)對欺詐非常關(guān)鍵。一種有效的方法是建立一個模型再訓(xùn)練過程,以便更快地適應(yīng)并更好地捕捉欺詐行為。
具體如何解決企業(yè)面臨的欺詐檢測問題呢?虹科云科技將會在11月1日20:00舉辦免費直播,從Redis數(shù)據(jù)庫角度分享企業(yè)欺詐檢測解決方案。
審核編輯:湯梓紅
-
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3807瀏覽量
64434 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8420瀏覽量
132687 -
虹科電子
+關(guān)注
關(guān)注
0文章
602瀏覽量
14360 -
Redis
+關(guān)注
關(guān)注
0文章
376瀏覽量
10881
原文標(biāo)題:【11月1日免費課程直播】Redis欺詐檢測方案及機器學(xué)習(xí)算法!
文章出處:【微信號:Hongketeam,微信公眾號:廣州虹科電子科技有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論