0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

基于多模態(tài)學習的虛假新聞檢測研究

深度學習自然語言處理 ? 來源:專知 ? 2023-09-11 16:26 ? 次閱讀

社交媒體在給人們帶來便利的同時,也成為虛假新聞恣意傳播的渠道,如果不及時發(fā)現(xiàn)遏止,極易引發(fā)群眾恐慌,激起社會動蕩。因此,探索準確高效的虛假新聞檢測技術具有極高的理論價值和現(xiàn)實意義。

本文對虛假新聞相關檢測技術做了全面綜述。首先,對多模態(tài)虛假新聞的相關概念進行了整理和歸納,并分析了單模態(tài)和多模態(tài)新聞數(shù)據(jù)集的變化趨勢。其次,介紹了基于機器學習深度學習的單模態(tài)虛假新聞檢測技術,這些技術在虛假新聞檢測領域已被廣泛應用,而由于虛假新聞通常包含多種數(shù)據(jù)表現(xiàn)形式,這些傳統(tǒng)的單模態(tài)技術無法充分挖掘虛假新聞的深層邏輯,因此無法有效地應對多模態(tài)虛假新聞數(shù)據(jù)帶來的挑戰(zhàn)。針對此問題,對近些年來先進的多模態(tài)虛假新聞檢測技術進行了整理,從多流架構和圖架構的角度歸納和論述了這些多模態(tài)檢測的技術方法,探討了這些技術的思想理念與潛在缺陷。最后,分析了目前虛假新聞檢測研究領域存在的困難和瓶頸,并由此給出未來的研究方向。

http://fcst.ceaj.org/CN/abstract/abstract3314.shtml

概述

社交平臺的信息傳播具有低成本、高效率、實時便捷等特點,這些便利為新聞在社區(qū)廣泛傳播提供了可能,然而,信息發(fā)布和擴散的同時也導致了社交網(wǎng)絡上虛假新聞的恣意橫行。據(jù) 2019年 CHEQ 和巴爾的摩大學的經(jīng)濟研究報道[1],全球每年因虛假新聞造成的損失高達 780 億美元。2020 年 7 月,江蘇南京一小區(qū)發(fā)生外賣被盜事件,據(jù)警方了解,該偷盜居民涉嫌多次盜竊,目前已被刑拘。事發(fā)后三天內(nèi),眾多網(wǎng)絡媒體發(fā)布新聞,稱當事人為考研大學生,報道中還出現(xiàn)了“為供其深造,家中其他 3個兄弟姐妹輟學”等說法。7 月 20 日下午,警方發(fā)布通報:嫌疑人李某某大學畢業(yè)已兩年,目前有固定收入,其偷外賣的原因,是一次外賣被人拿走后,產(chǎn)生了報復心理。目前,嫌疑人李某某已被取保候?qū)?。李某某父母和大姐在老家務農(nóng),二姐、三姐分別在北京、海南工作。換言之,“考研大學生”這一身份是虛假信息,李某某的家庭并不貧困,偷外賣也并非為了維持生活,如圖1(a)、圖 1(b)所示。不良媒體通過散播這些假新聞激起群眾的同情,以此獲取流量、關注,直到官方辟謠,這些虛假新聞才得以遏止。由此可見,虛假新聞已經(jīng)成為大量不良媒體獲取非法利益的工具,它們的存在會加強人們之間的不信任關系,造成不良的社會影響。因此,探索準確高效的虛假新聞檢測方法尤為重要。對于虛假新聞,新聞文字源于圖片的惡意編造,其描述的內(nèi)容必然與圖像真實內(nèi)容存在沖突,即模態(tài)之間存在語義不一致性,如果單從圖片或者文字角度分析,這種語義不一致性很難被模型識別,容易導致模型分類錯誤,因此,從多模態(tài)的角度探索虛假新聞檢測技術很有必要。

縱觀這些年關于虛假新聞檢測的綜述文章,很少有從多模態(tài)角度來分析的。早期研究者們致力于尋找和構建人工特征來表示新聞內(nèi)容,這時的綜述內(nèi)容大多是關于這些特征的歸納整理[2-3],后來,隨著深度學習技術的發(fā)展,學者們將研究重心放在了這種自動化特征提取技術上,其中涌現(xiàn)了大批基于深度學習的虛假新聞檢測文章,近些年來,一部分學者對這些方法進行了總結[4- 5]。然而,這些文章的研究角度存在局限,并沒有考慮到虛假新聞中的其他模態(tài)。有研究發(fā)現(xiàn)[6- 7],新聞的視覺內(nèi)容是能誤導讀者的關鍵因素。此外,新聞社交圖中蘊含的虛假新聞傳播信息是檢測取得成功的重要因素[8],因此從多模態(tài)的視角分析新聞很有必要。針對此,本文詳盡地梳理了以往虛假新聞檢測領域的一些工作,從單模態(tài)到多模態(tài)的角度對該領域做全面的整理和綜述。本文的貢獻如下:

(1)詳盡地從單模態(tài)到多模態(tài)角度對虛假新聞檢測領域相關技術做了歸納和整理;(2)將基于新聞社交圖的檢測技術作為一種特殊的多模態(tài)處理方法,并對其最新技術的研究現(xiàn)狀做了補充和完善;(3)梳理了現(xiàn)有虛假新聞檢測技術存在的研究瓶頸,并給出了未來研究方向。

多模態(tài)虛假新聞檢測技術

不同形式的信息源可以看成不同的模態(tài)[51],新聞是典型的多模態(tài)數(shù)據(jù),書面報道的新聞通常包含圖片和文本兩種模態(tài)信息,短視頻新聞至少包含圖像、音頻和字幕等多模態(tài)信息,新聞社交圖中包含新聞內(nèi)容以及新聞行為等多種模態(tài)信息。多模態(tài)虛假新聞檢測技術的關鍵是如何構建模型框架學習新聞數(shù)據(jù)的多模態(tài)信息,以提升虛假新聞檢測性能??偨Y至今提出的一些文章,大致可以劃分為兩類:基于流形式的多模態(tài)虛假新聞檢測技術和基于圖形式的多模態(tài)虛假新聞檢測技術。

基于流形式的虛假新聞檢測技術

基于單流架構的技術

單流架構指在模型輸入之前,不同模態(tài)數(shù)據(jù)的初級特征會通過拼接、函數(shù)映射等方式進行數(shù)據(jù)融合,得到的多模態(tài)特征內(nèi)部中各個模態(tài)的信息是獨立的,而多模態(tài)信息需要在后續(xù)模型中學習。最具代表性的是基于 Transformer 架構的多模態(tài)模型,如ViLT(vision-and-language transformer)[52]、MBT(multimodal bottleneck transformer)[53]等,各模態(tài)的數(shù)據(jù)會預處理為序列化數(shù)據(jù),例如,文本會轉化為多個 token組成的序列,圖片會轉化為多個不重疊的圖片 patch序列,音頻數(shù)據(jù)會先轉化為頻譜圖,最終組成多個不重疊的頻譜圖 patch 序列,多個模態(tài)的特征最終會進行拼接,構成模型的多模態(tài)輸入特征,單流架構框架如圖 2所示。

9a22e224-5079-11ee-a25d-92fbcf53809c.png

目前,單流架構模型在視頻分類、情感分析、圖像生成等多模態(tài)領域中得以廣泛應用,單流模型具有結構簡單、容易實現(xiàn)、高準確率等優(yōu)勢,在虛假新聞檢測領域中,是一個極具潛力的研究方向。但參考目前的一些研究,其也存在一些缺陷:(1)在網(wǎng)絡訓練時需要花費更多的迭代次數(shù)才能獲得好的多模態(tài)表示;(2)由于模型的輸入特征通常是多個模態(tài)特征拼接而成,模型有較高的計算復雜度;(3)單流模型的學習需要大量的訓練數(shù)據(jù)集,而在虛假新聞檢測領域中,目前沒有足夠多可以訓練的數(shù)據(jù)。

基于多流架構的技術

近些年來,關于多模態(tài)虛假新聞檢測領域,研究者們更常用的是基于多流架構的技術。多流架構是指根據(jù)不同模態(tài)數(shù)據(jù)設計不同模型提取模態(tài)高級特征,從各個模態(tài)高級特征中學習多模態(tài)特征并輸入下游的分類器中預測各個類別的概率。相比單流架構,多流架構更加靈活,其可以針對不同模態(tài)數(shù)據(jù)單獨設計模型提取模態(tài)特征。多流框架如圖 3所示。

9a4fd298-5079-11ee-a25d-92fbcf53809c.png

9a61a95a-5079-11ee-a25d-92fbcf53809c.png

基于圖形式的虛假新聞檢測方法

社會性是新聞的基本特性之一,新聞數(shù)據(jù)可以表示為新聞和新聞受眾互動的社交網(wǎng)絡圖,新聞社交網(wǎng)絡圖包含了新聞文章、評論等純文本數(shù)據(jù),也包含了節(jié)點、連邊等關系型數(shù)據(jù),這些不同形式數(shù)據(jù)組成的圖可以看作特殊的多模態(tài)數(shù)據(jù)。本節(jié)主要綜述基于新聞社交圖的虛假新聞檢測技術,其大致可以包含兩類:基于圖機器學習的技術和基于圖神經(jīng)網(wǎng)絡的技術。

基于圖機器學習的技術虛假信息的傳播主要包含三種因素[71]:一是新聞內(nèi)容的合理性;二是傳播者的個性以及可信度;三是傳播網(wǎng)絡的同質(zhì)性?;谝陨弦蛩?,研究者根據(jù)新聞內(nèi)容和社交信息建立了不同的新聞社交圖,如新聞傳播樹、新聞立場網(wǎng)絡等,以探究虛假新聞的傳播模式。傳播樹代表了在社交媒體上新聞文章的發(fā)帖和轉發(fā)之間的關系。Wu等人[72]將消息傳播模式描述為樹結構的關系,傳播樹不僅能反映轉發(fā)者與作者之間的關系,還能反映轉發(fā)者的即時行為和情感。其次,Ma 等人[13]分別構建了真新聞和假新聞的消息傳播樹,利用真新聞和假新聞存在的不同傳播模式,計算兩棵傳播樹之間的子結構的相似性,實驗證明該方法可以有效幫助檢測假新聞。

立場網(wǎng)絡的節(jié)點表示新聞和帖子,邊表示帖子與帖子之間的支持和反對關系。利用立場網(wǎng)絡進行虛假新聞檢測,即檢測與某新聞相關帖子的可信度,可信度越低,代表該新聞是假新聞的可能性越大。在新聞的傳播中,有學者發(fā)現(xiàn)[73],可以通過用戶分享的觀點、猜測和證據(jù)來自我糾正一些不正確的信息。如圖 5 所示,圖 5(a)表示虛假新聞的立場網(wǎng)絡,圖 5(b)表示真實新聞的立場網(wǎng)絡。此外,有學者對假新聞傳播樹和立場網(wǎng)絡進行綜合分析。Davoudi等人[74]提出了一種包含動態(tài)分析、靜態(tài)分析和結構分析三個結構的檢測框架。其分別使用循環(huán)神經(jīng)網(wǎng)絡、全連接神經(jīng)網(wǎng)絡和 Node2Vec 學習傳播樹和立場網(wǎng)絡隨時間的演化模式、檢測結束時傳播樹和立場網(wǎng)絡的整體特征以及傳播樹和立場網(wǎng)絡的結構特征,最終匯總三個結構的輸出完成虛假新聞的檢測。

9ab31376-5079-11ee-a25d-92fbcf53809c.png

基于圖神經(jīng)網(wǎng)絡的技術

近年來,研究者們借鑒了卷積網(wǎng)絡、循環(huán)網(wǎng)絡和深度自編碼器的思想,設計了可以用于處理圖數(shù)據(jù)的神經(jīng)網(wǎng)絡結構——“圖神經(jīng)網(wǎng)絡”[76]。該技術在處理圖關系數(shù)據(jù)時有獨特的優(yōu)勢,而虛假新聞的散布和傳播是以圖形式實現(xiàn)的,圖中節(jié)點表示與新聞相關的實體信息,而連邊表示不同實體之間的聯(lián)系。新聞社交傳播圖如圖6所示。

9aca7f2a-5079-11ee-a25d-92fbcf53809c.png

圖卷積網(wǎng)絡(graph convolutional network,GCN)是借用卷積網(wǎng)絡的思想處理圖數(shù)據(jù)而提出的一種圖神經(jīng)網(wǎng)絡模型,其核心思想是學習一個映射函數(shù),對于圖中的一個節(jié)點,聚合該節(jié)點的特征和鄰居節(jié)點的特征來生成該節(jié)點的新表示。Chandra等人[78]提出的 SAFER(socially aware fake news detection framework)模型使用 GCN 來獲取具有用戶信息的新聞表示,然而他們構建的是同質(zhì)圖網(wǎng)絡,會導致信息丟失問題。在此基礎上,Wang等人[79]以新聞文本、圖片和知識概念為節(jié)點構建異質(zhì)圖,一定程度上緩解了該問題。此外,Bian等人[80]從新聞的傳播深度和散布廣度兩個角度研究虛假新聞的擴散模式,如圖 7 所示,他們提出了雙向圖卷積神經(jīng)網(wǎng)絡,從自上而下和自下而上兩個方向分別獲取虛假新聞傳播和散布的模式,最終的實驗結果證明該方法的有效性。

總的來說,基于圖形式的虛假新聞檢測方法具有準確率高、靈活性強等優(yōu)點,可以識別影響虛假信息傳播的重要節(jié)點,為模型提供了一定的可解釋能力。但也存在一些問題,如新聞社交圖需要事先人為構建,當與新聞相關的實體數(shù)量太多時,需要花費大量時間,有時還可能錯漏關鍵實體信息;其次,圖的訓練需要花費大量時間,對硬件的需要較大;此外,涉及時間因素的圖檢測技術仍然發(fā)展不完善。

結論

在互聯(lián)網(wǎng)時代下,如何在海量的新聞中準確高效地識別虛假信息成為了國際關心的熱點話題。經(jīng)過多年的研究探索,虛假新聞檢測技術已經(jīng)從早期的人工檢測發(fā)展成如今的自動化檢測,基于機器學習的人工特征提取轉變?yōu)槿缃竦纳疃葘W習自動特征提取,對新聞單一對象的檢測方法演變?yōu)橛脩籼卣鳌⑽谋?、圖片、視頻特征以及傳播特征等多模態(tài)聯(lián)合的檢測方法。

本文對虛假新聞檢測研究相關理論進行了整理,從單模態(tài)到多模態(tài)角度對虛假新聞檢測數(shù)據(jù)集與相關技術做了全面的綜述,并對現(xiàn)有研究中存在的缺陷做了歸納整理,最后給出該領域存在的問題以及以后的研究方向。本文不僅對后來的學者們有借鑒作用,而且還對專業(yè)媒體平臺應對虛假新聞沖擊提供重要的實際應用價值。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 檢測技術
    +關注

    關注

    2

    文章

    355

    瀏覽量

    29077
  • 模型
    +關注

    關注

    1

    文章

    3243

    瀏覽量

    48842
  • 深度學習
    +關注

    關注

    73

    文章

    5503

    瀏覽量

    121170

原文標題:基于多模態(tài)學習的虛假新聞檢測研究

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    網(wǎng)絡虛假新聞的生成形態(tài)

    網(wǎng)絡虛假新聞的生成形態(tài):以往對虛假新聞成因的探討,局限于“從業(yè)人員素質(zhì)不高”、“法制不健全”、“有償新聞”等的范圍,而本文從網(wǎng)絡虛假新聞的生成基礎出發(fā),對現(xiàn)有關
    發(fā)表于 10-26 11:09 ?12次下載

    Bloomsbury AI團隊加入Facebook團隊,共同構建新的自然語言杜絕假新聞

    當然,本次的收購對于Facebook來說,意義重大,Bloomsbury AI可以幫助其監(jiān)控社交網(wǎng)絡和監(jiān)管虛假新聞和違禁內(nèi)容。目前,F(xiàn)acebook面臨著用戶隱私泄露、虛假新聞不斷等負面消息,然而,Bloomsbury AI團隊的加入,能否依賴人工智能和機器
    發(fā)表于 07-09 20:02 ?351次閱讀

    文化場景下的模態(tài)情感識別

    學習的特征,并通過多模態(tài)融合方法結合不同的模態(tài)。比較不同單模態(tài)特征和模態(tài)特征融合的情感識別性能
    發(fā)表于 12-18 14:47 ?0次下載

    Facebook擴大內(nèi)容核查范圍,機器學習+全方位審核打擊假新聞

    6月22日早晨,F(xiàn)acebook宣布將擴大其內(nèi)容核查范圍,以打擊社交網(wǎng)絡上面的虛假新聞和惡作劇消息,并通過相應的打擊措施和技術手段,盡量減少虛假新聞帶來的惡劣影響。
    的頭像 發(fā)表于 06-27 14:49 ?2427次閱讀

    如何才能將AI技術應用到虛假新聞的打擊中去?

    近日,谷歌和其他一些科技巨頭包括Facebook和Twitter就如何應對虛假新聞的傳播簽署了一項行為準則。實際上,繼虛假新聞的嚴重性和傳播范圍在2016美國總統(tǒng)大選和英國脫歐公投之后被曝光后,臉書
    發(fā)表于 10-08 09:57 ?1886次閱讀

    AI如何檢測這類虛假新聞

    人類打擊互聯(lián)網(wǎng)假新聞還是任重道遠啊。
    的頭像 發(fā)表于 04-28 17:18 ?2613次閱讀

    如何采用區(qū)塊鏈技術打擊虛假新聞

    盡管這一說法在最近才被提及,但虛假新聞或偽造歷史并不新鮮。隨著時間的推移而不斷地發(fā)展,每個社會都建立在可公開的信息的儲存以及共有的歷史之上。彭博社的專欄作家Megan McArdle寫了一篇關于“虛假新聞”的文章,標題是“事實核查的無限倒退問題”。
    發(fā)表于 05-29 11:31 ?1367次閱讀

    滑鐵盧大學研究人員開發(fā)出一種新的人工智能工具 可鑒別并清除虛假新聞

    近日,滑鐵盧大學研究人員開發(fā)了一種新的人工智能工具,該工具使用深度學習的AI算法來確定帖子中的故事是否得到同一主題的其他帖子故事的支持,這可以幫助社交媒體網(wǎng)絡和新聞機構鑒別并清除虛假新聞。
    的頭像 發(fā)表于 12-17 16:09 ?3302次閱讀

    AI全新應用場景 技術趨勢模態(tài)學習

    新的 AI 技術發(fā)展趨勢有哪些?模態(tài)學習技術一定是其中之一。
    發(fā)表于 07-18 09:19 ?1997次閱讀

    Transformer模型的模態(tài)學習應用

    隨著Transformer在視覺中的崛起,Transformer在模態(tài)中應用也是合情合理的事情,甚至以后可能會有更多的類似的paper。
    的頭像 發(fā)表于 03-25 09:29 ?1.1w次閱讀
    Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>學習</b>應用

    簡述文本與圖像領域的模態(tài)學習有關問題

    來自:哈工大SCIR 本期導讀:近年來研究人員在計算機視覺和自然語言處理方向均取得了很大進展,因此融合了二者的模態(tài)深度學習也越來越受到關注。本期主要討論結合文本和圖像的
    的頭像 發(fā)表于 08-26 16:29 ?6865次閱讀

    更強更通用:智源「悟道3.0」Emu模態(tài)大模型開源,在模態(tài)序列中「補全一切」

    當前學界和工業(yè)界都對模態(tài)大模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺語言模型 Flamingo ,它使用單一視覺語
    的頭像 發(fā)表于 07-16 20:45 ?724次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補全一切」

    DreamLLM:多功能模態(tài)大型語言模型,你的DreamLLM~

    由于固有的模態(tài)缺口,如CLIP語義主要關注模態(tài)共享信息,往往忽略了可以增強多模態(tài)理解的模態(tài)特定知識。因此,這些研究并沒有充分認識到
    的頭像 發(fā)表于 09-25 17:26 ?763次閱讀
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大型語言模型,你的DreamLLM~

    人工智能領域模態(tài)的概念和應用場景

    隨著人工智能技術的不斷發(fā)展,模態(tài)成為了一個備受關注的研究方向。模態(tài)技術旨在將不同類型的數(shù)據(jù)和信息進行融合,以實現(xiàn)更加準確、高效的人工智能
    的頭像 發(fā)表于 12-15 14:28 ?9865次閱讀

    虛假新聞網(wǎng)站利用AI批量炮制假新聞,數(shù)量猛增驚人

    值得關注的是,NewsGuard 的研究還揭示,AI 工具讓虛假信息傳播者和內(nèi)容農(nóng)場生產(chǎn)假新聞變得輕而易舉且高效。無論身處何方,有才能的或是沒有才能的人都可以創(chuàng)建這些網(wǎng)站。
    的頭像 發(fā)表于 12-20 13:48 ?730次閱讀