來(lái)源:中國(guó)指揮與控制學(xué)會(huì)
作者:黃海濤 田虎 鄭曉龍 曾大軍
在線社交網(wǎng)絡(luò)面臨著網(wǎng)絡(luò)社交機(jī)器人操控的威脅,而現(xiàn)有的檢測(cè)算法還不能緩解這種威脅。如何有效利用人工智能技術(shù)檢測(cè)社交機(jī)器人,規(guī)避其潛在的風(fēng)險(xiǎn)并保障網(wǎng)絡(luò)的良好生態(tài),是當(dāng)前亟需解決的重要任務(wù)。
隨著互聯(lián)網(wǎng)與信息技術(shù)的蓬勃發(fā)展,在線社交網(wǎng)絡(luò)吸引了大量用戶(hù),成為現(xiàn)今網(wǎng)絡(luò)空間的重要組成部分。自從在線社交網(wǎng)絡(luò)出現(xiàn)以來(lái),網(wǎng)絡(luò)社交機(jī)器人就與在線社交網(wǎng)絡(luò)相伴而生。根據(jù)Grimme等人的定義,網(wǎng)絡(luò)社交機(jī)器人涵蓋多種自動(dòng)化與半自動(dòng)化智能體,這些智能體通過(guò)在網(wǎng)絡(luò)空間中進(jìn)行單向或多方向的通信來(lái)實(shí)現(xiàn)特定的目的,并非僅涵蓋在線社交網(wǎng)絡(luò)中的機(jī)器人。但在本文中,我們只考慮被廣泛研究的在線社交網(wǎng)絡(luò)中的社交機(jī)器人,這些機(jī)器人主要通過(guò)與其他賬戶(hù)建立好友關(guān)系、發(fā)布或轉(zhuǎn)發(fā)帖子來(lái)實(shí)現(xiàn)其所有者的特定目的。
由于其自動(dòng)化特性,網(wǎng)絡(luò)社交機(jī)器人可以用于實(shí)現(xiàn)某些需要持續(xù)很長(zhǎng)時(shí)間的有益于網(wǎng)絡(luò)空間健康發(fā)展的簡(jiǎn)單功能。但同時(shí),我們也應(yīng)當(dāng)看到目前網(wǎng)絡(luò)社交機(jī)器人產(chǎn)生的問(wèn)題和引發(fā)的社會(huì)矛盾遠(yuǎn)大于其所能提供的收益。網(wǎng)絡(luò)社交機(jī)器人可能造成用戶(hù)隱私泄露的問(wèn)題:在臉書(shū)、推特等社交媒體上,大量用戶(hù)輕易相信未知賬號(hào),愿意接受好友請(qǐng)求或反向關(guān)注那些關(guān)注他們的用戶(hù)。除信息泄漏外,網(wǎng)絡(luò)社交機(jī)器人也在給用戶(hù)造成經(jīng)濟(jì)損失:它們串通協(xié)作推廣低價(jià)值股票,或是為特定應(yīng)用程序和銷(xiāo)售商品打廣告。網(wǎng)絡(luò)社交機(jī)器人對(duì)于民主政治、社會(huì)分裂和政治沖突的影響也不容忽視:在2016年的美國(guó)總統(tǒng)大選中,社交機(jī)器人在假新聞傳播的早期階段極大擴(kuò)展了相關(guān)新聞的影響范圍,危及總統(tǒng)選舉的公正性。2018年佛羅里達(dá)校園槍擊案后,社交機(jī)器人的活動(dòng)加劇了推特用戶(hù)關(guān)于控槍問(wèn)題的情緒極化現(xiàn)象,進(jìn)一步撕裂美國(guó)社會(huì)共識(shí)。部分推特社交機(jī)器人在北京冬奧會(huì)期間通過(guò)放大爭(zhēng)議等方式制造有關(guān)冬奧會(huì)的政治沖突,加劇了奧運(yùn)會(huì)相關(guān)輿論宣傳的泛政治化。
綜上所述,未受到規(guī)范的網(wǎng)絡(luò)社交機(jī)器人活動(dòng)已經(jīng)引發(fā)了各方面的多種損失與問(wèn)題,網(wǎng)絡(luò)空間面臨著嚴(yán)峻的被操控風(fēng)險(xiǎn),必須引起我們高度重視,力求通過(guò)科學(xué)界與產(chǎn)業(yè)界的高度合作,盡量遏制惡意網(wǎng)絡(luò)社交機(jī)器人的蔓延。
一、網(wǎng)絡(luò)社交機(jī)器人的產(chǎn)生背景
現(xiàn)今社交網(wǎng)絡(luò)已經(jīng)深度融入到每個(gè)人的生活當(dāng)中,臉書(shū)、微博等平臺(tái)已經(jīng)擁有億萬(wàn)活躍用戶(hù),具備令人驚嘆的推廣傳播效果的同時(shí)也為網(wǎng)絡(luò)社交機(jī)器人惡意操縱信息傳播提供了可乘之機(jī)。同時(shí),信息技術(shù)的發(fā)展也使得能夠接觸到網(wǎng)絡(luò)社交機(jī)器人等相關(guān)技術(shù)的人群呈爆炸性增長(zhǎng),Github等開(kāi)源程序社區(qū)上可以公開(kāi)獲取的網(wǎng)絡(luò)社交機(jī)器人程序框架和功能完備的計(jì)算機(jī)程序已有很多?;谶@些框架或程序進(jìn)行二次開(kāi)發(fā)的難度較低,這也是為網(wǎng)絡(luò)社交機(jī)器人泛濫的提供了技術(shù)便利。此外,人工智能技術(shù)的發(fā)展也大幅提升了網(wǎng)絡(luò)社交機(jī)器人的識(shí)別難度和智能水平。目前,社交機(jī)器人已經(jīng)進(jìn)化成具有晝夜節(jié)律、盜用他人賬戶(hù)信息、能夠通過(guò)轉(zhuǎn)發(fā)正常推文和模擬點(diǎn)擊等行為掩蓋真實(shí)目標(biāo)的智能體,使得許多曾經(jīng)有效的關(guān)鍵特征失效,大大提高了識(shí)別和檢測(cè)難度。在可預(yù)見(jiàn)的未來(lái),基于效果拔群的ChatGPT等預(yù)訓(xùn)練語(yǔ)言模型和styleGAN等圖像生成技術(shù)自主生成具有較高迷惑性消息并進(jìn)行發(fā)布的網(wǎng)絡(luò)社交機(jī)器人很有可能代替現(xiàn)有的需要人工編寫(xiě)所發(fā)布消息的網(wǎng)絡(luò)社交機(jī)器人。這種智能水平的提高會(huì)進(jìn)一步提升正常用戶(hù)識(shí)別和算法檢測(cè)的難度,造成更大的倫理風(fēng)險(xiǎn)。
為了保護(hù)社交媒體平臺(tái)或在線討論社區(qū)產(chǎn)品不被社交機(jī)器人控制,同時(shí)維持平臺(tái)用戶(hù)活躍性的目的,很多互聯(lián)網(wǎng)公司已經(jīng)開(kāi)發(fā)和部署網(wǎng)絡(luò)社交機(jī)器人檢測(cè)算法。比如微信團(tuán)隊(duì)已經(jīng)發(fā)表了多個(gè)有關(guān)網(wǎng)絡(luò)社交機(jī)器人檢測(cè)的研究工作,并在微信平臺(tái)上部署了相應(yīng)的檢測(cè)算法,取得了很好的檢測(cè)效果。推特與臉書(shū)雖沒(méi)有發(fā)表過(guò)相關(guān)論文,但這些平臺(tái)也都在批量暫停網(wǎng)絡(luò)社交機(jī)器人賬戶(hù),表明其也擁有較強(qiáng)的反制措施。新生代的網(wǎng)絡(luò)社交機(jī)器人就是在這樣的持續(xù)檢測(cè)環(huán)境中產(chǎn)生,他們已經(jīng)通過(guò)了所在平臺(tái)的檢測(cè)機(jī)制,并在這樣的生成-檢測(cè)對(duì)抗中不斷加強(qiáng),逐漸提高其迷惑性和檢測(cè)難度。
二、網(wǎng)絡(luò)社交機(jī)器人檢測(cè)存在的技術(shù)挑戰(zhàn)
(一)社交機(jī)器人持續(xù)進(jìn)化,規(guī)避檢測(cè)能力加強(qiáng)
2015年以前出現(xiàn)的網(wǎng)絡(luò)社交機(jī)器人比較簡(jiǎn)單,呈現(xiàn)出明顯的非智能化和機(jī)器人之間相互關(guān)聯(lián)的弱點(diǎn),經(jīng)過(guò)特征或模型設(shè)計(jì)很容易與正常用戶(hù)區(qū)分開(kāi)來(lái)。但在2017年,Cresci等人的研究論文證實(shí),新出現(xiàn)的網(wǎng)絡(luò)社交機(jī)器人與早期的網(wǎng)絡(luò)社交機(jī)器人完全不同,它們普遍使用非常詳細(xì)的偽造的或是盜用的個(gè)人信息,能夠模仿晝夜節(jié)律,且僅在大量正常的推文中穿插少量帶有特定目的的推文。在這次社會(huì)調(diào)查中,人工分類(lèi)新機(jī)器人僅有24%的準(zhǔn)確率,也正是這類(lèi)機(jī)器人可以吸引大量正常用戶(hù)的關(guān)注。在這種進(jìn)化過(guò)程中,社交機(jī)器人通過(guò)改變偽裝手段的方式,極大提高了其檢測(cè)難度,造成檢測(cè)算法必須面對(duì)社交機(jī)器人持續(xù)進(jìn)化、規(guī)避檢測(cè)能力不斷增強(qiáng)的挑戰(zhàn)。
(二)網(wǎng)絡(luò)社交機(jī)器人協(xié)調(diào)傳播行為較為復(fù)雜
在最新的網(wǎng)絡(luò)社交機(jī)器人中,機(jī)器人之間的相互串通與關(guān)聯(lián)行為已經(jīng)很難從社交關(guān)系中找到蛛絲馬跡,即機(jī)器人網(wǎng)絡(luò)演變成由隱藏實(shí)體所操控的為達(dá)成特定目標(biāo)而采取協(xié)調(diào)行為的機(jī)器人群體,這些機(jī)器人彼此之間卻不存在社交關(guān)系。Agarwal等人通過(guò)分析推特社交機(jī)器人發(fā)現(xiàn)在社交機(jī)器人網(wǎng)絡(luò)中找不到為其他機(jī)器人提供信息的中心節(jié)點(diǎn),印證了這一挑戰(zhàn)的存在。這使得我們必須仔細(xì)而嚴(yán)謹(jǐn)?shù)厮伎季W(wǎng)絡(luò)社交機(jī)器人在協(xié)調(diào)傳播特定目的信息時(shí)所表現(xiàn)出的特征以及協(xié)同行為的判斷標(biāo)準(zhǔn),這無(wú)疑提高了社交機(jī)器人檢測(cè)難度。
(三)檢測(cè)算法開(kāi)發(fā)環(huán)境與使用環(huán)境差異過(guò)大
檢測(cè)算法開(kāi)發(fā)環(huán)境與使用環(huán)境差異過(guò)大有兩層含義:其一是指檢測(cè)算法于平穩(wěn)的中性環(huán)境中開(kāi)發(fā),而實(shí)際使用環(huán)境完全不滿(mǎn)足此假設(shè);其二是指我們希望檢測(cè)算法能夠在社交機(jī)器人尚未傳播虛假信息甚至是注冊(cè)時(shí)就能檢測(cè)到它們,但大部分現(xiàn)有算法僅能實(shí)現(xiàn)已傳播虛假信息的社交機(jī)器人的檢測(cè)功能。平穩(wěn)中性的開(kāi)發(fā)環(huán)境是指開(kāi)發(fā)過(guò)程中使用固定數(shù)據(jù)集,即假設(shè)社交機(jī)器人不會(huì)產(chǎn)生進(jìn)化、不會(huì)更改策略欺騙檢測(cè)算法,但這在實(shí)際部署檢測(cè)場(chǎng)景中并不成立,造成檢測(cè)算法實(shí)用效果嚴(yán)重受限。且現(xiàn)有檢測(cè)算法大多采用社交機(jī)器人的發(fā)布推文或社交行為特征,只能在認(rèn)識(shí)到新的社交機(jī)器人種類(lèi)出現(xiàn)之后開(kāi)發(fā)對(duì)應(yīng)的檢測(cè)算法,難以發(fā)揮期望的預(yù)防社交機(jī)器人的作用。以上兩方面原因造成目前開(kāi)發(fā)的檢測(cè)算法并不是我們真正需要的檢測(cè)算法,構(gòu)成我們開(kāi)發(fā)新社交機(jī)器人檢測(cè)算法的嚴(yán)峻挑戰(zhàn)。
三、網(wǎng)絡(luò)社交機(jī)器人檢測(cè)的關(guān)鍵技術(shù)
現(xiàn)有的網(wǎng)絡(luò)社交機(jī)器人檢測(cè)方法普遍將社交機(jī)器人檢測(cè)處理成一個(gè)二分類(lèi)問(wèn)題,并不會(huì)對(duì)賬戶(hù)在特定時(shí)間上是否在進(jìn)行攻擊或是賬戶(hù)屬于哪一類(lèi)網(wǎng)絡(luò)社交機(jī)器人進(jìn)行區(qū)分。但是,這種設(shè)計(jì)思路由于缺乏對(duì)于社交機(jī)器人的細(xì)致描述,不利于描述混合自動(dòng)化行為與人工驅(qū)動(dòng)行為的半機(jī)器人,也不利于研究人員理解不同類(lèi)別社交機(jī)器人與人類(lèi)的本質(zhì)區(qū)別,已經(jīng)成為網(wǎng)絡(luò)社交機(jī)器人檢測(cè)算法發(fā)展之路上的重大阻礙?,F(xiàn)有的網(wǎng)絡(luò)社交機(jī)器人檢測(cè)方法可以依據(jù)其檢測(cè)網(wǎng)絡(luò)社交機(jī)器人的原理分為兩類(lèi),一類(lèi)是基于賬戶(hù)特征的方法,另一類(lèi)是基于網(wǎng)絡(luò)結(jié)構(gòu)的方法,下面將對(duì)這兩類(lèi)方法分別進(jìn)行概述、介紹典型工作和分析優(yōu)劣勢(shì)。兩類(lèi)方法的分類(lèi)框架及優(yōu)缺點(diǎn)概括如圖1所示。
圖1 網(wǎng)絡(luò)社交機(jī)器人檢測(cè)算法分類(lèi)框架圖
(一)基于賬戶(hù)特征的方法
基于賬戶(hù)特征的方法普遍忽視網(wǎng)絡(luò)社交機(jī)器人組成機(jī)器人網(wǎng)絡(luò)協(xié)調(diào)傳播隱蔽關(guān)聯(lián)的特性,將社交機(jī)器人視為單獨(dú)賬號(hào)進(jìn)行檢測(cè)。這種方式無(wú)法利用賬號(hào)協(xié)調(diào)傳播信息,需要大量已標(biāo)注的賬號(hào)作為訓(xùn)練樣本以訓(xùn)練檢測(cè)算法,且樣本質(zhì)量對(duì)于檢測(cè)算法性能影響很大。
基于賬戶(hù)特征的檢測(cè)方法總體技術(shù)框架如圖2所示,其類(lèi)似于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,由特征提取部分和分類(lèi)器部分構(gòu)成。分類(lèi)器部分主要采用機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)開(kāi)發(fā)成熟的分類(lèi)模型,故相關(guān)研究工作集中于如何進(jìn)行特征工程或設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)模型以快速有效地提取賬戶(hù)特征方面。這也使得這種方法的有效性取決于社交機(jī)器人與正常用戶(hù)在多種特征上的統(tǒng)計(jì)差異。如果社交機(jī)器人通過(guò)進(jìn)化等方式在某些關(guān)鍵特征上彌合與正常用戶(hù)之間的分布差異,這種方法的有效性就要大打折扣,研究人員也就不得不轉(zhuǎn)而開(kāi)發(fā)新算法以解決危機(jī)。
圖2 基于賬戶(hù)特征的檢測(cè)方法技術(shù)框架示意圖
基于賬戶(hù)特征的方法因其檢測(cè)與部署服務(wù)門(mén)檻較低,相較于基于網(wǎng)絡(luò)結(jié)構(gòu)的方法更加貼近實(shí)際應(yīng)用,其中以Botometer為代表的公開(kāi)檢測(cè)服務(wù)更是提高了公眾對(duì)于社交機(jī)器人的認(rèn)識(shí)程度。Botometer主要通過(guò)由賬戶(hù)的個(gè)人特征、好友特征、時(shí)間相關(guān)特征、推文內(nèi)容特征等構(gòu)成的千余項(xiàng)特征執(zhí)行推特上的社交機(jī)器人檢測(cè)任務(wù),是一種面向推特各種類(lèi)別社交機(jī)器人的通用檢測(cè)算法。但是受限于所采用的訓(xùn)練數(shù)據(jù)和社交機(jī)器人的進(jìn)化逃避檢測(cè)特性,Botometer的實(shí)際檢測(cè)準(zhǔn)確率較低,難以發(fā)揮應(yīng)有的維護(hù)社交網(wǎng)絡(luò)空間清朗的作用。研究人員為提升基于賬戶(hù)特征方法的性能付出了很多努力,產(chǎn)生的應(yīng)對(duì)機(jī)器人進(jìn)化逃避檢測(cè)和檢測(cè)算法開(kāi)發(fā)環(huán)境與使用環(huán)境差異過(guò)大兩大挑戰(zhàn)的方式如表1所示。目前,研究人員逐步達(dá)成共識(shí):網(wǎng)絡(luò)社交機(jī)器人難以操縱的特征或是操縱起來(lái)非常昂貴的特征是比較穩(wěn)健的,較為適合應(yīng)對(duì)網(wǎng)絡(luò)社交機(jī)器人進(jìn)化逃避檢測(cè)的挑戰(zhàn),比如待檢測(cè)賬號(hào)的全部粉絲的各類(lèi)賬號(hào)特征。
表1 基于賬戶(hù)特征的方法解決兩類(lèi)挑戰(zhàn)提出的算法
(二)基于網(wǎng)絡(luò)結(jié)構(gòu)的方法
基于網(wǎng)絡(luò)結(jié)構(gòu)的檢測(cè)方法可以按照是否使用賬戶(hù)特征再細(xì)分為兩類(lèi)。不使用任何賬戶(hù)特征的一類(lèi)不需要任何標(biāo)注用戶(hù)或僅需少量種子節(jié)點(diǎn)用戶(hù)即可進(jìn)行檢測(cè),較有代表性的分別為基于聚類(lèi)的方法和基于概率圖模型的方法。同時(shí)使用賬戶(hù)特征信息和機(jī)器人網(wǎng)絡(luò)協(xié)調(diào)傳播行為信息的一類(lèi)則需要使用標(biāo)注用戶(hù),以標(biāo)注用戶(hù)作為監(jiān)督信號(hào)輔助推斷或以標(biāo)注用戶(hù)訓(xùn)練分類(lèi)器,較有代表性的分別為基于圖神經(jīng)網(wǎng)絡(luò)的方法以及結(jié)合分類(lèi)器與概率圖模型的方法。
首先介紹不使用任何賬戶(hù)特征的完全基于網(wǎng)絡(luò)結(jié)構(gòu)的方法。其中,基于聚類(lèi)的方法的基本假設(shè)是不同的正常用戶(hù)社交行為之間存在較高異質(zhì)性,用戶(hù)社交行為相似性較高則說(shuō)明受到同一主體控制。這類(lèi)方法的研究專(zhuān)注于網(wǎng)絡(luò)機(jī)器人社交行為信息提取方式,通過(guò)抽取對(duì)于網(wǎng)絡(luò)社交機(jī)器人檢測(cè)更加有效的信息提升檢測(cè)算法的性能?;诟怕蕡D模型的方法的基本假設(shè)是社交機(jī)器人主要與社交機(jī)器人相互連接,難以與正常用戶(hù)建立社交關(guān)系。這類(lèi)方法的研究專(zhuān)注于改進(jìn)概率圖模型算法和修正網(wǎng)絡(luò)結(jié)構(gòu)的方式,以引入更加符合實(shí)際情況的假設(shè)從而提升網(wǎng)絡(luò)社交機(jī)器人檢測(cè)算法的性能。由于這兩類(lèi)方法不使用任何標(biāo)注信息或僅使用少量標(biāo)注信息,故其社交機(jī)器人檢測(cè)工作實(shí)質(zhì)上是依賴(lài)于研究人員基于領(lǐng)域先驗(yàn)知識(shí)所做假設(shè)來(lái)進(jìn)行的,所以算法性能取決于研究人員的理解認(rèn)知程度以及在算法中所采取的假設(shè)與實(shí)際情形的契合程度。相比之下,基于聚類(lèi)的方法其基本假設(shè)與現(xiàn)實(shí)契合程度高于基于概率圖模型的方法。Cresci等人發(fā)現(xiàn)社交網(wǎng)絡(luò)中用戶(hù)的相似行為呈現(xiàn)出對(duì)數(shù)正態(tài)分布特性,證實(shí)了正常用戶(hù)行為具有較高的異質(zhì)性。Yang等人發(fā)現(xiàn)社交機(jī)器人并不會(huì)形成緊密連接的社區(qū),80%的機(jī)器人專(zhuān)注于與正常用戶(hù)建立社交關(guān)系。
同時(shí)使用賬戶(hù)特征信息和機(jī)器人網(wǎng)絡(luò)協(xié)調(diào)傳播行為信息的檢測(cè)方法的初衷則是將用戶(hù)特征信息與網(wǎng)絡(luò)結(jié)構(gòu)信息融合起來(lái),以詳細(xì)的賬戶(hù)或行為信息補(bǔ)充較為粗糙的社交關(guān)聯(lián)信息來(lái)細(xì)化檢測(cè)粒度,以社交關(guān)聯(lián)信息指導(dǎo)檢測(cè)對(duì)抗僅依賴(lài)賬戶(hù)特征無(wú)法解決的機(jī)器人不斷進(jìn)化逃避檢測(cè)問(wèn)題。這種指導(dǎo)思想使得經(jīng)過(guò)精心設(shè)計(jì)的同時(shí)使用賬戶(hù)特征和網(wǎng)絡(luò)結(jié)構(gòu)的方法性能優(yōu)于僅使用賬戶(hù)特征或網(wǎng)絡(luò)結(jié)構(gòu)的方法。將用戶(hù)特征與網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合起來(lái)的方式主要有兩種:其一是圖神經(jīng)網(wǎng)絡(luò),這是一類(lèi)端到端的將節(jié)點(diǎn)信息和結(jié)構(gòu)信息結(jié)合起來(lái)的方法;其二是以分類(lèi)器先將節(jié)點(diǎn)特征聚合起來(lái)形成先驗(yàn)概率,再將先驗(yàn)概率輸入概率圖模型,集成結(jié)構(gòu)信息形成檢測(cè)結(jié)果的形式。這兩類(lèi)方法仍然需要使用標(biāo)注用戶(hù)數(shù)據(jù),其中基于圖神經(jīng)網(wǎng)絡(luò)的方法以標(biāo)注信息作為監(jiān)督信號(hào)以半監(jiān)督直接推導(dǎo)的方式進(jìn)行檢測(cè),甚至需要待檢測(cè)賬戶(hù)網(wǎng)絡(luò)結(jié)構(gòu)附近存在標(biāo)注用戶(hù),造成檢測(cè)算法可遷移性較差。而結(jié)合分類(lèi)器與概率圖模型的算法同樣需要大量標(biāo)注數(shù)據(jù)用來(lái)訓(xùn)練分類(lèi)器,還會(huì)因?yàn)榉诸?lèi)器不夠魯棒,被進(jìn)化逃避檢測(cè)的機(jī)器人特征信息欺騙,從而將噪聲傳入概率圖模型中,產(chǎn)生檢測(cè)效果仍然不盡如人意的問(wèn)題。研究人員為提升基于網(wǎng)絡(luò)結(jié)構(gòu)的方法的檢測(cè)效果,在應(yīng)對(duì)社交機(jī)器人的復(fù)雜協(xié)調(diào)傳播行為挑戰(zhàn)方面做出了很多努力,典型方案如表2所示。但同時(shí),我們也要注意到,因考慮動(dòng)態(tài)網(wǎng)絡(luò)結(jié)構(gòu)或早期檢測(cè)難度較高,故基于網(wǎng)絡(luò)結(jié)構(gòu)的方法很少考慮開(kāi)發(fā)環(huán)境與使用環(huán)境差異過(guò)大這個(gè)問(wèn)題。
表2 基于網(wǎng)絡(luò)結(jié)構(gòu)的方法解決兩類(lèi)挑戰(zhàn)提出的算法
四、網(wǎng)絡(luò)社交機(jī)器人檢測(cè)的未來(lái)研究展望
目前,網(wǎng)絡(luò)社交機(jī)器人檢測(cè)仍然不能很好地解決三大挑戰(zhàn),所以說(shuō)網(wǎng)絡(luò)社交機(jī)器人檢測(cè)的發(fā)展仍然任重道遠(yuǎn),需要學(xué)術(shù)界和產(chǎn)業(yè)界的通力合作,只有這樣才能將網(wǎng)絡(luò)社交機(jī)器人操縱信息傳播、操控輿論等危害降到最低。對(duì)此提出未來(lái)的合作與發(fā)展方向:
(一)學(xué)術(shù)界與產(chǎn)業(yè)界需要在算法和數(shù)據(jù)方面通力合作
目前,對(duì)于學(xué)術(shù)界來(lái)說(shuō),網(wǎng)絡(luò)社交機(jī)器人檢測(cè)任務(wù)最大的困難在于數(shù)據(jù)集缺失和質(zhì)量低下的現(xiàn)狀以及缺乏實(shí)際部署測(cè)試場(chǎng)景?,F(xiàn)有數(shù)據(jù)集主要是各種類(lèi)別網(wǎng)絡(luò)社交機(jī)器人的混合數(shù)據(jù)集且僅有是否為機(jī)器人的二值化標(biāo)注信息。況且大量數(shù)據(jù)集是通過(guò)網(wǎng)絡(luò)社交機(jī)器人賬戶(hù)與隨機(jī)抽取的正常用戶(hù)賬戶(hù)組成的,對(duì)于這樣毫不相關(guān)的兩類(lèi)賬戶(hù)來(lái)說(shuō),其檢測(cè)分類(lèi)難度相對(duì)較低,容易造成檢測(cè)算法性能較差的問(wèn)題。另外,現(xiàn)有數(shù)據(jù)集大多通過(guò)眾包形式人工標(biāo)注或是通過(guò)蜜罐賬號(hào)引誘獲取,人類(lèi)標(biāo)注準(zhǔn)確性不足、蜜罐賬號(hào)不具備普遍適用性,這也是現(xiàn)有數(shù)據(jù)集質(zhì)量較差的重要原因。而學(xué)術(shù)界因不受產(chǎn)品效益制約,在檢測(cè)算法設(shè)計(jì)方面拘束較少,在研究過(guò)程中積累了很多值得參考的經(jīng)驗(yàn)。所以,雙方合作能夠更好地解決社交機(jī)器人檢測(cè)問(wèn)題。
(二)不同學(xué)科需要在網(wǎng)絡(luò)社交機(jī)器人理解與識(shí)別方面通力合作
網(wǎng)絡(luò)社交機(jī)器人檢測(cè)研究需要集成各個(gè)學(xué)科的力量。網(wǎng)絡(luò)社交機(jī)器人的問(wèn)題不單單是技術(shù)的問(wèn)題,更是信息傳播的問(wèn)題和社會(huì)的問(wèn)題;當(dāng)前研究普遍傾向于多極分化:計(jì)算機(jī)相關(guān)學(xué)科主要關(guān)注通過(guò)人工智能技術(shù)檢測(cè)網(wǎng)絡(luò)社交機(jī)器人,復(fù)雜系統(tǒng)相關(guān)學(xué)科主要關(guān)注社交機(jī)器人網(wǎng)絡(luò)及其行為演化分析,社會(huì)科學(xué)領(lǐng)域各學(xué)科則主要關(guān)注類(lèi)似于確權(quán)問(wèn)題、公平性問(wèn)題、信息傳播問(wèn)題等等。這種分裂的現(xiàn)狀使得各學(xué)科難以參考其他學(xué)科的先進(jìn)研究成果,也不利于對(duì)網(wǎng)絡(luò)社交機(jī)器人進(jìn)行詳細(xì)的類(lèi)別劃分,有礙于研究人員深入認(rèn)識(shí)網(wǎng)絡(luò)社交機(jī)器人。所以說(shuō),社交機(jī)器人的理解與識(shí)別需要各個(gè)學(xué)科聯(lián)合起來(lái),從影響、技術(shù)、信息傳播、認(rèn)知方式等多個(gè)角度思考,進(jìn)行深入詳細(xì)的歸類(lèi)和闡釋。
(三)同時(shí)采用用戶(hù)特征與網(wǎng)絡(luò)結(jié)構(gòu)的檢測(cè)方法是未來(lái)的發(fā)展方向
單獨(dú)使用結(jié)構(gòu)信息進(jìn)行檢測(cè)會(huì)因信息不充分只能采用鄰居同質(zhì)性假設(shè),產(chǎn)生檢測(cè)粒度粗糙問(wèn)題影響算法性能;單獨(dú)使用用戶(hù)特征信息進(jìn)行檢測(cè)又會(huì)因?yàn)閷①~號(hào)視為單獨(dú)個(gè)體,難以對(duì)抗機(jī)器人進(jìn)化逃避檢測(cè)問(wèn)題。況且,在機(jī)器人賬號(hào)創(chuàng)建初期,其賬號(hào)特征與正常用戶(hù)差距并不太大。因此,將用戶(hù)特征信息與網(wǎng)絡(luò)結(jié)構(gòu)融合起來(lái),以用戶(hù)特征指導(dǎo)基于網(wǎng)絡(luò)結(jié)構(gòu)的檢測(cè)方法,同時(shí)建模網(wǎng)絡(luò)的同質(zhì)性與異質(zhì)性,細(xì)化其檢測(cè)粒度才能實(shí)現(xiàn)高準(zhǔn)確度高可靠性的機(jī)器人檢測(cè)算法。
(四)網(wǎng)絡(luò)社交機(jī)器人的早期檢測(cè)算法與注冊(cè)時(shí)檢測(cè)算法才是真正需求
目前的檢測(cè)手段大多只能檢測(cè)已經(jīng)開(kāi)始根據(jù)特定目的散播消息的機(jī)器人,難以應(yīng)對(duì)新產(chǎn)生的機(jī)器人類(lèi)別,無(wú)法將尚未散播消息的機(jī)器人與正常用戶(hù)區(qū)別開(kāi)來(lái),更無(wú)法在注冊(cè)賬號(hào)階段就將機(jī)器人攔截下來(lái)。這樣的算法只能算是亡羊補(bǔ)牢,在發(fā)現(xiàn)機(jī)器人的社會(huì)影響之后避免其進(jìn)一步擴(kuò)散,無(wú)法實(shí)現(xiàn)防患于未然。想要徹底杜絕機(jī)器人對(duì)網(wǎng)絡(luò)環(huán)境的惡意影響,只有在其尚未發(fā)帖的構(gòu)建社交網(wǎng)絡(luò)階段甚至是注冊(cè)時(shí)就將其標(biāo)記出來(lái),一旦出現(xiàn)問(wèn)題,立刻暫停賬號(hào)。所以說(shuō),網(wǎng)絡(luò)社交機(jī)器人早期檢測(cè)算法與注冊(cè)時(shí)檢測(cè)算法才是真正需要的檢測(cè)算法。
綜上所述,現(xiàn)有的網(wǎng)絡(luò)社交機(jī)器人檢測(cè)算法仍不能緩解機(jī)器人操控網(wǎng)絡(luò)環(huán)境的風(fēng)險(xiǎn)。未來(lái)需要學(xué)術(shù)界各學(xué)科之間、學(xué)術(shù)界與產(chǎn)業(yè)界通力合作,深化對(duì)于網(wǎng)絡(luò)社交機(jī)器人的認(rèn)識(shí),制定更加精確、全面的檢測(cè)算法訓(xùn)練和測(cè)試數(shù)據(jù)集,構(gòu)建高精度的能夠?qū)惯M(jìn)化的全自動(dòng)和半自動(dòng)機(jī)器人的檢測(cè)算法。在此基礎(chǔ)上,全面厘清機(jī)器人與正常用戶(hù)之間的區(qū)別,構(gòu)建有效的早期檢測(cè)算法,實(shí)現(xiàn)防患于未然的效果。
審核編輯:湯梓紅
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28418瀏覽量
207102 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7565瀏覽量
88792 -
人工智能
+關(guān)注
關(guān)注
1791文章
47279瀏覽量
238510 -
檢測(cè)算法
+關(guān)注
關(guān)注
0文章
119瀏覽量
25220
原文標(biāo)題:社交機(jī)器人檢測(cè)研究概述與展望
文章出處:【微信號(hào):AI智勝未來(lái),微信公眾號(hào):AI智勝未來(lái)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論