近期,HBO出品的臺劇《我們與惡的距離》熱播,在感慨劇情深度的同時,也引發(fā)了對于媒體行業(yè)生存現(xiàn)狀的反思。
《我們與惡的距離》劇照
一方面,人們希望媒體能夠堅(jiān)持所謂“新聞理想”,另一方面,在信息爆炸訊息光速傳遞的今天,媒體人要堅(jiān)守“客觀真實(shí)”的報道,實(shí)屬難得。
作為一位媒體從業(yè)者,文摘菌對于女主角新聞臺副總監(jiān)“宋喬安“印象深刻。
賈靜雯飾演宋喬安,演技炸裂
影片一開始,我們就目睹了一起搶熱點(diǎn)的假新聞事件。多家媒體同一時間播報了一條泰國發(fā)生爆炸的消息,令宋喬安和同事感到措手不及。這條消息沒有得到前方記者的證實(shí),也缺乏官方認(rèn)證,用媒體術(shù)語來說,就是不具有權(quán)威信源。但是,該爆炸性新聞自帶流量,若證實(shí)有中國游客身亡,更會讓它成為一條名副其實(shí)的爆款新聞。
競爭對手們爭相播報,宋喬安壓力頗大,盡管沒有拿到真的信源,依然硬著頭皮播了這條新聞,但最終,它被證實(shí)是一條假消息。
機(jī)器學(xué)習(xí)假新聞判別
宋喬安的尷尬處境也恰恰是當(dāng)代媒體真實(shí)寫照。突發(fā)新熱點(diǎn)多,真假難以被證實(shí)?;蛟S,我們可以在算法的幫助下,打破這一困境。
《我們與惡的距離》劇照
AI謠言粉碎機(jī)
今年愚人節(jié)當(dāng)天,阿里宣布了一項(xiàng)新技術(shù)被稱為“AI謠言粉碎機(jī)”。這項(xiàng)技術(shù)的算法模型通過深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了包括發(fā)布信息、社交畫像、回復(fù)者立場、回復(fù)信息、傳播路徑在內(nèi)的判斷系統(tǒng),將謠言識別和社交用戶觀點(diǎn)識別打通,最快1秒內(nèi)判定結(jié)果。在特定場景中的準(zhǔn)確率可達(dá)到81%。
阿里希望幫助社交平臺和新聞網(wǎng)站在假新聞尚未造成大面積傷害時就快速識別出來,遏制其傳播。在信息被證實(shí)為謠言后,AI還可通過虛假信息的傳播路徑,定向給閱讀過此信息的用戶進(jìn)行辟謠。
SemEval語義測試大賽中,根據(jù)主辦方提供的過去兩年社交媒體Twitter和Reddit上的近500個真實(shí)言論和1萬多條相關(guān)反饋數(shù)據(jù),阿里巴巴的人工智能技術(shù)對假新聞識別的準(zhǔn)確率創(chuàng)造了新的紀(jì)錄。達(dá)摩院語言技術(shù)實(shí)驗(yàn)室首席科學(xué)家司羅表示,“AI謠言粉碎機(jī)”未來有望幫助社交媒體的審核機(jī)構(gòu)承擔(dān)60%的工作量。
Breaking Data
英國有一家體育媒體GiveMeSport,是一個主要基Faceboook發(fā)布體育相關(guān)的新聞,最后被人工智能公司Breaking Data 收購,目前在新聞頻道的兩個終端應(yīng)用了AI技術(shù),可以分析和反應(yīng)片段及重大新聞報道。
Breaking Data運(yùn)用自然語言處理技術(shù)掃描Twitter,通過相關(guān)推文篩選預(yù)定關(guān)鍵詞,如運(yùn)動隊(duì)、球員姓名、球隊(duì)名稱、俱樂部、聯(lián)賽或運(yùn)動場。經(jīng)過篩選和驗(yàn)證關(guān)鍵詞,將其分為“重大事件”,“相關(guān)新聞”或“大幕新聞”等類別;并在BreakingSports Slack頻道中作為警報發(fā)送給記者。GiveMeSport正在使用Breaking Data的技術(shù)將其他公開可用的數(shù)據(jù)源(如Facebook,Reddit和Wikipedia)整合在一起。
這個平臺通過識別可靠的信息來源來判斷推文是否可靠,例如,歐冠中當(dāng)巴薩以3:0戰(zhàn)勝利物浦時,人工智能平臺可以跟蹤Twitter上的內(nèi)容何時首次出現(xiàn),并將該帳戶標(biāo)記為可靠的權(quán)限。
用AI打假AI合成圖片
除了假新聞,AI合成的視頻和照片也越來越多,利用算法實(shí)現(xiàn)AI換臉技術(shù)已經(jīng)很成熟。針對此種情況,成立于2017年的舊金山初創(chuàng)企業(yè)人工智能基金會(AI Foundation),他們正在開發(fā)的Reality Defender將幫助人們識別由人工智能算法生成的內(nèi)容,以檢測潛在的虛假媒體。
與病毒防護(hù)類似,他們的工具掃描每一幅圖像、視頻和其他媒體,尋找已知的假象,允許你報告可疑的假新聞,并使用各種人工智能驅(qū)動的分析技術(shù),以檢測變化或人為生成的跡象。
虛假、合成的照片和視頻在網(wǎng)絡(luò)的傳播,也會造成品牌和個人造成不可挽回的名譽(yù)損毀。但試圖監(jiān)管全球媒體數(shù)據(jù)將是一項(xiàng)艱巨的任務(wù),使用AI技術(shù)任何人都可以炮制出數(shù)百萬張看起來逼真的假照片。鑒于虛假圖像和視頻的改善速度之快,或許驗(yàn)證“什么是真實(shí)的”的商業(yè)模式可能更有效,也許媒體和個人很快應(yīng)該擁有自己的數(shù)字指紋,可AI合成的底線又在哪?
假新聞訓(xùn)練模型及數(shù)據(jù)集
在某種程度上假新聞的是一個微觀領(lǐng)域問題,它和謠言分類、事實(shí)判斷、標(biāo)題黨檢測、垃圾內(nèi)容挖掘等都比較類似,在宏觀上說都屬于內(nèi)容質(zhì)量的領(lǐng)域,所以很多方法其實(shí)是通用的框架。騰訊科技高級研究員孫子荀將假消息辨別模型分為兩類:
基于內(nèi)容的建模;
基于社交網(wǎng)絡(luò)的模型。
后者可以通過對虛假新聞的傳播游走軌跡跟蹤,以及通過圖模型和演化模型中針對特定假新聞的進(jìn)一步調(diào)查;其次,識別虛假新聞的關(guān)鍵傳播者,對于減輕社交媒體的傳播范圍至關(guān)重要。
在2017年,Kai Shu等人的論文中將假新聞的研究主要分為三個方向:
數(shù)據(jù)方面的研究:目前還沒有標(biāo)準(zhǔn)的測評數(shù)據(jù)集,需要去建立的??梢酝ㄟ^傳播特性提前檢測假新聞。
模型特征方面的研究:通過使用用戶的畫像特征,內(nèi)容特征(NLP、CV)結(jié)合深度學(xué)習(xí),還有傳播網(wǎng)絡(luò)特征,比如用戶和內(nèi)容之間的關(guān)系構(gòu)造出來的網(wǎng)絡(luò)特征,網(wǎng)絡(luò)本身的embedding表現(xiàn)。
模型方面的研究:這方面的工作可分為特征之間的組合、預(yù)測目標(biāo)的變化、對內(nèi)容源、內(nèi)容反饋和文章風(fēng)格的限制,組合這些模型,也可通過空間變換,把特征變換到另外的latent語義空間嘗試解決。
鑒定假新聞是一件任重而道遠(yuǎn)的事,對假新聞機(jī)器學(xué)習(xí)模型感興趣的同學(xué)也可以通過以下開放的數(shù)據(jù)集進(jìn)行嘗試。
1. FakeNewsNet
BuzzFeed和PolitiFact兩個平臺的數(shù)據(jù)集,包括新聞內(nèi)容本身(作者,標(biāo)題,正文,圖片視頻)和社交上下文內(nèi)容(用戶畫像,收聽,關(guān)注等)。
數(shù)據(jù)集獲取方式:
https://github.com/KaiDMML/FakeNewsNet
2.LIAR
該數(shù)據(jù)集也是來自PolitiFact,包括內(nèi)容本身和內(nèi)容的基礎(chǔ)屬性數(shù)據(jù),比如來源,正文等。
數(shù)據(jù)集獲取方式:
http://www.cs.ucsb.edu/~william/data/liar_dataset.zip
3. Twitter and Weibo DataSet
一個比較全的數(shù)據(jù)集包括帖子ID,發(fā)帖用戶ID,正文,回復(fù)等數(shù)據(jù)。
數(shù)據(jù)集獲取方式:
http://alt.qcri.org/~wgao/data/rumdect.zip
4. Twitter15 Twitter16
來自 Twitter 15、16 年的帖子,包括了帖子之間的樹狀收聽,關(guān)注關(guān)系和帖子正文等。
數(shù)據(jù)集獲取方式:
https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0
5. Buzzfeed Election Dataset & Political News Dataset
Buzzfeed’s 2016 收集的選舉假新聞,以及作者收集的 75個新聞故事。包括假新聞,真新聞和諷刺新聞。
數(shù)據(jù)集獲取方式:
https://github.com/rpitrust/fakenewsdata1
相關(guān)鏈接:
http://www.sohu.com/a/311856780_99928473?sec=wd
https://zhuanlan.zhihu.com/p/57124028
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4776瀏覽量
100952 -
算法
+關(guān)注
關(guān)注
23文章
4623瀏覽量
93110 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132837
原文標(biāo)題:《我們與惡的距離》引發(fā)媒體反思:假新聞?chuàng)専狳c(diǎn),機(jī)器學(xué)習(xí)能做些什么?
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論