去年陷入“數(shù)據(jù)丑聞”后的 Facebook 日子并不好過,在這之后他們對外界強(qiáng)調(diào)的關(guān)鍵詞大部分都是“隱私”和“安全”。即便如此,在剛剛過去的 Facebook F8 大會上,扎克伯格忍不住自嘲,由于在數(shù)據(jù)隱私方面的問題,很多人依然不信任 Facebook。
不過,不止 Facebook 一家公司,如何使用現(xiàn)有的 AI 等技術(shù)最大限度保護(hù)用戶不受傷害是每個公司都要不斷探索的問題。而對于經(jīng)歷過一年大風(fēng)浪的世界級企業(yè), Facebook 為重視數(shù)據(jù)隱私和平臺安全的努力也有目共睹。
Facebook CTOMike Schroepfer和 Facebook AI 部門的研究科學(xué)家Manohar Paluri 在近日的 F8 大會上發(fā)表了主題演講,他們主要談到了如何使用 AI 技術(shù)來保護(hù)平臺用戶安全地使用產(chǎn)品,需要做到兩點:1、理解內(nèi)容;2、Facebook 如何使用自監(jiān)督學(xué)習(xí)方法來提高內(nèi)容識別的準(zhǔn)確性,同時減少翻譯、NLP、圖像識別等應(yīng)用中對標(biāo)記數(shù)據(jù)的要求。
Yann LeCun 對此評論稱,這有助于改進(jìn)對具有暴力畫面、仇恨的言論、干擾選舉、錯誤信息、僵尸賬戶等違規(guī)內(nèi)容的過濾。
拋開對 Facebook 依然懷疑的目光,我們或許更應(yīng)該去看看它在技術(shù)上到底做了哪些努力,他們的 AI 等技術(shù)實踐也可能對其他公司在保護(hù)用戶數(shù)據(jù)和使用體驗方面有重要的技術(shù)指導(dǎo)意義。
具體技術(shù)細(xì)節(jié),都在以下演講全文里:
AI 在 Facebook 的各種應(yīng)用中無處不在,其中最重要的一項工作是幫助我們平臺上的用戶安全使用。
為了使所有這些系統(tǒng)更加有效,我們需要在兩個方面繼續(xù)改進(jìn) AI 技術(shù):理解內(nèi)容以及使用少量的標(biāo)記訓(xùn)練數(shù)據(jù)高效工作。
我們最近在 NLP和 CV 方面取得的進(jìn)展表明,內(nèi)容理解方面的工作如何產(chǎn)生效益。在 NLP 領(lǐng)域,我們開發(fā)了一個共享的多語言嵌入空間,可以作為一種通用語言來對有害內(nèi)容進(jìn)行處理,即使在資源匱乏的語言中也是如此。在 CV 領(lǐng)域,基于行業(yè)領(lǐng)先的研究基礎(chǔ),我們可以識別圖像中更多部分的內(nèi)容,并使用標(biāo)簽為視頻理解實現(xiàn)創(chuàng)紀(jì)錄的準(zhǔn)確性。
隨著我們理解內(nèi)容的能力在不同模式下不斷提升,我們在自監(jiān)督技術(shù)的新前沿也取得了進(jìn)展。這種技術(shù)將通過預(yù)訓(xùn)練系統(tǒng)加速學(xué)習(xí),可以成為下一代更快、更靈活工具的基礎(chǔ)技術(shù)。
我們將在此重點介紹 Facebook 如何提高內(nèi)容理解系統(tǒng)的準(zhǔn)確性和效率,并找到通過較少監(jiān)督學(xué)習(xí)方法來完成更多工作的新方法。
一、使用多語言句子嵌入來處理違規(guī)內(nèi)容
為了檢測人們何時發(fā)布了違規(guī)內(nèi)容,我們的系統(tǒng)需要理解語言。具體來說,我們的系統(tǒng)使用機(jī)器學(xué)習(xí)來掃描給定的句子并回答一系列問題,例如“它是否有害的(hateful)?”使用這些問題的答案,以及互動的語境和其他信號,我們可以確定系統(tǒng)是否采取行動,例如標(biāo)記給人工審核員。
為了讓 ML 系統(tǒng)來回答這些問題,我們則需要用給定語言的數(shù)千個例子來進(jìn)行訓(xùn)練。世界上大約有 6500 種語言,這包括目前缺乏大量培訓(xùn)數(shù)據(jù)集的語言,找到足夠的例子來開發(fā)支持所有語言的內(nèi)容理解系統(tǒng)是巨大的挑戰(zhàn)。
通過在共享嵌入空間中以多種語言映射相似的句子,我們可以更好地理解相關(guān)內(nèi)容而無需翻譯每個句子。
為了幫助解決訓(xùn)練數(shù)據(jù)的稀缺性,我們正利用我們最近開源的工具包 LASER(Language-Agnostic SEntence Representations),該工具包通過訓(xùn)練單個模型來理解大量語言。以前我們需要為每種語言準(zhǔn)備不同的模型,LASER 的表示空間允許我們訓(xùn)練一種語言模型,然后將該模型應(yīng)用于一系列語言,而無需特定語言的訓(xùn)練數(shù)據(jù),也無需進(jìn)行翻譯,這被稱為“零樣本遷移學(xué)習(xí)(zero-shot transfer learning)”。LASER 還允許我們通過在語言未知的表示空間內(nèi)將這些句子相互映射,來識別出在意義上相似的句子。
LASER 開源地址:https://github.com/facebookresearch/LASER
對于希望系統(tǒng)可以增加理解語言數(shù)量的研究人員來說,這樣的跨語言技術(shù)提供了一種更具可擴(kuò)展性的替代方案,可以嘗試收集和注釋每種語言的數(shù)據(jù)。這種方法還允許我們挖掘用于機(jī)器翻譯的并行訓(xùn)練數(shù)據(jù),并且對于低數(shù)據(jù)資源語言(我們的訓(xùn)練示例較少)特別有用。識別跨語言的類似句子有助于同時捕獲多種語言的類似違規(guī)行為。為了生成每個句子級別的嵌入,我們首先使用字節(jié)對編碼表示給定句子的單詞,然后使用一個五層雙向 LSTM(長短期記憶)模型,然后是最大池化(max pooling)操作(因為句子包含任意字?jǐn)?shù))。
通過大規(guī)模訓(xùn)練這個系統(tǒng)——93 種語言,屬于 30多個語系并用 22 種不同的腳本編寫,我們能夠獲得與語言無關(guān)的句子嵌入,并且能夠支持自動檢測違規(guī)行為的這種能力尤其與低資源語言相關(guān)。
這種方法與我們的跨語言預(yù)訓(xùn)練研究一起,將提高我們以多種語言處理仇恨言論、欺凌和其他違規(guī)行為的能力,而無需額外語言標(biāo)記的訓(xùn)練數(shù)據(jù)。這兩種技術(shù)都將支持我們現(xiàn)有的多語言詞匯嵌入,它將來自不同語言的相似詞語映射到同一個空間(與 LASER 的句子級別映射相反)。這些嵌入已經(jīng)部署到生產(chǎn)中,用于包括識別違規(guī)內(nèi)容等廣泛的跨語言理解任務(wù)。
二、全景 FPN:圖片和視頻理解的最新技術(shù)
人們在我們的平臺上分享了數(shù)十億張圖片,那么理解其中的內(nèi)容對保護(hù)人們的安全至關(guān)重要。即使是簡單的像素分析可能足以讓我們的系統(tǒng)識別圖片中的單個對象,我們甚至可以進(jìn)一步推動業(yè)界領(lǐng)先的 CV 能力,并讓系統(tǒng)了解這些對象之間的聯(lián)系,以判斷違規(guī)行為。
(注:近日,基于何愷明團(tuán)隊提出的“全景分割”任務(wù)開始變得熱門,今年1月他們公布了《Panoptic Feature Pyramid Networks》論文。)
論文鏈接:https://arxiv.org/abs/1901.02446
我們的系統(tǒng)擅長識別圖片前景中的對象,例如狗或球,但目前還是難以理解面積較大,包含較少像素集合的構(gòu)成圖片的背景。使用全景 FPN(Panoptic FPN)這種新的對象識別方法,我們可以在一個統(tǒng)一的神經(jīng)結(jié)構(gòu)上同時執(zhí)行實例分割任務(wù)(用于前景)和語義分割任務(wù)(用于背景)。
多年來,F(xiàn)acebook 的 CV 系統(tǒng)逐漸識別到更多的圖像組件,現(xiàn)在可以通過單個網(wǎng)絡(luò)檢測前景和背景中的對象。這樣可以更好地理解照片的整體背景,以及更高計算效率的圖像識別。
Facebook 的實踐結(jié)果表明,與只做一個或其他網(wǎng)絡(luò)相比,全景 FPN 幾乎可以將執(zhí)行實例和語義分段所需的整體計算效率提升一半。在實踐中能使系統(tǒng)更好地了解圖像,這在判定是否違規(guī)時很重要。但是這項工作也會影響其他應(yīng)用,例如可能會改變我們用來向視障人士描述圖像的自動轉(zhuǎn)換文字功能。
與圖片中的查找違規(guī)行為相比,在視頻中的難度是數(shù)量級的。理解視頻意味著要考慮構(gòu)成給定幀序列的大量圖像和該序列中所表示的移動,同時還要處理非視覺輸入,例如音頻。
由于存在這樣的挑戰(zhàn),視頻理解還處于起步階段。我們在準(zhǔn)確性和效率方面始終如一地在推動最先進(jìn)的技術(shù),部分是通過將系統(tǒng)的注意力和訓(xùn)練集中在最相關(guān)的數(shù)據(jù)上。例如,通過將 3D 卷積分解為 2D 和 1D 卷積(分別與給定視頻序列中的空間和時間相關(guān)),我們減少了可訓(xùn)練參數(shù)的數(shù)量?;蛘撸覀兛梢员3窒嗤瑪?shù)量的參數(shù)并提高準(zhǔn)確性。總之使用此框架,我們可以找到準(zhǔn)確性和效率之間的平衡點。
不同于將給定視頻中的每一幀傳遞給時空卷積神經(jīng)網(wǎng)絡(luò),我們的顯著性采樣方法是將包含顯著性動作的視頻隔離開來進(jìn)行進(jìn)一步地處理。
為了理解視頻中發(fā)生的事情,我們將其分解為短片段(每個片段由少量連續(xù)幀組成),并通過我們最新的時空模型發(fā)送一小組連續(xù)幀。然后,我們可以匯總這些信息預(yù)測整個視頻內(nèi)容。
然而,在許多視頻中,只有少數(shù)片段具有針對特定任務(wù)的顯著性信息,其余的片段則是冗余的或不相關(guān)的,例如檢測欺凌視頻。因此,為了進(jìn)一步提高視頻中發(fā)現(xiàn)可操作事件的速度和效率,我們創(chuàng)建了一個顯著性采樣器。該系統(tǒng)經(jīng)過訓(xùn)練,專注于包含特定行為的部分,然后更詳細(xì)地處理這些幀集。這種更有針對性的分析和訓(xùn)練能更快、更準(zhǔn)確地視頻理解內(nèi)容。
三、將標(biāo)簽用于視頻理解的創(chuàng)紀(jì)錄準(zhǔn)確性
我們還開發(fā)了一種不同的方法為識別行為設(shè)定了新的技術(shù)方法,包括指出內(nèi)容違規(guī)的行為。
這種技術(shù)直接建立在我們?nèi)ツ暝?F8 大會(2018年5月)上公布的研究成果上,該研究使用帶有標(biāo)簽的數(shù)十億公共圖像來訓(xùn)練網(wǎng)絡(luò),并且能夠在圖像識別任務(wù)中擊敗最先進(jìn)的技術(shù)。在我們的新方法中,帶標(biāo)簽的數(shù)據(jù)充當(dāng)了弱監(jiān)督數(shù)據(jù),這意味著標(biāo)記的訓(xùn)練示例是可使用的,但這并沒有完全監(jiān)督的精確度。
與專門用于訓(xùn)練 AI 模型的標(biāo)簽相比,這樣得到的注釋噪音大且不精確。但是,這種方法所提供的標(biāo)記示例的數(shù)量表明,我們可以基于前所未有的大量訓(xùn)練數(shù)據(jù),而不是通過基于弱監(jiān)督的訓(xùn)練數(shù)據(jù)來顯著改善視頻理解。
在這種情況下,我們訓(xùn)練的最大數(shù)據(jù)集包含超過 6500 萬個帶有標(biāo)簽的公共 Instagram 視頻。相比之下,當(dāng)前的行動分類數(shù)據(jù)集僅包含幾十萬個視頻。使用這些視頻帶來的技術(shù)挑戰(zhàn)與十億次數(shù)量級別的圖像識別工作類似,例如必須在硬件上進(jìn)行分布式訓(xùn)練,也有新的挑戰(zhàn),包括處理通常只適用于視頻一小部分的標(biāo)簽的事實,比如一個標(biāo)記為#wedding 和 #dance 的視頻可能只是一對新婚夫婦在長時視頻中花了幾秒鐘在跳舞。
盡管存在這種隨機(jī)噪聲問題,但我們發(fā)現(xiàn)內(nèi)容的多樣性和示例的絕對規(guī)模抵消了標(biāo)簽噪聲。通過使用我們的顯著性采樣器,視頻識別模型在三個主要的視頻分類基準(zhǔn)測試中實現(xiàn)了最先進(jìn)的精度。這包括在將視頻分類為 400 種不同的人類行為類別之一時,在動力學(xué)數(shù)據(jù)集上達(dá)到 82.8% 的準(zhǔn)確度,這比其他最為先進(jìn)技術(shù)的準(zhǔn)確度提高了 5.1%,而錯誤率相對減少超過了 25%。我們已將這種方法應(yīng)用于生產(chǎn)系統(tǒng),將欺凌檢測率提高到了近85%。
通過將音頻合并到此模型也可以獲得更好的結(jié)果。我們的實驗證明,與使用相同架構(gòu)和訓(xùn)練過程的視覺模型相比,我們的音視頻模型在 AudioSet 音頻事件檢測基準(zhǔn)測試中創(chuàng)造了新的記錄——在檢測褻瀆性內(nèi)容和成人內(nèi)容方面的準(zhǔn)確性提高了20%。
四、自監(jiān)督方法在內(nèi)容理解的應(yīng)用前景
語言、圖像和視頻理解方面是 Facebook 持續(xù)努力的一部分。但當(dāng)我們著眼于保持平臺安全這一長期任務(wù)時,創(chuàng)建可以使用大量未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練的系統(tǒng)將變得越來越重要。
我們今天的大部分系統(tǒng)都依賴于有監(jiān)督的培訓(xùn),但這可能會導(dǎo)致一系列的訓(xùn)練挑戰(zhàn),例如在缺乏訓(xùn)練數(shù)據(jù),在收集和標(biāo)記示例以從頭開始構(gòu)建新分類器的長訓(xùn)練時間的情況下,由于新的內(nèi)容違規(guī)事件迅速發(fā)酵,如選舉等事件已成為有害內(nèi)容的爆發(fā)點,我們有責(zé)任加快系統(tǒng)的開發(fā),從而提高響應(yīng)能力。
一個可能的答案是 Facebook 首席 AI 科學(xué)家 Yann LeCun 多年來一直在討論的自監(jiān)督方法,而不僅僅依賴于以人類訓(xùn)練為目的標(biāo)記數(shù)據(jù),或者甚至依賴于帶有公共標(biāo)簽的圖像和視頻的弱監(jiān)督數(shù)據(jù)。自監(jiān)督方法能夠利用完全無標(biāo)記的數(shù)據(jù),該方法具有通用性,使自監(jiān)督系統(tǒng)能夠使用少量標(biāo)記數(shù)據(jù)來概括不可見的任務(wù),并可能使我們更接近實現(xiàn)人類級別智能的 AI 技術(shù)目標(biāo)。
基本上,F(xiàn)acebook AI 團(tuán)隊的曾經(jīng)研究策略最近都轉(zhuǎn)化成了能提供強(qiáng)大效果的系統(tǒng),一些自監(jiān)督的語言理解模型持續(xù)領(lǐng)先于使用傳統(tǒng)的、完全監(jiān)督方法訓(xùn)練的系統(tǒng)。
具體來說,我們開發(fā)了一些模型,通過訓(xùn)練信號的其余部分來學(xué)習(xí)預(yù)測給定信號的一部分。例如,我們訓(xùn)練其中一個自監(jiān)督系統(tǒng),通過掩蓋句子中的單詞來更好地理解語言,即使模型之前從未見過那個確切的句子。
給出一個像“A conversation about ________ and human connection”這樣的短句,人們可以很容易地猜出幾個可以填補(bǔ)空白的詞,但是這項任務(wù)對 AI 來說更具挑戰(zhàn)性。這是一個有用且可擴(kuò)展的訓(xùn)練任務(wù)的基礎(chǔ),類似于 Google 同時引入的 BERT 模型來解決任務(wù)。我們可以依次清空一個句子的每個單詞,并對十億個單詞重復(fù)這個過程,這個過程當(dāng)然無需標(biāo)記。
通過分別分析屏蔽字左側(cè)和右側(cè)句子的上下文語境,我們的雙向變換模型能夠在不依賴標(biāo)記數(shù)據(jù)的情況下預(yù)測丟失的字詞。
為了預(yù)測每個隱藏的單詞,我們使用雙向變換網(wǎng)絡(luò)(bidirectional transformer networks),通過計算句子的前后狀態(tài)(掩碼右側(cè)和左側(cè)的單詞)來模擬句子的其余部分,然后組合這些表示來確定中心詞。一旦系統(tǒng)以這種未標(biāo)記的方式進(jìn)行了訓(xùn)練,我們就可以使用標(biāo)記數(shù)據(jù)對特定任務(wù)進(jìn)行微調(diào),例如用來識別仇恨言論。
在內(nèi)部測試時,這種自監(jiān)督和有監(jiān)督訓(xùn)練的混合使我們能夠以少 10 倍的數(shù)據(jù)訓(xùn)練出比肩完全監(jiān)督模型能獲得的準(zhǔn)確度,或者使用相同數(shù)量的訓(xùn)練數(shù)據(jù),相比完全監(jiān)督模型能相對減少 20% 的誤差。
我們還使用自監(jiān)督訓(xùn)練來改善語音識別能力。我們創(chuàng)建了一個音頻片段幾個版本,并且更改了一些音頻的部分內(nèi)容,而模型必須僅使用原始音頻作為輸入來確定哪個版本是正確的,同樣沒有轉(zhuǎn)錄或使用其他標(biāo)簽。
對于這種方法,我們使用兩個堆疊在一起的網(wǎng)絡(luò):將原始音頻映射到較低時頻的特征表示的編碼器網(wǎng)絡(luò),以及預(yù)測正確音頻的上下文網(wǎng)絡(luò)。為了使任務(wù)更有效地進(jìn)行訓(xùn)練,我們通過上下文網(wǎng)絡(luò)進(jìn)一步預(yù)測未來,使預(yù)測問題變得愈加困難。
在使用兩個卷積神經(jīng)網(wǎng)絡(luò)對原始的、未標(biāo)記的音頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練模型后,系統(tǒng)優(yōu)化后以解決一項越來越困難的任務(wù):預(yù)測不同時間的音頻,箭頭表示未來進(jìn)一步的預(yù)測。
一旦這種預(yù)訓(xùn)練的、自監(jiān)督模型能很好的理解語音,我們就會使用少量的監(jiān)督數(shù)據(jù):80 小時的轉(zhuǎn)錄音頻來訓(xùn)練最終的語音識別系統(tǒng)。我們的系統(tǒng)使用的標(biāo)記數(shù)據(jù)比最佳系統(tǒng) Deep Speech 2 少了 150 倍,同時將字詞錯誤率降低了 9%。這項工作使我們能夠快速將語音識別功能擴(kuò)展到更多語言,并且每種語言都不需要大量的轉(zhuǎn)錄語音。
這兩種方法都側(cè)重于語音和語言理解,但它們也代表了我們?nèi)绾翁剿魃踔两Y(jié)合不同程度的數(shù)據(jù)監(jiān)督的更基礎(chǔ)的方法轉(zhuǎn)變。這包括利用大量未標(biāo)記的訓(xùn)練數(shù)據(jù),以及使用少量標(biāo)記數(shù)據(jù)來釋放自監(jiān)督系統(tǒng)的巨大潛力。在所有與人工智能相關(guān)的任務(wù)中,強(qiáng)調(diào)自監(jiān)督可以加速這些任務(wù),但沒有一項任務(wù)比提高使用我們產(chǎn)品的人的安全更重要。
-
圖像識別
+關(guān)注
關(guān)注
9文章
520瀏覽量
38274 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132655 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1275瀏覽量
24328
原文標(biāo)題:Yann LeCun推薦!自監(jiān)督學(xué)習(xí)、全景FPN...內(nèi)容平臺的四大技術(shù)指南
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論