諸如圖像、文本、視頻等復(fù)雜數(shù)據(jù)類型的語義表征 (也稱為語義嵌入) 已成為機(jī)器學(xué)習(xí)的核心問題,并在機(jī)器翻譯、語言模型、GAN、域遷移等領(lǐng)域中出現(xiàn)。這些都會(huì)涉及學(xué)習(xí)表征函數(shù),即每個(gè)數(shù)據(jù)點(diǎn)的表征信息都是“高級(jí)別” (保留語義信息,同時(shí)丟棄低級(jí)細(xì)節(jié),如圖像中單個(gè)像素的顏色等) 和“緊湊“ (低維)。衡量語義表征好壞的一個(gè)標(biāo)準(zhǔn)是,它能夠通過少量標(biāo)記數(shù)據(jù),使用線性分類器 (或其他低復(fù)雜度分類器) 來解決它們,從而大大簡化新分類任務(wù)的求解過程。
使用未標(biāo)記數(shù)據(jù)進(jìn)行無監(jiān)督表示學(xué)習(xí)研究是當(dāng)前該領(lǐng)域最感興趣的一個(gè)研究話題。一種常用的方法是使用類似于 word2vec 算法進(jìn)行詞嵌入 (word embedding),這種方法適用于各種數(shù)據(jù)類型,如社交網(wǎng)絡(luò)、圖像、文本等數(shù)據(jù)。
那么,為什么這些方法能夠適用于如此多樣化環(huán)境中?這得益于一種新的理論框架 “A Theoretical Analysis of Contrastive Unsupervised Representation Learning” 的提出。作為該框架的聯(lián)合提出者,Misha Khodak 提出了一種非常簡單的假設(shè),因?yàn)轭愃?word2vec 算法需要適用于一些完全不同的數(shù)據(jù)類型,而這些數(shù)據(jù)無法共享一個(gè)通用的貝葉斯生成模型。(有關(guān)這個(gè)空間的生成模型例子在早期關(guān)于 RAND-WALK 模型的文章中有過描述。)因此,這個(gè)框架也提出了一些新方法,用于設(shè)計(jì)訓(xùn)練時(shí)的目標(biāo)函數(shù)變體。本篇文章將詳細(xì)解釋這些方法。
論文鏈接:https://arxiv.org/abs/1902.09229
語義表征學(xué)習(xí)
首先,是否存在良好且廣泛適用的表征呢?在計(jì)算機(jī)視覺等領(lǐng)域,答案是肯定的,因?yàn)樯疃染矸e神經(jīng)網(wǎng)絡(luò) (CNN) 在大型含多類別標(biāo)簽數(shù)據(jù)集 (如 ImageNet) 上以高精度訓(xùn)練時(shí),最終會(huì)學(xué)習(xí)得到非常強(qiáng)大而簡潔的表征信息。網(wǎng)絡(luò)的倒數(shù)第二層——輸入到最終的 softmax 層,可以在其他新的視覺任務(wù)中用作圖像的良好語義嵌入。(同樣,訓(xùn)練后網(wǎng)絡(luò)中的其他層也可以作為良好的嵌入)。實(shí)際上,使用這種通過在大型多類別數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練得到網(wǎng)絡(luò),將其作為其他任務(wù)的語義嵌入已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域研究中廣泛使用,這允許一些新的分類任務(wù)只需要非常少的標(biāo)記數(shù)據(jù),使用低復(fù)雜度分類器 (如線性分類器) 來解決。因此,嘗試通過未標(biāo)記的數(shù)據(jù)來學(xué)習(xí)語義嵌入信息,這已經(jīng)成為一條黃金準(zhǔn)則。
類似 word2vec 的方法:CURL
自 word2vec 方法取得成功以來,一些相似的方法也被用于學(xué)習(xí)諸如句子、段落、圖像和生物序列等數(shù)據(jù)的嵌入信息。所有這些方法都是基于一個(gè)關(guān)鍵性的想法:即利用相似數(shù)據(jù)點(diǎn)對 x、x+,并學(xué)習(xí)嵌入函數(shù) f 。嵌入函數(shù)是 f(x) 和 f(x+) 的內(nèi)積表示,通常高于 f(x) 和 f(x-) 的內(nèi)積和 (這里的 x- 是一個(gè)與 x 不相似的隨機(jī)數(shù)據(jù)點(diǎn))。在實(shí)踐中,尋找相似數(shù)據(jù)點(diǎn)通常需要使用一些啟發(fā)式方法,常用的方法是共現(xiàn) (co-occurrences)。例如,在一個(gè)大型的文本語料庫中,相似數(shù)據(jù)點(diǎn)可以通過連續(xù)的句子、視頻剪輯中的相鄰幀,同一圖像中的不同補(bǔ)丁等找到。
這種方法的一個(gè)代表性例子是來自 Logeswaran 和 Lee 提出的 Quick Thoughts (QT),這是當(dāng)前許多無監(jiān)督文本嵌入任務(wù)中最先進(jìn)的方法。對于一個(gè)大型文本語料庫中,為了學(xué)習(xí)一個(gè)表征函數(shù) f,QT 將損失函數(shù)最小化,其數(shù)學(xué)表達(dá)式如下:
這里,(x,x+) 表示的是連續(xù)句子中語義相似的數(shù)據(jù)點(diǎn),x- 代表一個(gè)隨機(jī)的負(fù)樣本。例如,對于圖像而言, x 和 x+ 可能是視頻中的相鄰幀。對于文本而言,兩個(gè)連續(xù)的句子是選擇相似數(shù)據(jù)點(diǎn)的良好選擇。例如,以下是維基百科中對 word2vec 進(jìn)行解釋的的兩個(gè)連續(xù)句子案例:“High frequency words often provide little information”和“Words with frequency above a certain threshold may be subsampled to increase training speed”。顯然,這兩個(gè)句子的相似數(shù)據(jù)點(diǎn),比起任意隨機(jī)得到的句子對更多,學(xué)習(xí)者正好可以利用這一點(diǎn)。因此,從現(xiàn)在開始使用對比度無監(jiān)督表示學(xué)習(xí) (CURL) 來指代那些用于尋找相似數(shù)據(jù)對的方法,而本文的目標(biāo)就是要分析這些方法。
需要一個(gè)新的框架
標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)框架都涉及最小化一些損失函數(shù),且當(dāng)在訓(xùn)練數(shù)據(jù)點(diǎn)和測試數(shù)據(jù)點(diǎn)上的平均損失大致相同時(shí),則認(rèn)為模型的學(xué)習(xí)是成功的 (或具有泛化能力)。然而,在對比學(xué)習(xí)(contrastive learning,CL )中,測試時(shí)使用的目標(biāo)函數(shù)通常與訓(xùn)練的目標(biāo)函數(shù)不同:泛化誤差并不能作為解決這類問題的正確方法。
早期在這方面所使用的方法包括核學(xué)習(xí) (kernel learning) 和半監(jiān)督學(xué)習(xí) (semi-supervised learning),但在訓(xùn)練時(shí)通常至少需要一些帶標(biāo)簽的數(shù)據(jù),這些樣本來自未來感興趣的分類任務(wù)。使用簡單的設(shè)置也可以構(gòu)建帶生成模型的貝葉斯方法,但這種方法已被證明難以解決諸如圖像和文本等復(fù)雜數(shù)據(jù)問題。此外,上面所說的類似 word2vec 的簡單方法似乎無法像貝葉斯優(yōu)化器那樣,以清楚直接的方式操作,且同時(shí)適用于一些不同的數(shù)據(jù)類型。
因此,本文通過提出一個(gè)新的框架來解決這個(gè)問題,該框架規(guī)范地定義了 “語義相似” 的概念,這是其他算法所沒有的。此外,它還進(jìn)一步說明為什么對比學(xué)習(xí) 能夠提供良好的表征,以及在這種情況下一個(gè)良好表征的意義。
框架
顯然,對比學(xué)習(xí)中使用隱式 / 啟發(fā)式定義的相似性概念,以某種方式與下游任務(wù) (downstream tasks) 相關(guān)聯(lián)。例如,相似性帶有強(qiáng)烈的隱含意義,即在許多下游任務(wù)中 “相似對” 往往被分配相同的標(biāo)簽 (雖然這本身沒有硬性保證)。而本文提出了一種極簡的框架來簡單形式化這種相似性概念。為了方便說明,以下將數(shù)據(jù)點(diǎn)稱為“圖像”。
語義相似性
我們假設(shè)大自然有許多類圖像,所有類集合 C 有一個(gè)度量標(biāo)準(zhǔn) ρ。因此,當(dāng)需要選擇一個(gè)類時(shí),我們將以概率 ρ(c) 選擇類別 c。每個(gè)類別 c 在圖像上都具有一個(gè)相關(guān)分布 Dc,即在需要提供類別 c 的示例 (如選擇類別“狗”),則它將以概率 Dc (x) 選擇圖像 x。請注意,在這里類別之間可以有任意的重疊,也可以互相獨(dú)立不重疊。為了公式化語義相似性的概念,在這里假設(shè)當(dāng)需要提供相似圖像時(shí),使用度量 ρ 從集合 C 中選擇一個(gè)類別 c+,然后選擇兩個(gè)來自 Dc + 的獨(dú)立同分布樣本 x,x+。隨后再從度量 ρ 中選擇另一個(gè)類別 c-,并從 Dc- 中隨機(jī)挑選不相似樣本 x-。
如下式,表征學(xué)習(xí)訓(xùn)練的目標(biāo)函數(shù)使用早期的 QT 目標(biāo),但基于當(dāng)前的框架繼承了以下解釋:
值得注意的是,函數(shù)類 F 是一個(gè)任意的深度網(wǎng)絡(luò)結(jié)構(gòu)。該架構(gòu)將圖像映射到嵌入空間 (神經(jīng)網(wǎng)絡(luò)沒有最后一層),并通過梯度下降 / 反向傳播法來學(xué)習(xí) f。當(dāng)然,目前還沒有理論可以解釋復(fù)雜的深度網(wǎng)絡(luò)在什么時(shí)候算訓(xùn)練成功,因此,這里提出的框架會(huì)假設(shè)當(dāng)梯度下降已經(jīng)導(dǎo)致某些表征 f 達(dá)到很低的損失時(shí)認(rèn)為達(dá)到了最優(yōu)狀態(tài),并研究它在下游分類任務(wù)中的表現(xiàn)。
測試表征
用什么來定義一個(gè)好的表征呢?這里我們假設(shè)通過它,使用一個(gè)線性分類器解決二進(jìn)制分類任務(wù),來衡量表征的質(zhì)量。(此外,本文還研究了下游任務(wù)中 k 類分類任務(wù)的情況)。那么如何選擇這個(gè)二進(jìn)制分類任務(wù)?我們根據(jù)度量 ρ 隨機(jī)選取兩個(gè)類別 c1、c2,并根據(jù)相關(guān)的概率分布 Dc1、Dc2 為每個(gè)類別選擇數(shù)據(jù)點(diǎn)。然后使用該表征,通過邏輯回歸來解決該二進(jìn)制任務(wù):即找到兩個(gè)向量 w1、w2 來最小化以下?lián)p失。
這里用二分類任務(wù)的平均損失來衡量表征的質(zhì)量:
還值得注意的是,對于潛在類別中的未標(biāo)記數(shù)據(jù),將以相同類別在分類任務(wù)中出現(xiàn)。這允許我們可以公式化上面所提到的 “語義相似性” 的意義:即數(shù)據(jù)點(diǎn)更頻繁地出現(xiàn)在一起的類別,構(gòu)成了相關(guān)分類任務(wù)的類別。如果類別數(shù)很大的話,那么在無監(jiān)督訓(xùn)練時(shí)使用的數(shù)據(jù)可能不會(huì)在測試階段涉及。實(shí)際上,我們希望所學(xué)習(xí)的表征能夠?qū)δ切撛诘?、看不見的分類任?wù)有用。
無監(jiān)督學(xué)習(xí)的保證
該理論框架的理想結(jié)果是什么?假設(shè)我們固定一種類別的表征函數(shù) F,并可以通過 ResNet 50 結(jié)構(gòu),選擇結(jié)構(gòu)層尺寸來計(jì)算它。
雖然可以使用 Rademacher complexity arguments 來控制學(xué)習(xí)近似最小化器時(shí)所需的未標(biāo)記數(shù)據(jù)對的數(shù)量,但實(shí)際上,這種理想環(huán)境中的原理是不可能實(shí)現(xiàn)的。因?yàn)槲覀兛梢哉故疽粋€(gè)簡單類別 F,它的對比目標(biāo)無法產(chǎn)生可媲美最好類別所產(chǎn)生的表征。無需驚訝,這只是表明:想要實(shí)現(xiàn)這樣一個(gè)理想結(jié)果,需要比上述結(jié)果做出更多的假設(shè)。
相反,本文所提出的框架證明,當(dāng)對比學(xué)習(xí)結(jié)束時(shí)無監(jiān)督損失恰好較小,則所得到的表征在下游的分類任務(wù)中能夠表現(xiàn)良好。
這表明無監(jiān)督損失函數(shù)可以被視為是使用線性分類方法解決下游任務(wù)時(shí)的一種性能替代,因此對其進(jìn)行最小化是有意義的。此外,在未來的下游任務(wù)中,線性分類器學(xué)習(xí)只需要少數(shù)帶標(biāo)簽的樣本數(shù)據(jù)。因此,所提出的框架可以為對比學(xué)習(xí)提供保證,同時(shí)也能夠突出它所提供的在標(biāo)簽樣本復(fù)雜性方面的優(yōu)勢。
鏈接:https://arxiv.org/abs/1902.09229
理論分析的擴(kuò)展
這個(gè)理論框架不僅能夠推理 (1) 成功的變體,還能夠設(shè)計(jì)理論上新的無監(jiān)督目標(biāo)函數(shù)。
先驗(yàn)(priori),可以想象是 (1) 中關(guān)于對數(shù)和指數(shù)的一些信息論解釋;同時(shí),將函數(shù)形式與用于下游分類任務(wù)的邏輯回歸聯(lián)系起來。類似地,如果通過 hinge loss 進(jìn)行分類的話,那么在 (2) 中將使用 hinge-like loss 作為不同的無監(jiān)督損失。例如,Wang 和 Gupta 論文中的目標(biāo)函數(shù)被用于從視頻中學(xué)習(xí)圖像表征。此外,通常在實(shí)踐中,k> 1 個(gè)負(fù)樣本與每個(gè)正樣本 (x,x+) 形成對比,而無監(jiān)督的目標(biāo)函數(shù)看起來像 k 類交叉熵?fù)p失形式。對于這種設(shè)置,事實(shí)上監(jiān)督損失是與 (2) 中類似的 k + 1 類的分類損失。
最后,在相似數(shù)據(jù)可用時(shí),該框架提供了用于設(shè)計(jì)新的無監(jiān)督目標(biāo)的方法 (如段落中的句子)。將 (1) 中的 f(x+) 和 f(x-) 分別替換為正、負(fù)樣本表征的平均值,那么將得到一個(gè)新的目標(biāo)函數(shù),它在實(shí)踐中具有更強(qiáng)的保證和更好的性能。最后,本文將通過實(shí)驗(yàn)來驗(yàn)證該變體的有效性,具體結(jié)果如下。
實(shí)驗(yàn)
接下來,我們將通過一些對照實(shí)驗(yàn)來驗(yàn)證所提出的理論。由于缺乏對多類別文本的規(guī)范說明,實(shí)驗(yàn)中使用一個(gè)新的含 3029 個(gè)類別的標(biāo)簽數(shù)據(jù)集,這些類別是來自維基百科網(wǎng)站上 3029 篇文章,每個(gè)數(shù)據(jù)點(diǎn)對應(yīng)這些文章中 200 條句子中的一條。所學(xué)習(xí)的表征信息將在隨機(jī)的二進(jìn)制分類任務(wù)上進(jìn)行測試,該分類任務(wù)涉及兩篇文章,其中數(shù)據(jù)點(diǎn)對應(yīng)的類別是其所屬的兩篇文章中的一篇 (同樣,以這種方式定義 10 分類任務(wù))。在訓(xùn)練表征時(shí),將保持測試任務(wù)的數(shù)據(jù)點(diǎn)。句子表征 F 是基于門控遞歸單元 (GRU) 的簡單多層結(jié)構(gòu)。
基于上述的黃金標(biāo)準(zhǔn),在這里通過有監(jiān)督地訓(xùn)練 3029 類分類器并在最終的 softmax 層輸出之前層所學(xué)習(xí)的表征得到最終的結(jié)果。
而根據(jù)所提出的理論,無監(jiān)督方法用于生成相似的數(shù)據(jù)點(diǎn)對:這些相似的數(shù)據(jù)點(diǎn)只是從同一篇文章中采樣得到的句子對。隨后通過最小化上述的無監(jiān)督損失目標(biāo)來學(xué)習(xí)表征。
在上表中突出顯示的部分表明,無監(jiān)督表征與在 k 分類監(jiān)督任務(wù)上 (k = 2,10) 所習(xí)得的表征相當(dāng)。
此外,即使在所提出的理論中沒有涉及,該表征也能夠在完整的多分類問題上表現(xiàn)出色:即每個(gè)類別的無監(jiān)督表征均值 (質(zhì)心) 是能夠在 k 分類監(jiān)督任務(wù)中表現(xiàn)良好。而所得到的無監(jiān)督表征和監(jiān)督表征都是正確的。
此外,其他的實(shí)驗(yàn)進(jìn)一步研究負(fù)樣本數(shù)量和較大塊相似數(shù)據(jù)點(diǎn)的影響,包括 CIFAR-100 圖像數(shù)據(jù)集上的實(shí)驗(yàn)等。
結(jié)論
盡管對比學(xué)習(xí)是一種眾所周知的直觀算法,但是否真正有效卻一直還未在實(shí)踐中得到證實(shí)。本文所提出的理論框架,為使用此類算法學(xué)習(xí)表征提供了保證。在闡述這些算法的同時(shí),該框架還能進(jìn)一步提出并分析它的變體,并提供相應(yīng)的解釋證明,以便形成并探索更強(qiáng)保證的新假設(shè)。此外,基于該框架,還能進(jìn)行一些擴(kuò)展,包括對潛在類別強(qiáng)加一個(gè)度量結(jié)構(gòu),元學(xué)習(xí) (meta-learning) 與遷移學(xué)習(xí) (transfer learning) 之間建立聯(lián)系等。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4773瀏覽量
100889 -
圖像
+關(guān)注
關(guān)注
2文章
1087瀏覽量
40498 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4338瀏覽量
62738
原文標(biāo)題:語義表征的無監(jiān)督對比學(xué)習(xí):一個(gè)新理論框架
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論