亚洲夜夜性无码,一级做a爱无码性色永久免费,91精品国产肉丝高跟在线

自監(jiān)督學(xué)習(xí)讓 AI 系統(tǒng)能夠從很少的數(shù)據(jù)中學(xué)習(xí)知識(shí)，這樣才能識(shí)別和理解世界上更微妙、更不常見的表示形式。

近年來，AI 產(chǎn)業(yè)在開發(fā)“可以從大量經(jīng)過細(xì)致標(biāo)記的數(shù)據(jù)中學(xué)習(xí)的 AI 系統(tǒng)”這個(gè)研究領(lǐng)域上取得了巨大進(jìn)步。這種監(jiān)督學(xué)習(xí)的范式在訓(xùn)練專業(yè)模型方面有著非常好的成績，這類模型在完成它們針對(duì)訓(xùn)練的任務(wù)時(shí)表現(xiàn)頗為出色。不幸的是，只靠監(jiān)督學(xué)習(xí)，人工智能領(lǐng)域的前景是有局限的。

監(jiān)督學(xué)習(xí)是構(gòu)建更智能的通用模型道路上面臨的一個(gè)瓶頸。這種通用模型可以無需大量標(biāo)記數(shù)據(jù)就執(zhí)行多種任務(wù)并獲得新技能。實(shí)際上，想要標(biāo)記世界上的所有事物是不可能做到的。還有一些任務(wù)根本沒有足夠的標(biāo)記數(shù)據(jù)，例如針對(duì)一些資源匱乏的語言的翻譯系統(tǒng)。如果 AI 系統(tǒng)能夠超越訓(xùn)練數(shù)據(jù)集所指定內(nèi)容的范疇，對(duì)現(xiàn)實(shí)做出更深入、更細(xì)致的理解，那么它們就會(huì)有更多用途，并最終發(fā)展出更接近人類的 AI 智能。

在嬰兒時(shí)期，我們主要通過觀察來了解世界是如何運(yùn)轉(zhuǎn)的。我們學(xué)習(xí)諸如事物恒久性和重力之類的概念，從而形成了關(guān)于世界中各種事物的通用預(yù)測模型。隨著我們成長，我們開始觀察世界，對(duì)其采取行動(dòng)，再次觀察并建立假設(shè)，以通過嘗試和錯(cuò)誤來解釋我們的行為是如何改變環(huán)境的。

一個(gè)可行的假設(shè)是，關(guān)于世界的通行知識(shí)，或者說常識(shí)，構(gòu)成了人類和動(dòng)物具備的生物智能的主要基礎(chǔ)。這種常識(shí)能力對(duì)于人類和動(dòng)物來說都是天然存在的，但是自 AI 研究起步以來，它一直都是一項(xiàng)未解決的挑戰(zhàn)。從某種意義上說，常識(shí)就是人工智能領(lǐng)域的暗物質(zhì)。

常識(shí)可以幫助人們學(xué)習(xí)新技能，而無需為每項(xiàng)任務(wù)都做大量的教學(xué)指導(dǎo)。例如，我們只需向小孩子展示幾張母牛的畫像，他們最后就能識(shí)別出他們看到的任何母牛。相比之下，受監(jiān)督學(xué)習(xí)訓(xùn)練的 AI 系統(tǒng)需要許多母牛圖像的樣本，即便如此也可能無法識(shí)別出特殊情況下的母牛（例如躺在沙灘上的牛）。

在幾乎沒有監(jiān)督的情況下，人們是如何在大約 20 個(gè)小時(shí)的練習(xí)中學(xué)會(huì)駕駛汽車的呢？相比之下，全自動(dòng)駕駛系統(tǒng)為什么需要?jiǎng)佑梦覀冏顑?yōu)秀的 AI 系統(tǒng)，接受來自人類駕駛員的數(shù)千小時(shí)數(shù)據(jù)的訓(xùn)練？簡單的答案是，人類依賴的是他們之前獲得的有關(guān)世界運(yùn)作方式的背景知識(shí)。

我們?nèi)绾巫寵C(jī)器也能做到這一點(diǎn)呢？

我們相信，自監(jiān)督學(xué)習(xí)（self-supervised learning，SSL）是建立這種背景知識(shí)，并在 AI 系統(tǒng)中建立一種近似常識(shí)形式的最有前途的方法之一。

自監(jiān)督學(xué)習(xí)讓 AI 系統(tǒng)能夠從很少的數(shù)據(jù)中學(xué)習(xí)知識(shí)，這樣才能識(shí)別和理解世界上更微妙、更不常見的表示形式。自監(jiān)督學(xué)習(xí)在自然語言處理（NLP）領(lǐng)域取得了顯著的成就，包括 Collobert-Weston 2008 模型、Word2Vec、GloVE、fastText，以及最近的 BERT、RoBERTa、XLM-R 等成果。與僅以監(jiān)督方式做訓(xùn)練的系統(tǒng)相比，以這種方式進(jìn)行預(yù)訓(xùn)練的系統(tǒng)所提供的性能要高得多。

我們最新的研究項(xiàng)目 SEER 利用了 SwAV 等方法，在一個(gè)包含十億張隨機(jī)未標(biāo)記圖像的大型網(wǎng)絡(luò)上做預(yù)訓(xùn)練，進(jìn)而在各種視覺任務(wù)集上獲得了最頂尖的準(zhǔn)確性水平。這一進(jìn)展表明，自監(jiān)督學(xué)習(xí)也可以勝任復(fù)雜現(xiàn)實(shí)環(huán)境中的 CV 任務(wù)。

在這篇文章中，我們會(huì)向大家分享為什么自監(jiān)督學(xué)習(xí)可能有助于解鎖智能研究領(lǐng)域的暗物質(zhì)，以及 AI 產(chǎn)業(yè)下一個(gè)前沿領(lǐng)域的細(xì)節(jié)。我們還將重點(diǎn)介紹關(guān)于 AI 系統(tǒng)中自監(jiān)督學(xué)習(xí)和推理的一些最有希望的新方向，包括在不確定環(huán)境下用于預(yù)測的基于能量的模型、聯(lián)合嵌入方法和潛在變量架構(gòu)。

自監(jiān)督學(xué)習(xí)是預(yù)測性學(xué)習(xí)

自監(jiān)督學(xué)習(xí)是利用數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)來從數(shù)據(jù)本身獲取監(jiān)督信號(hào)的。一般來說，自監(jiān)督學(xué)習(xí)使用的技術(shù)是根據(jù)輸入的任何觀察到的或非隱藏的部分，來預(yù)測輸入的任何未觀察到的或隱藏的部分（或?qū)傩裕?。例如，?NLP 中很常見的例子是，我們可以隱藏句子的一部分，并從其余單詞中預(yù)測隱藏的單詞。我們還可以根據(jù)當(dāng)前幀（觀察到的數(shù)據(jù)）預(yù)測視頻中的過去幀或未來幀（隱藏?cái)?shù)據(jù)）。由于自監(jiān)督學(xué)習(xí)使用的是數(shù)據(jù)本身的結(jié)構(gòu)，因此它可以在多種共現(xiàn)模式（例如視頻和音頻）和大型數(shù)據(jù)集中利用各種監(jiān)督信號(hào)，而無需依賴標(biāo)記。

在自監(jiān)督學(xué)習(xí)中，訓(xùn)練系統(tǒng)以從輸入的可見部分（綠色）預(yù)測輸入的隱藏部分（灰色）

由于自監(jiān)督學(xué)習(xí)是由監(jiān)督信號(hào)推動(dòng)的，因此與之前使用的術(shù)語“無監(jiān)督學(xué)習(xí)”相比，“自監(jiān)督學(xué)習(xí)”這個(gè)術(shù)語更容易被接受。無監(jiān)督學(xué)習(xí)是一個(gè)定義不清、具有誤導(dǎo)性的術(shù)語，讓人覺得這種學(xué)習(xí)根本用不到監(jiān)督。實(shí)際上，自監(jiān)督學(xué)習(xí)并不是無監(jiān)督的，因?yàn)樗褂玫姆答佇盘?hào)比標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方法要多得多。

自監(jiān)督的語言與視覺學(xué)習(xí)

自監(jiān)督學(xué)習(xí)對(duì) NLP 產(chǎn)生了特別深遠(yuǎn)的影響，使我們能夠在大型的未標(biāo)記文本數(shù)據(jù)集上訓(xùn)練 BERT、RoBERTa、XLM-R 等模型，然后將這些模型用于下游任務(wù)。這些模型在自監(jiān)督階段進(jìn)行預(yù)訓(xùn)練，然后針對(duì)特定任務(wù)（例如分類文本主題）進(jìn)行微調(diào)。在自監(jiān)督的預(yù)訓(xùn)練階段，系統(tǒng)會(huì)顯示一段簡短的文本（通常包含 1，000 個(gè)單詞），其中一些單詞已被屏蔽或替換。系統(tǒng)經(jīng)過訓(xùn)練可以預(yù)測被屏蔽或替換的單詞。通過這種方式，系統(tǒng)學(xué)會(huì)了表示文本的含義，這樣它就可以很好地填寫“正確的”單詞，或者說在上下文中有意義的單詞。

預(yù)測輸入的缺失部分是 SSL 預(yù)訓(xùn)練的更常見的任務(wù)之一。要完成諸如“（）在非洲草原上追趕（）”這樣的句子，系統(tǒng)必須知道獅子或獵豹可以追捕羚羊或牛羚，但貓是在廚房而非熱帶草原中追逐老鼠的。訓(xùn)練的結(jié)果是，系統(tǒng)學(xué)會(huì)了如何表示單詞的含義、單詞在句子中的作用以及整段文本的含義。

但是，這些技術(shù)不能輕松擴(kuò)展到新領(lǐng)域，例如 CV 上。盡管 SSL 取得了令人鼓舞的早期成果，但它尚未在計(jì)算機(jī)視覺方面帶來我們?cè)?NLP 領(lǐng)域中看到的那種改進(jìn)（盡管這種情況將會(huì)改變）。

主要原因是，在圖像的預(yù)測任務(wù)中表示不確定性要比在單詞中表示不確定性困難得多。當(dāng)系統(tǒng)無法準(zhǔn)確預(yù)測缺失的單詞時(shí)（是“獅子”還是“獵豹”？），系統(tǒng)可以對(duì)詞匯表中所有可能的單詞打出分?jǐn)?shù)或概率：“獅子”“獵豹”和其他一些掠食者拿到高分，詞匯表中其他單詞的得分都較低。

規(guī)模這么大的訓(xùn)練模型還需要一種在運(yùn)行時(shí)和內(nèi)存方面都有很高效率，而又不影響準(zhǔn)確性的模型架構(gòu)。幸運(yùn)的是，F(xiàn)AIR 在架構(gòu)設(shè)計(jì)領(lǐng)域的最新創(chuàng)新催生了一個(gè)新的模型家族，名為 RegNets，可以完全符合這些需求。RegNet 模型都是 ConvNet，能夠擴(kuò)展到數(shù)十億甚至可能是數(shù)萬億的參數(shù)，并且可以進(jìn)行針對(duì)優(yōu)化以適應(yīng)不同的運(yùn)行時(shí)和內(nèi)存限制。

但是，當(dāng)我們預(yù)測視頻中丟失的幀或圖像中缺少的色塊時(shí)，我們不知道如何有效地表示不確定性。我們無法列出所有可能的視頻幀，也無法給每個(gè)可能的視頻幀打出分?jǐn)?shù)，因?yàn)樗鼈兊臄?shù)量是無限的。盡管這一問題限制了視覺領(lǐng)域中 SSL 帶來的性能改進(jìn)，但諸如 SwAV 之類的新 SSL 技術(shù)開始打破視覺任務(wù)中的準(zhǔn)確性記錄。SEER 系統(tǒng)就是一個(gè)最佳證明，它使用了一個(gè)經(jīng)過數(shù)十億樣本訓(xùn)練的大型卷積網(wǎng)絡(luò)。

對(duì)預(yù)測中的不確定性建模

為了更好地理解這一挑戰(zhàn)，我們首先需要了解與 NLP 相比，CV 中預(yù)測不確定性及其建模的方式。在 NLP 中，缺失單詞的預(yù)測工作需要計(jì)算詞匯表中每個(gè)可能單詞的預(yù)測分?jǐn)?shù)。雖然詞匯量本身很大，并且預(yù)測缺失單詞會(huì)帶來一些不確定性，但系統(tǒng)可以生成詞匯表中所有可能單詞的列表以及該位置可能出現(xiàn)單詞的概率估計(jì)。典型的機(jī)器學(xué)習(xí)系統(tǒng)會(huì)將預(yù)測問題視為分類問題，并使用巨大的所謂的 softmax 層來計(jì)算每個(gè)結(jié)果的分?jǐn)?shù)，進(jìn)而將原始分?jǐn)?shù)轉(zhuǎn)換為單詞的概率分布以實(shí)現(xiàn)上述目的。使用這種技術(shù)，只要存在有限數(shù)量的可能結(jié)果，預(yù)測的不確定性就可以通過所有可能結(jié)果的概率分布來表示。

相比之下，在 CV 領(lǐng)域中，預(yù)測視頻中“丟失”的幀、圖像中缺少的塊或語音信號(hào)中缺失片段的類似任務(wù)需要對(duì)高維連續(xù)對(duì)象做預(yù)測，而不是對(duì)離散結(jié)果做預(yù)測。給定的視頻幀后面可以跟隨的視頻幀有無數(shù)種合理的可能。系統(tǒng)不可能明確表示所有可能的視頻幀并為它們給出預(yù)測分?jǐn)?shù)。實(shí)際上，我們可能永遠(yuǎn)也沒有適當(dāng)?shù)乇硎靖呔S連續(xù)空間（例如所有可能視頻幀的集合）上概率分布的技術(shù)。

這似乎是一個(gè)棘手的問題。

自監(jiān)督方法的統(tǒng)一視角

基于能量的模型（energy-based model，EBM）這一統(tǒng)一框架為 SSL 提供了一種思路。EBM 是一種可訓(xùn)練的系統(tǒng)，在給定兩個(gè)輸入 x 和 y 的情況下，它能告訴我們它們彼此之間的不相容程度。例如，x 可以是一段短視頻剪輯，而 y 可以是另一個(gè)建議的視頻剪輯。機(jī)器會(huì)告訴我們 y 在多大程度上是 x 的良好后續(xù)。為了指出 x 和 y 之間的不相容程度，機(jī)器會(huì)生成一個(gè)稱為能量的數(shù)字。如果能量較低，則認(rèn)為 x 和 y 相互趨于相容；否則，x 和 y 被認(rèn)為是不相容的。

基于能量的模型（EBM）測量觀測值 x 與建議的預(yù)測值 y 之間的相容性。如果 x 和 y 相容，則能量很小。如果它們不相容，則能量較大。

EBM 的訓(xùn)練過程包括兩部分：（1）向其展示 x 和 y 相容的示例并對(duì)其進(jìn)行訓(xùn)練以產(chǎn)生一個(gè)較低的能量（2）找到一種方法來確保對(duì)于特定 x，與 x 不相容的 y 值產(chǎn)生的能量比與 x 相容的 y 值更高。第一部分很簡單，但第二部分就是困難所在。

為了進(jìn)行圖像識(shí)別，我們的模型將 x 和 y 這兩個(gè)圖像作為輸入。如果 x 和 y 是同一圖像的略有變形的版本，則用它們訓(xùn)練該模型以使其輸出產(chǎn)生低能量。例如，x 可以是一輛汽車的照片，而 y 可以是同一輛汽車的照片，只是在一天中的不同時(shí)間從稍有不同的位置拍攝的，因此相比 x 中的汽車，y 中的汽車可以移動(dòng)、旋轉(zhuǎn)、更大、更小，或者顯示的顏色和陰影略有不同。

聯(lián)合嵌入，暹羅網(wǎng)絡(luò)

一種特別適合這一用途的深度學(xué)習(xí)架構(gòu)是所謂的暹羅網(wǎng)絡(luò)或稱聯(lián)合嵌入（joint embedding）架構(gòu)。這個(gè)想法可以追溯到 Geoff Hinton 實(shí)驗(yàn)室和 Yann LeCun 小組的論文（1990 年代初，這里和這里；2000 年代中，這里，這里，和這里）。它過去一直沒得到很好的重視，但自 2019 年底以來重新成為了熱門話題。聯(lián)合嵌入架構(gòu)由同一網(wǎng)絡(luò)的兩個(gè)相同（或幾乎相同）的副本組成。一個(gè)網(wǎng)絡(luò)用 x 輸入，另一個(gè)網(wǎng)絡(luò)用 y 輸入。這些網(wǎng)絡(luò)生成稱為嵌入（embedding）的輸出向量，分別表示 x 和 y。第三個(gè)模塊將這些網(wǎng)絡(luò)頭對(duì)頭連接起來，將能量計(jì)算為兩個(gè)嵌入向量之間的距離。當(dāng)模型看到同一圖像的不同變形版本時(shí)，可以輕松調(diào)整網(wǎng)絡(luò)參數(shù)，以使它們的輸出靠得更近。這將確保網(wǎng)絡(luò)生成對(duì)象的幾乎相同的表示（或嵌入），而不管該對(duì)象的特定視圖是什么樣子。

聯(lián)合嵌入架構(gòu)。頂部的函數(shù) C 產(chǎn)生一個(gè)標(biāo)量能量，該標(biāo)量能量測量由共享相同參數(shù)（w）的兩個(gè)相同的雙胞胎網(wǎng)絡(luò)生成的表示向量（嵌入）之間的距離。當(dāng) x 和 y 是同一圖像的稍有不同的版本時(shí)，系統(tǒng)經(jīng)過訓(xùn)練以生成一個(gè)低能量，這迫使模型為兩個(gè)圖像生成相似的嵌入向量。困難的部分是訓(xùn)練模型，以便為不同的圖像生成高能量（即，不同的嵌入）。

困難在于當(dāng) x 和 y 是不同的圖像時(shí)，如何確保網(wǎng)絡(luò)生成高能量，即不同的嵌入向量。如果沒有特定的方法，這兩個(gè)網(wǎng)絡(luò)可能會(huì)愉快地忽略它們的輸入，并始終生成相同的輸出嵌入。這種現(xiàn)象稱為崩潰。當(dāng)發(fā)生崩潰時(shí)，x 和 y 不匹配的能量不會(huì)比 x 和 y 匹配的能量更高。

有兩種避免崩潰的技術(shù)：對(duì)比方法和正則化方法。

基于能量的 SSL 的對(duì)比方法

對(duì)比方法基于以下簡單思想：構(gòu)造不相容的 x 和 y 對(duì)，并調(diào)整模型的參數(shù)，以使相應(yīng)的輸出能量較大。

用對(duì)比方法訓(xùn)練 EBM 的方法包括同時(shí)降低訓(xùn)練集中相容的（x，y）對(duì)的能量（由藍(lán)點(diǎn)表示），提高挑選出來的不相容的（x，y）對(duì)的能量（以綠點(diǎn)表示）。在這個(gè)簡單的示例中 x 和 y 都是標(biāo)量，但在實(shí)際情況下，x 和 y 可以是具有數(shù)百萬個(gè)維度的圖像或視頻。找出讓能量按照預(yù)期方式漲落的不相容對(duì)是一大挑戰(zhàn)，需要龐大的計(jì)算資源。

通過屏蔽或替換某些輸入詞來訓(xùn)練 NLP 系統(tǒng)的方法屬于對(duì)比方法的類別。但是它們不使用聯(lián)合嵌入架構(gòu)。取而代之的是，他們使用了一種預(yù)測架構(gòu)，其中模型直接生成 y 的預(yù)測。模型從文本 y 的一個(gè)完整段開始，然后通過屏蔽某些單詞來破壞它，以生成觀察值。損壞的輸入將輸入到一個(gè)大型神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以重現(xiàn)原始文本 y。未損壞的文本將被重建為自身（低重建錯(cuò)誤），而已損壞的文本將被重建為自身的未損壞版本（較大的重建錯(cuò)誤）。如果將重建錯(cuò)誤解釋為一種能量，它將具有所需的屬性：“干凈”文本的能量較低，而“損壞”文本的能量較高。

訓(xùn)練模型以恢復(fù)輸入的損壞版本的一般性技術(shù)被稱為降噪自動(dòng)編碼器。這個(gè)想法的早期形式可以追溯到 1980 年代，2008 年由蒙特利爾大學(xué)的 PascalVincent 和同事們復(fù)興。這一理念被 Collobert 和 Weston 引入 NLP 領(lǐng)域，并由我們?cè)诠雀璧耐性?BERT 論文中發(fā)揚(yáng)光大。

屏蔽語言模型是降噪自動(dòng)編碼器的一個(gè)實(shí)例，它本身是對(duì)比自監(jiān)督學(xué)習(xí)的一個(gè)實(shí)例。變量 y 是一個(gè)文本段；x 是文本中某些單詞被屏蔽的版本。網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以重建未損壞的文本。

正如我們之前指出的，這種類型的預(yù)測架構(gòu)只能對(duì)給定的輸入生成單個(gè)預(yù)測。由于模型必須能夠預(yù)測多個(gè)可能的結(jié)果，因此預(yù)測結(jié)果不是單個(gè)單詞集，而是針對(duì)每個(gè)缺失單詞位置的詞匯表中各個(gè)單詞的分?jǐn)?shù)系列。

但是我們不能對(duì)圖像使用這種技術(shù)，因?yàn)槲覀儫o法枚舉所有可能的圖像。存在解決這一問題的方法嗎？簡單的回答就是不存在。在這個(gè)方向上有一些有趣的想法，但是它們尚未產(chǎn)生與聯(lián)合嵌入架構(gòu)一樣好的結(jié)果。一種有趣的途徑是潛在變量（latent-variable）預(yù)測架構(gòu)。

潛在變量預(yù)測架構(gòu)。給定一個(gè)觀測值 x，該模型必須能夠生成一組由圖中的 S 形色帶表示的多個(gè)相容預(yù)測。當(dāng)潛在變量 z 在一個(gè)用灰色正方形表示的集合內(nèi)變化時(shí)，輸出在該組合理的預(yù)測范圍內(nèi)變化。

潛在變量預(yù)測模型包含一個(gè)額外的輸入變量（z）。之所以稱其為潛在，是因?yàn)橄到y(tǒng)從未觀察到它的值。對(duì)于經(jīng)過適當(dāng)訓(xùn)練的模型，由于潛在變量在給定的集合上變化，因此輸出預(yù)測在與輸入 x 相容的合理預(yù)測的集合上變化。

可以使用對(duì)比方法來訓(xùn)練潛在變量模型。生成對(duì)抗網(wǎng)絡(luò)（GAN）就是一個(gè)很好的例子。批評(píng)者（或稱鑒別器）可以被視為計(jì)算能量，該能量指示輸入 y 是否看起來不錯(cuò)。生成器網(wǎng)絡(luò)經(jīng)過訓(xùn)練以生成對(duì)比樣本，批評(píng)者被訓(xùn)練到對(duì)比樣本以關(guān)聯(lián)高能量。

但是對(duì)比方法有一大問題：它們的訓(xùn)練效率很低。在諸如圖像之類的高維空間中，一張圖像與另一張圖像的區(qū)別可以有很多表現(xiàn)形式。找到涵蓋所有可能與給定圖像不同之處的對(duì)比圖像集合幾乎是不可能的任務(wù)。就像托爾斯泰名著《安娜·卡列尼娜》中的名言：“幸福的家庭都是相似的；不幸的家庭都有自己的不幸?！笨磥?，這一規(guī)則也適用于任何高維對(duì)象系列。

怎樣才能在不顯著提高許多不相容對(duì)的能量的情況下，確保不相容對(duì)的能量高于相容對(duì)的能量呢？

基于能量的 SSL 的非對(duì)比方法

應(yīng)用于聯(lián)合嵌入架構(gòu)的非對(duì)比方法可能是目前 SSL 視覺領(lǐng)域中最熱門的話題。這個(gè)領(lǐng)域還有大片需要探索的未知事物，但它似乎很有希望。

聯(lián)合嵌入的非對(duì)比方法包括 DeepCluster、ClusterFit、MoCo-v2、SwAV、SimSiam、Barlow Twins、來自 DeepMind 的 BYOL 等等。他們使用各種技巧，例如為一組相似的圖像計(jì)算虛擬目標(biāo)嵌入（DeeperCluster、SwAV、SimSiam），或者通過架構(gòu)或參數(shù)向量來讓兩種聯(lián)合嵌入架構(gòu)出現(xiàn)細(xì)微差異（BYOL、MoCo）。BarlowTwins 則試圖最小化嵌入向量各個(gè)分量之間的冗余。

從長遠(yuǎn)來看，也許更好的選擇是設(shè)計(jì)潛在變量預(yù)測模型的非對(duì)比方法。主要的障礙是它們需要一種方法來最小化潛在變量的容量。容納潛在變量變化的集合大小限制了消耗低能量的輸出的大小。通過最小化這一大小，可以自動(dòng)以正確的方式來排布能量。

這種方法的一個(gè)成功例子是變分自編碼器（Variational Auto-Encoder，VAE），其將潛在變量設(shè)為“模糊”，從而限制了其容量。但是，尚未證明 VAE 可以為下游的視覺任務(wù)提供良好的表示。另一個(gè)成功的例子是稀疏建模（sparse modeling），但其用例僅限于簡單的架構(gòu)。似乎沒有完美的方法可以限制潛在變量的容量。

未來幾年我們面臨的挑戰(zhàn)可能是為潛在變量基于能量的模型設(shè)計(jì)非對(duì)比方法，這種方法應(yīng)該能成功生成圖像、視頻、語音和其他信號(hào)的良好表示形式，并在不需要大量標(biāo)記數(shù)據(jù)的情況下在下游監(jiān)督任務(wù)中獲得最佳性能。

推進(jìn)視覺領(lǐng)域的自監(jiān)督學(xué)習(xí)

最近，我們創(chuàng)建并開源了一種稱為 SEER 的，具有十億參數(shù)的自監(jiān)督 CV 新模型，它已被證明可有效處理復(fù)雜的高維圖像數(shù)據(jù)。它基于應(yīng)用于卷積網(wǎng)絡(luò)架構(gòu)（ConvNet）的 SwAV 方法，可以用大量隨機(jī)圖像訓(xùn)練，而無需任何元數(shù)據(jù)或注釋。ConvNet 足夠大，可以從龐大而復(fù)雜的數(shù)據(jù)中捕獲和學(xué)習(xí)每個(gè)視覺概念。在對(duì) 10 億張隨機(jī)、未標(biāo)記和未整理的公共 Instagram 圖像集合進(jìn)行預(yù)訓(xùn)練，并在 ImageNet 上進(jìn)行了監(jiān)督微調(diào)之后，SEER 的表現(xiàn)超過了最先進(jìn)的自監(jiān)督系統(tǒng)，在 ImageNet 上的 top-1 準(zhǔn)確度達(dá)到了 84.2％。

這些結(jié)果表明，我們可以將自監(jiān)督的學(xué)習(xí)范式拓展到計(jì)算機(jī)視覺領(lǐng)域。

在 Facebook 應(yīng)用自監(jiān)督學(xué)習(xí)

在 Facebook，我們不僅在多個(gè)領(lǐng)域通過基礎(chǔ)、開放的科學(xué)研究推進(jìn)自監(jiān)督學(xué)習(xí)技術(shù)，我們還將這項(xiàng)前沿工作應(yīng)用到了生產(chǎn)中，以快速提高我們平臺(tái)安全性產(chǎn)品中內(nèi)容理解系統(tǒng)的準(zhǔn)確度，

像我們的預(yù)訓(xùn)練語言模型 XLM 這樣的自監(jiān)督領(lǐng)域研究正在為 Facebook 上的許多重要應(yīng)用程序提供動(dòng)力——包括主動(dòng)檢測仇恨言論的系統(tǒng)。我們已經(jīng)部署了 XLM-R，該模型利用了我們的

RoBERT 架構(gòu)，以改進(jìn)我們?cè)?Facebook 和 Instagram 上針對(duì)多種語言的仇恨語音分類器，這樣即使在訓(xùn)練數(shù)據(jù)很少的語言中我們也可以實(shí)現(xiàn)仇恨語音檢測。

近年來，自監(jiān)督學(xué)習(xí)的進(jìn)展讓我們倍感鼓舞，盡管要讓這種方法幫助我們發(fā)現(xiàn) AI 智能的暗物質(zhì)還有很長的路要走。自監(jiān)督是通往人類水平智能的道路上的重要一步，但這一步背后肯定有許多積累，所謂千里之行始于足下。因此，我們?cè)谂εc更大范圍內(nèi)的 AI 社區(qū)合作，以實(shí)現(xiàn)我們?cè)谖磥淼哪骋惶靹?chuàng)造出具有人類智能的機(jī)器的目標(biāo)。我們的研究已公開發(fā)布并在頂級(jí)會(huì)議上發(fā)表。我們還組織了研討會(huì)并發(fā)布了一些庫，以幫助加快這一領(lǐng)域的研究。
編輯：lyn

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
33236

瀏覽量
273491
人工智能

人工智能

+關(guān)注

關(guān)注
1802

文章
48324

瀏覽量
244046
nlp

nlp

+關(guān)注

關(guān)注
1

文章
489

瀏覽量
22376

原文標(biāo)題：圖靈獎(jiǎng)得主 Yann LeCun 最新文章：自監(jiān)督學(xué)習(xí)，人工智能世界的“暗物質(zhì)”

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

人工智能和機(jī)器學(xué)習(xí)以及Edge AI的概念與應(yīng)用

與人工智能相關(guān)各種技術(shù)的概念介紹，以及先進(jìn)的Edge AI（邊緣人工智能）的最新發(fā)展與相關(guān)應(yīng)用。 人工智能和機(jī)器學(xué)習(xí)是現(xiàn)代科技的核心技術(shù) 人工智能

發(fā)表于 01-25 17:37 ?629次閱讀

時(shí)空引導(dǎo)下的時(shí)間序列自監(jiān)督學(xué)習(xí)框架

【導(dǎo)讀】最近，香港科技大學(xué)、上海AI Lab等多個(gè)組織聯(lián)合發(fā)布了一篇時(shí)間序列無監(jiān)督預(yù)訓(xùn)練的文章，相比原來的TS2Vec等時(shí)間序列表示學(xué)習(xí)工作，核心在于提出了將空間信息融入到預(yù)訓(xùn)練階段，即在預(yù)訓(xùn)練階段

發(fā)表于 11-15 11:41 ?530次閱讀

嵌入式和人工智能究竟是什么關(guān)系?

領(lǐng)域，如工業(yè)控制、智能家居、醫(yī)療設(shè)備等。 人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支，它研究如何使計(jì)算機(jī)具備像人類一樣思考、學(xué)習(xí)、推理和決策的能力。人工智能的發(fā)展歷程可以追溯到上世紀(jì)50年代，經(jīng)

發(fā)表于 11-14 16:39

人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

人工智能指的是在某種程度上顯示出類似人類智能的設(shè)備。AI有很多技術(shù)，但其中一個(gè)很大的子集是機(jī)器學(xué)習(xí)——讓算法從數(shù)據(jù)中學(xué)習(xí)。

發(fā)表于 10-24 17:22 ?2643次閱讀

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

、優(yōu)化等方面的應(yīng)用有了更清晰的認(rèn)識(shí)。特別是書中提到的基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的能源管理系統(tǒng)，通過實(shí)時(shí)監(jiān)測和分析能源數(shù)據(jù)，實(shí)現(xiàn)了能源的高效利用和智能化管理。其次，第6章通過多個(gè)案例展示了人工智能在能源科學(xué)中

發(fā)表于 10-14 09:27

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

，無疑為讀者鋪設(shè)了一條探索人工智能（AI）如何深刻影響并推動(dòng)科學(xué)創(chuàng)新的道路。在閱讀這一章后，我深刻感受到了人工智能技術(shù)在科學(xué)領(lǐng)域的廣泛應(yīng)用潛力以及其帶來的革命性變化，以下是我個(gè)人的學(xué)習(xí)心得： 1.

發(fā)表于 10-14 09:12

risc-v在人工智能圖像處理應(yīng)用前景分析

與人工智能推薦系統(tǒng)中強(qiáng)大的圖形處理器（GPU）一爭高下。其獨(dú)特的設(shè)計(jì)使得該處理器在功耗受限的條件下仍能實(shí)現(xiàn)高性能的圖像處理任務(wù)。 Ceremorphic公司：該公司開發(fā)的分層學(xué)習(xí)處理器結(jié)合了

發(fā)表于 09-28 11:00

人工智能ai4s試讀申請(qǐng)

目前人工智能在繪畫對(duì)話等大模型領(lǐng)域應(yīng)用廣闊，ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個(gè)需要研究的課題，本書對(duì)ai4s基本原理和原則，方法進(jìn)行描訴，有利于總結(jié)經(jīng)驗(yàn)，擬按照要求準(zhǔn)備相關(guān)體會(huì)材料。看能否有助于入門和提高ss

發(fā)表于 09-09 15:36

名單公布！【書籍評(píng)測活動(dòng)NO.44】AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

！《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》這本書便將為讀者徐徐展開AI for Science的美麗圖景，與大家一起去了解： 人工智能究竟幫科學(xué)家做了什么？ 人工智能將如何改變我們所生

發(fā)表于 09-09 13:54

報(bào)名開啟！深圳（國際）通用人工智能大會(huì)將啟幕，國內(nèi)外大咖齊聚話AI

8月28日至30日，2024深圳（國際）通用人工智能大會(huì)暨深圳（國際）通用人工智能產(chǎn)業(yè)博覽會(huì)將在深圳國際會(huì)展中心（寶安）舉辦。大會(huì)以“魅力AI·無限未來”為主題，致力于打造全球通用人工智能領(lǐng)域集產(chǎn)品

發(fā)表于 08-22 15:00

FPGA在人工智能中的應(yīng)用有哪些？

FPGA（現(xiàn)場可編程門陣列）在人工智能領(lǐng)域的應(yīng)用非常廣泛，主要體現(xiàn)在以下幾個(gè)方面：一、深度學(xué)習(xí)加速訓(xùn)練和推理過程加速：FPGA可以用來加速深度學(xué)習(xí)的訓(xùn)練和推理過程。由于其高并行性和低延遲特性

發(fā)表于 07-29 17:05

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇，對(duì)于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀，但對(duì)于我還是有許多的知識(shí)點(diǎn)、專業(yè)術(shù)語比較陌生，需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能理解書中

發(fā)表于 07-25 14:33

深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

應(yīng)用中往往難以實(shí)現(xiàn)。因此，無監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法，包括自編碼器、生成對(duì)抗網(wǎng)絡(luò)、聚類算法等，并分析它們的原理、應(yīng)用場景以及優(yōu)

發(fā)表于 07-09 10:50 ?1285次閱讀

人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是什么

在科技日新月異的今天，人工智能（Artificial Intelligence, AI）、機(jī)器學(xué)習(xí)（Machine Learning, ML）和深度學(xué)習(xí)（Deep Learning, DL）已成為

發(fā)表于 07-03 18:22 ?2120次閱讀

5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)（SC171開發(fā)套件V2）

https://t.elecfans.com/v/25653.html 人工智能 初學(xué)者完整學(xué)習(xí)流程實(shí)現(xiàn)手寫數(shù)字識(shí)別案例_Part1 13分59秒 https://t.elecfans.com/v

發(fā)表于 05-10 16:46

搜索歷史

基于人工智能的自監(jiān)督學(xué)習(xí)詳解

評(píng)論

人工智能和機(jī)器學(xué)習(xí)以及Edge AI的概念與應(yīng)用

時(shí)空引導(dǎo)下的時(shí)間序列自監(jiān)督學(xué)習(xí)框架

嵌入式和人工智能究竟是什么關(guān)系?

人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

risc-v在人工智能圖像處理應(yīng)用前景分析

人工智能ai4s試讀申請(qǐng)

名單公布！【書籍評(píng)測活動(dòng)NO.44】AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

報(bào)名開啟！深圳（國際）通用人工智能大會(huì)將啟幕，國內(nèi)外大咖齊聚話AI

FPGA在人工智能中的應(yīng)用有哪些？

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是什么

5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)（SC171開發(fā)套件V2）

電子發(fā)燒友