2017 年 7 月,最后一屆 ImageNet 挑戰(zhàn)賽落幕。
為何對計算機視覺領(lǐng)域有著重要貢獻(xiàn)的 ImageNet 挑戰(zhàn)賽,會在 8 年后宣告終結(jié)?
畢竟計算機系統(tǒng)在圖像識別等任務(wù)上的準(zhǔn)確率已經(jīng)超過人類水平,每年一次突破性進(jìn)展的時代也已經(jīng)過去。
近日,F(xiàn)AIR(Facebook AI Research) 的 Ross Girshick 、何愷明等大神聯(lián)手,在 ImageNet-1k 圖像分類數(shù)據(jù)集上取得了 85.4% 的準(zhǔn)確率,超越了目前的最好成績,而且沒有使用專門為訓(xùn)練深度學(xué)習(xí)標(biāo)記的圖像作為訓(xùn)練數(shù)據(jù)。
然而,這不能怪大家不努力,只怪 Facebook 實在太土豪。10 億張帶有 hashtag(類似于微博里面的話題標(biāo)簽)的圖片,以及 336 塊 GPU,敢問誰能有這種壕氣?
Facebook 表示,實驗的成功證明了弱監(jiān)督學(xué)習(xí)也能有良好表現(xiàn),當(dāng)然,只要數(shù)據(jù)足夠多。
話不多說,我們一起來看看 Facebook 是怎樣用數(shù)據(jù)和金錢砸出這個成果的。
以下內(nèi)容來自 Facebook 官方博客,人工智能頭條 編譯:
圖像識別是人工智能研究的重要領(lǐng)域之一,同時也是 Facebook 的一大重點關(guān)注領(lǐng)域。我們的研究人員和工程師希望盡最大的努力打破計算機視覺系統(tǒng)的邊界,然后將我們的研究成功應(yīng)用到現(xiàn)實世界的問題中。為了改進(jìn)計算機視覺系統(tǒng)的性能,使其能夠高效地識別和分類各種物體,我們需要擁有至少數(shù)十億張圖像的數(shù)據(jù)集來作為基礎(chǔ),而不僅僅是百萬量級。
目前比較主流的模型通常是利用人工注釋的單獨標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練,然而在這種情況下,增強系統(tǒng)的識別能力并不是往里面“扔”更多的圖片那樣簡單。監(jiān)督學(xué)習(xí)是勞動密集型的,但是它通常能夠達(dá)到最佳的效果,然而手動標(biāo)記數(shù)據(jù)集的大小已經(jīng)接近極限。盡管 Facebook 正在利用 5000 萬幅圖像對一些模型進(jìn)行訓(xùn)練,然而在數(shù)據(jù)全部需要人工標(biāo)記的前提下,將訓(xùn)練集擴大到數(shù)十億張是不可能實現(xiàn)。
我們的研究人員和工程師想出了一個解決辦法:利用大量帶有“hashtag”的公共圖像集來訓(xùn)練圖像識別網(wǎng)絡(luò),其中最大的數(shù)據(jù)集包括 35 億張圖像以及 17000 種 hashtag。這種方法的關(guān)鍵是使用現(xiàn)有的、公開的、用戶提供的 hashtag 作為標(biāo)簽,而不是手動對每張圖片進(jìn)行分類。
這種方法在我們的測試中運行十分良好。我們利用具有數(shù)十億張圖像的數(shù)據(jù)集來訓(xùn)練我們的計算機視覺系統(tǒng),然后在 ImageNet 上獲得了創(chuàng)紀(jì)錄的高分(準(zhǔn)確率達(dá)到了 85.4%)。除了在圖像識別性能方面實現(xiàn)突破之外,本研究還為如何從監(jiān)督學(xué)習(xí)轉(zhuǎn)向弱監(jiān)督學(xué)習(xí)轉(zhuǎn)變提供了深刻的洞見:通過使用現(xiàn)有標(biāo)簽——在本文這種情況下指的是 hashtag——而不是專門的標(biāo)簽來訓(xùn)練 AI 模型。我們計劃在不久的將來會進(jìn)行開源,讓整個 AI 社區(qū)受益。
▌大規(guī)模使用 hashtag
由于人們經(jīng)常用 hashtag 來對照片進(jìn)行標(biāo)注,因此我們認(rèn)為這些圖片是模型訓(xùn)練數(shù)據(jù)的理想來源。人們在使用 hashtag 的主要目的是讓其他人發(fā)現(xiàn)相關(guān)內(nèi)容,讓自己的圖片更容易被找到,這種意圖正好可以為我們所用。
但是 hashtag 經(jīng)常涉及非可視化的概念,例如 “#tbt” 代表“throwback Thursday”;有些時候,它們的語義也含糊不清,比如 “#party”,它既可以描述一個活動,也可以描述一個背景,或者兩者皆可。為了更好地識別圖像,這些標(biāo)簽可以作為弱監(jiān)督數(shù)據(jù),而模糊的或者不相關(guān)的 hashtag 則是不相干的標(biāo)簽噪聲,可能會混淆深度學(xué)習(xí)模型。
由于這些充滿噪聲的標(biāo)簽對我們的大規(guī)模訓(xùn)練工作至關(guān)重要,我們開發(fā)了新的方法:把 hashtag 當(dāng)作標(biāo)簽來進(jìn)行圖像識別實驗,其中包括處理每張圖像的多個標(biāo)簽(因為用戶往往不會只添加一個 hashtag),對 hashtag 同義詞進(jìn)行排序,以及平衡常見的 hashtag 和少見的 hashtag 的影響。
為了使標(biāo)簽對圖像識別訓(xùn)練更加有用,我們團(tuán)隊訓(xùn)練了一個大型的 hashtag 預(yù)測模型。這種方法顯示了出色的遷移學(xué)習(xí)結(jié)果,這意味著該模型在圖像分類上的表現(xiàn)可以廣泛適用于其他人工智能系統(tǒng)。
▌在規(guī)模和性能上實現(xiàn)突破
如果只是用一臺機器的話,將需要一年多的時間才能完成模型訓(xùn)練,因此我們設(shè)計了一種可以將該任務(wù)分配給 336 個 GPU 的方法,從而將總訓(xùn)練時間縮短至數(shù)周。隨著模型規(guī)模越來越大——這項研究中最大的是 ResNeXt 101-32x48d,其參數(shù)超過了 8.61 億個——這種分布式訓(xùn)練變得越來越重要。此外,我們還設(shè)計了一種刪除重復(fù)值(副本)的方法,以確保訓(xùn)練集和測試集之間沒有重疊。
盡管我們希望看到圖像識別的性能得到一定提升,但試驗結(jié)果遠(yuǎn)超我們的預(yù)期。在 ImageNet 圖像識別基準(zhǔn)測試中(該領(lǐng)域最常見的基準(zhǔn)測試),我們的最佳模型通過 10 億張圖像的訓(xùn)練之后(其中包含 1,500 個 hashtag)達(dá)到了 85.4% 的準(zhǔn)確率,這是迄今為止 ImageNet 基準(zhǔn)測試中的最好成績,比之前最先進(jìn)的模型的準(zhǔn)確度高了 2%。再考慮到卷積網(wǎng)絡(luò)架構(gòu)的影響后,我們所觀察到的性能提升效果更為顯著:在深度學(xué)習(xí)粒使用數(shù)十億張帶有 hashtag 的圖像之后,其準(zhǔn)確度相對提高了 22.5%。
在 COCO 目標(biāo)檢測挑戰(zhàn)中,我們發(fā)現(xiàn)使用 hashtag 預(yù)訓(xùn)練可以將模型的平均精度(average precision)提高 2% 以上。
這些圖像識別和物體檢測領(lǐng)域的基礎(chǔ)改進(jìn),代表了計算機視覺又向前邁出了一步。但是除此之外,該實驗也揭示了與大規(guī)模訓(xùn)練和噪聲標(biāo)簽相關(guān)的挑戰(zhàn)和機遇。
例如,盡管增加訓(xùn)練數(shù)據(jù)集規(guī)模的大小是值得的,但選擇與特定識別任務(wù)相匹配的一組 hashtag 也同樣重要。我們選擇了 10 億張圖像以及 1,500 個與 ImageNet 數(shù)據(jù)集中的類相匹配的 hashtag,相比同樣的圖像加上 17,000 個 hashtag,前者訓(xùn)練出來的模型取得了更好的成績。另一方面,對于圖像類別更多更廣泛的任務(wù),使用 17,000 個主 hashtag 訓(xùn)練出來模型性能改進(jìn)的更加明顯,這表明我們應(yīng)該在未來的訓(xùn)練中增加 hashtag 的數(shù)量。
增加訓(xùn)練數(shù)據(jù)量通常對圖像分類模型的表現(xiàn)是有益,但它同樣也有可能會引發(fā)新的問題,如在圖像內(nèi)定位物體的能力明顯下降。除此之外我們還觀察到,實驗中最大的模型仍然沒有能夠充分利用 35 億張巨大圖像集的優(yōu)勢,這表明我們應(yīng)該構(gòu)建更大的模型。
▌未來的圖像識別:更大規(guī)模、自我標(biāo)注
本次研究的一個重要結(jié)果,甚至比在圖像識別方面的廣泛收益還要重要,是確認(rèn)了基于 hashtag 來訓(xùn)練計算機視覺模型是完全可行的。雖然我們使用了一些類似融合相似的 hashtag,降低其他 hashtag 權(quán)重的基本技術(shù),但并不需要復(fù)雜的“清洗”程序來消除標(biāo)簽噪聲。相反,我們能夠使用 hashtag 來訓(xùn)練我們的模型,而且只需要對訓(xùn)練過程進(jìn)行微小的調(diào)整。當(dāng)訓(xùn)練集的規(guī)模達(dá)到十億級時,我們的模型對標(biāo)簽噪音表現(xiàn)出了顯著的抗干擾能力,因此數(shù)據(jù)集的規(guī)模在這里顯然是一個優(yōu)勢。
在不久的將來,我們還會設(shè)想使用 hashtag 作為計算機視覺標(biāo)簽的其他方法。這些方法可能包括使用人工智能來更好地理解視頻片段或更改圖片在 Facebook 信息流中的排名方式。hashtag 還可以幫助系統(tǒng)更具體地識別圖像是不是屬于更細(xì)致的子類別,而不僅僅是寬泛的分類。一般情況下,圖片的音頻字幕都是僅寬泛地注釋出物種名稱,如“圖片中有一些鳥類棲息”,但如果我們能夠讓注釋更加精確(例如“一只紅雀棲息在糖楓樹上”),就可以為視障用戶提供更加準(zhǔn)確的描述。
此外,這項研究還可以改進(jìn)新產(chǎn)品以及現(xiàn)有產(chǎn)品中的圖像識別功能帶來。例如,更準(zhǔn)確的模型可能會促進(jìn)我們改進(jìn)在 Facebook 上呈現(xiàn) Memories(與QQ的“日跡”相似)的方式。隨著訓(xùn)練數(shù)據(jù)集越來越大,我們需要應(yīng)用弱監(jiān)督學(xué)習(xí)——而且從長遠(yuǎn)來看,無監(jiān)督學(xué)習(xí)會變得越來越重要。
這項研究在論文“Exploring the Limits of Weakly Supervised Pretraining”中有更詳細(xì)的描述。
-
圖像識別
+關(guān)注
關(guān)注
9文章
521瀏覽量
38306 -
人工智能
+關(guān)注
關(guān)注
1792文章
47514瀏覽量
239229 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121340
原文標(biāo)題:何愷明等在圖像識別任務(wù)上取得重大進(jìn)展,這次用的是弱監(jiān)督學(xué)習(xí)
文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論