2018 年 9 月騰訊 AI Lab 開(kāi)源 “Tencent ML-Images” 項(xiàng)目,該項(xiàng)目由多標(biāo)簽圖像數(shù)據(jù)集 ML-Images,以及業(yè)內(nèi)目前同類深度學(xué)習(xí)模型中精度最高的深度殘差網(wǎng)絡(luò) ResNet-101 構(gòu)成。 近日騰訊在 arxiv 上發(fā)布論文詳細(xì)介紹了數(shù)據(jù)集的構(gòu)成以及評(píng)價(jià)標(biāo)準(zhǔn)等內(nèi)容,對(duì) Tencent ML-Images 數(shù)據(jù)集的理解很有幫助。
騰訊 AI Lab 公布的圖像數(shù)據(jù)集 ML-Images,包含了 1800 萬(wàn)圖像和 1.1 萬(wàn)多種常見(jiàn)物體類別,在業(yè)內(nèi)已公開(kāi)的多標(biāo)簽圖像數(shù)據(jù)集中規(guī)模最大,足以滿足一般科研機(jī)構(gòu)及中小企業(yè)的使用場(chǎng)景。
此外,騰訊 AI Lab 還提供基于 ML-Images 訓(xùn)練得到的深度殘差網(wǎng)絡(luò) ResNet-101。該模型具有優(yōu)異的視覺(jué)表示能力和泛化性能,在當(dāng)前業(yè)內(nèi)同類模型中精度最高,將為包括圖像、視頻等在內(nèi)的視覺(jué)任務(wù)提供強(qiáng)大支撐,并助力圖像分類、物體檢測(cè)、物體跟蹤、語(yǔ)義分割等技術(shù)水平的提升。
題目:Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning
作者:Baoyuan Wu, Weidong Chen, Yanbo Fan, Yong Zhang, Jinlong Hou, Junzhou Huang, Wei Liu, Tong Zhang
【摘要】
在現(xiàn)有的視覺(jué)表示學(xué)習(xí)任務(wù)中,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常是針對(duì)帶有單個(gè)標(biāo)簽的圖像進(jìn)行訓(xùn)練的,例如 ImageNet。然而,單個(gè)標(biāo)簽無(wú)法描述一幅圖像的所有重要內(nèi)容,一些有用的視覺(jué)信息在訓(xùn)練過(guò)程中可能會(huì)被浪費(fèi)。在這項(xiàng)工作中,我們建議對(duì)帶有多個(gè)標(biāo)簽的圖像進(jìn)行訓(xùn)練,以提高訓(xùn)練后的 CNN 模型的視覺(jué)表示質(zhì)量。
為此,我們構(gòu)建了一個(gè)大規(guī)模的多標(biāo)簽圖像數(shù)據(jù)庫(kù),其中包含 18000000 個(gè)圖像和 11000 個(gè)類別,我們稱之為 Tencent ML-Images。我們基于大規(guī)模分布式深度學(xué)習(xí)框架,即 TFplus,在 Tencent ML-Images 上高效訓(xùn)練 ResNet-101 多標(biāo)簽輸出模型,共 60 個(gè) epoch,耗時(shí) 90 小時(shí)。 通過(guò) ImageNet 和 Caltech-256 上的單標(biāo)簽圖像分類、PASCAL VOC 2007 上的對(duì)象檢測(cè)、PASCAL VOC 2012 上的語(yǔ)義分割三個(gè)遷移學(xué)習(xí)任務(wù),驗(yàn)證了 Tencent ML-Images checkpoint 的視覺(jué)表示質(zhì)量良好。
騰訊 ML-Images 數(shù)據(jù)庫(kù),ResNet-101 的 checkpoint 以及所有訓(xùn)練代碼已在https://github.com/Tencent/tencent-ml-images上發(fā)布。它有望推動(dòng)研究領(lǐng)域和工業(yè)界的其他視覺(jué)任務(wù)的發(fā)展。
論文地址:
https://arxiv.org/abs/1901.01703
作者簡(jiǎn)介
第一作者是吳保元,現(xiàn)在是騰訊 AI Lab 的高級(jí)研究員,2014 年 8 月至 2016 年 11 月在 KAUST 進(jìn)行博士后學(xué)習(xí),與 Bernard Ghanem 教授一起工作。2014 年 6 月獲得中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室博士學(xué)位,導(dǎo)師為胡包鋼教授。作者研究興趣包括機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和優(yōu)化,包括圖像標(biāo)注、弱 / 無(wú)監(jiān)督學(xué)習(xí)、結(jié)構(gòu)化預(yù)測(cè)、概率圖模型、視頻處理和整數(shù)規(guī)劃。
https://sites.google.com/site/baoyuanwu2015/home
其他作者包括樊艷波、張勇也都是博士畢業(yè)于中科院自動(dòng)化研究所,師從胡包鋼教授。
文章簡(jiǎn)介
這項(xiàng)工作在新建的多標(biāo)簽圖像數(shù)據(jù)庫(kù)(稱為 Tencent ML-Images)上展示了大規(guī)模的視覺(jué)表示學(xué)習(xí)。文章從討論以下兩個(gè)問(wèn)題開(kāi)始。
為什么我們需要大規(guī)模的圖像數(shù)據(jù)庫(kù)?深度學(xué)習(xí)一直處于長(zhǎng)期低谷,直到 2012 年,AlexNet 在 ILSVRC2012 挑戰(zhàn)的單標(biāo)簽圖像分類任務(wù)中取得了令人驚訝的成績(jī)。深度神經(jīng)網(wǎng)絡(luò)的潛力是通過(guò)大規(guī)模的圖像數(shù)據(jù)庫(kù)釋放出來(lái)的,即 ImageNet-ILSVRC2012 。此外,對(duì)于許多視覺(jué)任務(wù),如目標(biāo)檢測(cè)和語(yǔ)義分割,獲取訓(xùn)練數(shù)據(jù)的成本是非常高的。由于訓(xùn)練數(shù)據(jù)不足,需要在其他大型數(shù)據(jù)庫(kù)上預(yù)先訓(xùn)練好的視覺(jué)呈現(xiàn)良好的 checkpoint 作為初始化,用于其他視覺(jué)任務(wù) (如針對(duì)單標(biāo)簽圖像分類的 ImageNet-ILSVRC2012)。
為什么我們需要多標(biāo)簽圖像數(shù)據(jù)庫(kù)?由于在大多數(shù)自然圖像中存在多個(gè)對(duì)象,單個(gè)標(biāo)注可能會(huì)遺漏一些有用的信息,從而誤導(dǎo) CNN 的訓(xùn)練。例如,同時(shí)包含牛和草的兩個(gè)視覺(jué)上相似的圖像可能分別被標(biāo)注為牛和草。合理的方法是 “告訴”CNN 模型這兩幅圖像同時(shí)包含牛和草。
這項(xiàng)工作的主要貢獻(xiàn)有四個(gè)方面:
建立了一個(gè)包含一千八百萬(wàn)張圖像和一萬(wàn)一千個(gè)類別的多標(biāo)簽圖像數(shù)據(jù)庫(kù),被稱為 Tencent ML-Images,這是迄今為止最大的公開(kāi)可用的多標(biāo)簽圖像數(shù)據(jù)庫(kù)。
利用大規(guī)模分布式深度學(xué)習(xí)框架,在 Tencent ML-Images 上有效地訓(xùn)練 ResNet-101 模型。此外,還設(shè)計(jì)了一種新的損失函數(shù)來(lái)緩解大規(guī)模多標(biāo)簽數(shù)據(jù)庫(kù)中嚴(yán)重的類失衡問(wèn)題。
我們通過(guò)遷移學(xué)習(xí)三種不同的視覺(jué)任務(wù),證實(shí)了 Tencent ML-Images 和其預(yù)訓(xùn)練的檢查點(diǎn)有著比較好的質(zhì)量。
在 GitHub(https://github.com/Tencent/tencent-ml-images)上發(fā)布了 Tencent ML-Images 數(shù)據(jù)庫(kù),包含訓(xùn)練的 ResNet-101 檢查點(diǎn),以及從數(shù)據(jù)預(yù)處理,預(yù)訓(xùn)練,微調(diào)到圖像分類和特征提取的完整代碼。預(yù)計(jì)這將推動(dòng)研究領(lǐng)域和工業(yè)界的其他視覺(jué)任務(wù)的發(fā)展。
附文章中部分結(jié)果
-
圖像分類
+關(guān)注
關(guān)注
0文章
90瀏覽量
11942 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24747
原文標(biāo)題:論文終于公布!騰訊開(kāi)源最大規(guī)模多標(biāo)簽圖像數(shù)據(jù)集,刷新行業(yè)數(shù)據(jù)集基準(zhǔn)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論