一、深度學(xué)習(xí):理論和關(guān)注機(jī)制的進(jìn)展(Yoshua Bengio)
二、深度語義學(xué)習(xí) (Xiaodong He)
三、深度神經(jīng)網(wǎng)絡(luò)和GPU(Julie Bernauer)
四、深度視覺Keynote(Rahul Sukthankar)
五、學(xué)習(xí)和理解視覺表示(Andrea Vedaldi)
六、用于目標(biāo)檢測的可變深度卷積神經(jīng)網(wǎng)絡(luò)(Xiaogang Wang)
一直自稱研究方向是“機(jī)器視覺、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)”,然而除了做過幾個(gè)相關(guān)的項(xiàng)目以外,感覺自己對這個(gè)領(lǐng)域并沒有足夠深入的認(rèn)識(shí)和理解。趁著這個(gè)假期我要好好補(bǔ)補(bǔ)課了。今天先來看一些high level的內(nèi)容,看看深度學(xué)習(xí)近期的最近進(jìn)展以及其在機(jī)器視覺問題中的應(yīng)用。學(xué)習(xí)資料來源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides,介紹了理論、應(yīng)用、實(shí)現(xiàn)等方面的內(nèi)容,應(yīng)該是干貨滿滿的。對于每一個(gè)talk,我會(huì)把內(nèi)容框架記錄下來(可以check一下對這些點(diǎn)是否有一定了解?),并記下一些個(gè)人覺得有趣的點(diǎn)。
一、深度學(xué)習(xí):理論和關(guān)注機(jī)制的進(jìn)展(Yoshua Bengio)
顧名思義,Bengio的talk主要講了兩個(gè)部分:理論進(jìn)展和attention mechanism。理論進(jìn)展介紹了:
分布式表示的“指數(shù)級”優(yōu)點(diǎn)
深度的“指數(shù)級”優(yōu)點(diǎn)
非凸優(yōu)化和局部最小值
自編碼器的概率解釋
Attention 機(jī)制則介紹了在機(jī)器翻譯、語音、圖像、視頻和記憶單元中的應(yīng)用。
分布式表示和深度的優(yōu)點(diǎn)Bengio之前的talk里已經(jīng)講過不少次了。簡單的說,雖然類似local partition的方法可以得到有用的表示,淺層(2層)的神經(jīng)網(wǎng)絡(luò)也可近似任意的函數(shù),但是分布式表示和深度的引入可以使特征表示和模型變得更加緊湊(compact),達(dá)到exponentially more statistically efficient的效果。
接下來提到了在深度學(xué)習(xí)中凸性質(zhì)(convexity)可能并不是必要的。因?yàn)樵诟呔S空間中,鞍點(diǎn)(saddle point)的存在是主要問題,而局部最小值通常都會(huì)很接近全局最小值了。這部分的內(nèi)容比較陌生,有興趣可以看看最近的論文。
Attention 機(jī)制方面,講了很多最新的進(jìn)展。有很多相關(guān)的paper都非常有趣,我要找個(gè)時(shí)間好好看看這個(gè)系列了。一個(gè)基本的思路是:我們給每一層引入一個(gè)額外的輸入,這個(gè)輸入反應(yīng)的是之前的一個(gè)加權(quán),來表示它們的關(guān)注程度。在所謂的soft-attention中,這個(gè)加權(quán)的值可以直接通過BP訓(xùn)練得到。記下幾句有趣的話:
- They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them tocapture multiple time scales
- They could be used to help deal withlong-term dependencies, allowing some states to last for arbitrarily long
二、深度語義學(xué)習(xí) (Xiaodong He)
來自微軟研究院的報(bào)告,主要內(nèi)容:
學(xué)習(xí)文本的語義性(semantic)表示
知識(shí)庫和問答系統(tǒng)
多模態(tài)(圖片——文本)語義模型
講座開始引入了一點(diǎn)有趣的motivation:一般我們測試機(jī)器是否能夠理解圖片(其實(shí)就是訓(xùn)練對了),方法是給圖片標(biāo)記標(biāo)簽然后計(jì)算其錯(cuò)誤率。然而對于含有豐富內(nèi)容的復(fù)雜場景來說,很難定義所有fine-grained的類別。因此,用自然語言的描述來測試對圖片的理解是比較好的方式。
從 Word2Vec 到 Sent2Vec:Deep Structured Semantic Model (DSSM),雖然我們不知道該如何標(biāo)記一個(gè)句子的語義,但我們知道哪些句子的語義是比較接近的,因此文章通過優(yōu)化一個(gè)基于相似性的目標(biāo)函數(shù)來訓(xùn)練模型,使具有相近語義的句子產(chǎn)生距離相近的向量。接著還介紹了很多模型的細(xì)節(jié)和變種(卷積DSSM、遞歸DSSM),在此就不贅述了。
Deep Multimodal Similarity Model (DMSM):將目標(biāo)函數(shù)中兩個(gè)句子的相似性改成句子和圖片的相似性,便可以將DSSM擴(kuò)展為一個(gè)多模態(tài)的模型。
MSR系統(tǒng)解決圖片–>語言問題:
圖片詞語檢測(Image word detection)
句子生成(Language generation)
全局語義性重排序(Global semantic re-ranking)
其中圖片詞語檢測用了CNN+MIL(Multiple Instance Learning)的方法,個(gè)人對此比較感興趣,文章在此。
三、深度神經(jīng)網(wǎng)絡(luò)和GPU(Julie Bernauer)
換個(gè)口味,我們來看看NVIDIA關(guān)于深度學(xué)習(xí)和GPU的結(jié)合??偟膩碚f,內(nèi)容上跟NVIDIA官網(wǎng)上介紹深度學(xué)習(xí)的slides沒什么不同。主要介紹了GPU有什么好處、GPU有多牛,還有一些支持GPU的庫和工具。
一張比較好的圖:
有用的工具:
Lasagne:基于theano上的開源庫,能方便搭建一個(gè)深度網(wǎng)絡(luò)。(Keras用得不太爽,可以試試這個(gè))
四、深度視覺Keynote(Rahul Sukthankar)
來看看來自google的報(bào)告。這個(gè)talk里面的內(nèi)容都不太熟悉,但是看起來都非常有意思。主要內(nèi)容有:
用Peer Presssure方法來找high value mistake
結(jié)合深度學(xué)習(xí)和其他機(jī)器學(xué)習(xí)方法來更好解決視覺問題
首先來看看Peer Pressure。這是Rahul組最近的一個(gè)工作:The Virtues of Peer Pressure: A Simple Method for Discovering High-Value Mistakes。所謂“high-value mistake”,指的是那些我們認(rèn)為訓(xùn)練好的模型可以準(zhǔn)確預(yù)測的樣本,結(jié)果它卻“犯傻”了。因此這些樣本也叫做“hard positive”,難以答對的樣子。
從頭說起,深度神經(jīng)網(wǎng)絡(luò)雖然有很多成功的應(yīng)用,但同時(shí)也被發(fā)現(xiàn)很容易犯愚蠢的錯(cuò)誤(比如上述的high-value mistake)。因此作者提出了Peer Pressure:集成+對抗訓(xùn)練(emsembles+adversarial training)的方法,來找到這些錯(cuò)誤。簡單來說就是,有一組訓(xùn)練于同樣數(shù)據(jù)但是初始化或者結(jié)構(gòu)不同的NN分類器(稱作peers),如果一個(gè)樣本出現(xiàn)其中一個(gè)NN輸出與其它都不一致的情況(其它NN淡然都是一致的了),那么它應(yīng)該就是high-value mistake。尋找這類錯(cuò)誤當(dāng)然是有價(jià)值的啦:(1)它可以用在發(fā)掘無標(biāo)簽的數(shù)據(jù)中(2)可以用來合成新的hard positive樣本。
接下來提到將上述的方法應(yīng)用到視頻當(dāng)中,找出anchor frame附近的hard positive 幀,用來訓(xùn)練更好的模型。其中具有semantic consistency的幀是通過Dense Trajectory來確定的。感覺挺有意思,可惜沒找到相應(yīng)的paper,那就上張圖吧。
五、學(xué)習(xí)和理解視覺表示(Andrea Vedaldi)
來自牛津大學(xué)的報(bào)告,題目看起來還是很吸引人的。大綱如下(略有失望,好像就是講CNN的):
黑盒:一個(gè)將CNN用于圖片文字識(shí)別的例子
架構(gòu):卷積和紋理
可視化:CNN所知道的圖片
性質(zhì):對比CNN和視覺幾何
第一個(gè)例子用CNN做OCR,感覺并不是很有趣。一個(gè)challenge是它的類別特別多(90k個(gè)類,對應(yīng)90k個(gè)單詞)。他們解決的辦法是增量地訓(xùn)練網(wǎng)絡(luò),即先只訓(xùn)練5k個(gè)類,再逐步添加5k個(gè)新的類。。。效果好像還不錯(cuò)。
第二部分講分辨紋理。提出用CNN的卷積層加上Fisher Vector(替換全連接層)來做,效果不錯(cuò)不錯(cuò)的。
第三部分可視化,看看就好。
第四部分還不錯(cuò),講的是圖像變換對特征表示的影響。除去語義層面上的影響(特征的不變性跟任務(wù)相關(guān)),我們通常希望圖像的特征表示不受圖像變換的影響,如翻轉(zhuǎn)和仿射變換。
類內(nèi)差異大,包括:部分出現(xiàn)(part existence)、顏色、遮擋、變形
六、用于目標(biāo)檢測的可變深度卷積神經(jīng)網(wǎng)絡(luò)(Xiaogang Wang)
最后一個(gè)talk,講的是我最近比較關(guān)注的目標(biāo)檢測問題,主要介紹他們的DeepID-Net。
第一部分他們的工作,用深度學(xué)習(xí)進(jìn)行行人識(shí)別。其中著重講了通過設(shè)計(jì)大小可變的卷積核來實(shí)現(xiàn)部分檢測器(Part detector),對于行人識(shí)別應(yīng)該是重要的一部分。
第二部分講更general的目標(biāo)檢測問題。首先介紹目標(biāo)檢測的困難有(經(jīng)篩選):
對比了他們的DeepID-Net和RCNN:
后面詳細(xì)的介紹了他們模型的每個(gè)環(huán)節(jié)??傮w來說,感覺每個(gè)環(huán)節(jié)都比較tricky,暫時(shí)也看不到有什么insight,故先略過了。之后專門研究object detection時(shí)可能還會(huì)重新看看他們的工作。
審核編輯 :李倩
-
機(jī)器視覺
+關(guān)注
關(guān)注
162文章
4375瀏覽量
120366 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121206
原文標(biāo)題:學(xué)習(xí)筆記 ——深度學(xué)習(xí)和機(jī)器視覺
文章出處:【微信號(hào):www_51qudong_com,微信公眾號(hào):機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論