0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí):理論和關(guān)注機(jī)制的進(jìn)展

機(jī)器視覺 ? 來源:CSDN ? 作者:xtyang315 ? 2022-05-13 10:00 ? 次閱讀

一、深度學(xué)習(xí):理論和關(guān)注機(jī)制的進(jìn)展(Yoshua Bengio)

二、深度語義學(xué)習(xí) (Xiaodong He)

三、深度神經(jīng)網(wǎng)絡(luò)GPU(Julie Bernauer)

四、深度視覺Keynote(Rahul Sukthankar)

五、學(xué)習(xí)和理解視覺表示(Andrea Vedaldi)

六、用于目標(biāo)檢測的可變深度卷積神經(jīng)網(wǎng)絡(luò)(Xiaogang Wang)

一直自稱研究方向是“機(jī)器視覺、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)”,然而除了做過幾個(gè)相關(guān)的項(xiàng)目以外,感覺自己對這個(gè)領(lǐng)域并沒有足夠深入的認(rèn)識(shí)和理解。趁著這個(gè)假期我要好好補(bǔ)補(bǔ)課了。今天先來看一些high level的內(nèi)容,看看深度學(xué)習(xí)近期的最近進(jìn)展以及其在機(jī)器視覺問題中的應(yīng)用。學(xué)習(xí)資料來源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides,介紹了理論、應(yīng)用、實(shí)現(xiàn)等方面的內(nèi)容,應(yīng)該是干貨滿滿的。對于每一個(gè)talk,我會(huì)把內(nèi)容框架記錄下來(可以check一下對這些點(diǎn)是否有一定了解?),并記下一些個(gè)人覺得有趣的點(diǎn)。

一、深度學(xué)習(xí):理論和關(guān)注機(jī)制的進(jìn)展(Yoshua Bengio)

顧名思義,Bengio的talk主要講了兩個(gè)部分:理論進(jìn)展和attention mechanism。理論進(jìn)展介紹了:

分布式表示的“指數(shù)級”優(yōu)點(diǎn)

深度的“指數(shù)級”優(yōu)點(diǎn)

非凸優(yōu)化和局部最小值

編碼器的概率解釋

Attention 機(jī)制則介紹了在機(jī)器翻譯、語音、圖像、視頻和記憶單元中的應(yīng)用。

分布式表示和深度的優(yōu)點(diǎn)Bengio之前的talk里已經(jīng)講過不少次了。簡單的說,雖然類似local partition的方法可以得到有用的表示,淺層(2層)的神經(jīng)網(wǎng)絡(luò)也可近似任意的函數(shù),但是分布式表示和深度的引入可以使特征表示和模型變得更加緊湊(compact),達(dá)到exponentially more statistically efficient的效果。

接下來提到了在深度學(xué)習(xí)中凸性質(zhì)(convexity)可能并不是必要的。因?yàn)樵诟呔S空間中,鞍點(diǎn)(saddle point)的存在是主要問題,而局部最小值通常都會(huì)很接近全局最小值了。這部分的內(nèi)容比較陌生,有興趣可以看看最近的論文。

Attention 機(jī)制方面,講了很多最新的進(jìn)展。有很多相關(guān)的paper都非常有趣,我要找個(gè)時(shí)間好好看看這個(gè)系列了。一個(gè)基本的思路是:我們給每一層引入一個(gè)額外的輸入,這個(gè)輸入反應(yīng)的是之前的一個(gè)加權(quán),來表示它們的關(guān)注程度。在所謂的soft-attention中,這個(gè)加權(quán)的值可以直接通過BP訓(xùn)練得到。記下幾句有趣的話:
- They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them tocapture multiple time scales
- They could be used to help deal withlong-term dependencies, allowing some states to last for arbitrarily long

二、深度語義學(xué)習(xí) (Xiaodong He)

來自微軟研究院的報(bào)告,主要內(nèi)容:

學(xué)習(xí)文本的語義性(semantic)表示

知識(shí)庫和問答系統(tǒng)

多模態(tài)(圖片——文本)語義模型

講座開始引入了一點(diǎn)有趣的motivation:一般我們測試機(jī)器是否能夠理解圖片(其實(shí)就是訓(xùn)練對了),方法是給圖片標(biāo)記標(biāo)簽然后計(jì)算其錯(cuò)誤率。然而對于含有豐富內(nèi)容的復(fù)雜場景來說,很難定義所有fine-grained的類別。因此,用自然語言的描述來測試對圖片的理解是比較好的方式。

從 Word2Vec 到 Sent2Vec:Deep Structured Semantic Model (DSSM),雖然我們不知道該如何標(biāo)記一個(gè)句子的語義,但我們知道哪些句子的語義是比較接近的,因此文章通過優(yōu)化一個(gè)基于相似性的目標(biāo)函數(shù)來訓(xùn)練模型,使具有相近語義的句子產(chǎn)生距離相近的向量。接著還介紹了很多模型的細(xì)節(jié)和變種(卷積DSSM、遞歸DSSM),在此就不贅述了。

Deep Multimodal Similarity Model (DMSM):將目標(biāo)函數(shù)中兩個(gè)句子的相似性改成句子和圖片的相似性,便可以將DSSM擴(kuò)展為一個(gè)多模態(tài)的模型。

09c15960-d260-11ec-bce3-dac502259ad0.png

MSR系統(tǒng)解決圖片–>語言問題:

圖片詞語檢測(Image word detection)

句子生成(Language generation)

全局語義性重排序(Global semantic re-ranking)

其中圖片詞語檢測用了CNN+MIL(Multiple Instance Learning)的方法,個(gè)人對此比較感興趣,文章在此。

三、深度神經(jīng)網(wǎng)絡(luò)和GPU(Julie Bernauer)

換個(gè)口味,我們來看看NVIDIA關(guān)于深度學(xué)習(xí)和GPU的結(jié)合??偟膩碚f,內(nèi)容上跟NVIDIA官網(wǎng)上介紹深度學(xué)習(xí)的slides沒什么不同。主要介紹了GPU有什么好處、GPU有多牛,還有一些支持GPU的庫和工具。

一張比較好的圖:

09e39f02-d260-11ec-bce3-dac502259ad0.png

有用的工具:

Lasagne:基于theano上的開源庫,能方便搭建一個(gè)深度網(wǎng)絡(luò)。(Keras用得不太爽,可以試試這個(gè))

四、深度視覺Keynote(Rahul Sukthankar)

來看看來自google的報(bào)告。這個(gè)talk里面的內(nèi)容都不太熟悉,但是看起來都非常有意思。主要內(nèi)容有:

用Peer Presssure方法來找high value mistake

結(jié)合深度學(xué)習(xí)和其他機(jī)器學(xué)習(xí)方法來更好解決視覺問題

首先來看看Peer Pressure。這是Rahul組最近的一個(gè)工作:The Virtues of Peer Pressure: A Simple Method for Discovering High-Value Mistakes。所謂“high-value mistake”,指的是那些我們認(rèn)為訓(xùn)練好的模型可以準(zhǔn)確預(yù)測的樣本,結(jié)果它卻“犯傻”了。因此這些樣本也叫做“hard positive”,難以答對的樣子。

從頭說起,深度神經(jīng)網(wǎng)絡(luò)雖然有很多成功的應(yīng)用,但同時(shí)也被發(fā)現(xiàn)很容易犯愚蠢的錯(cuò)誤(比如上述的high-value mistake)。因此作者提出了Peer Pressure:集成+對抗訓(xùn)練(emsembles+adversarial training)的方法,來找到這些錯(cuò)誤。簡單來說就是,有一組訓(xùn)練于同樣數(shù)據(jù)但是初始化或者結(jié)構(gòu)不同的NN分類器(稱作peers),如果一個(gè)樣本出現(xiàn)其中一個(gè)NN輸出與其它都不一致的情況(其它NN淡然都是一致的了),那么它應(yīng)該就是high-value mistake。尋找這類錯(cuò)誤當(dāng)然是有價(jià)值的啦:(1)它可以用在發(fā)掘無標(biāo)簽的數(shù)據(jù)中(2)可以用來合成新的hard positive樣本。

接下來提到將上述的方法應(yīng)用到視頻當(dāng)中,找出anchor frame附近的hard positive 幀,用來訓(xùn)練更好的模型。其中具有semantic consistency的幀是通過Dense Trajectory來確定的。感覺挺有意思,可惜沒找到相應(yīng)的paper,那就上張圖吧。

0a499e56-d260-11ec-bce3-dac502259ad0.png

五、學(xué)習(xí)和理解視覺表示(Andrea Vedaldi)

來自牛津大學(xué)的報(bào)告,題目看起來還是很吸引人的。大綱如下(略有失望,好像就是講CNN的):

黑盒:一個(gè)將CNN用于圖片文字識(shí)別的例子

架構(gòu):卷積和紋理

可視化:CNN所知道的圖片

性質(zhì):對比CNN和視覺幾何

第一個(gè)例子用CNN做OCR,感覺并不是很有趣。一個(gè)challenge是它的類別特別多(90k個(gè)類,對應(yīng)90k個(gè)單詞)。他們解決的辦法是增量地訓(xùn)練網(wǎng)絡(luò),即先只訓(xùn)練5k個(gè)類,再逐步添加5k個(gè)新的類。。。效果好像還不錯(cuò)。

第二部分講分辨紋理。提出用CNN的卷積層加上Fisher Vector(替換全連接層)來做,效果不錯(cuò)不錯(cuò)的。

第三部分可視化,看看就好。

第四部分還不錯(cuò),講的是圖像變換對特征表示的影響。除去語義層面上的影響(特征的不變性跟任務(wù)相關(guān)),我們通常希望圖像的特征表示不受圖像變換的影響,如翻轉(zhuǎn)和仿射變換。

類內(nèi)差異大,包括:部分出現(xiàn)(part existence)、顏色、遮擋、變形

0a68b372-d260-11ec-bce3-dac502259ad0.png

0ac6f1c6-d260-11ec-bce3-dac502259ad0.png

六、用于目標(biāo)檢測的可變深度卷積神經(jīng)網(wǎng)絡(luò)(Xiaogang Wang)

最后一個(gè)talk,講的是我最近比較關(guān)注的目標(biāo)檢測問題,主要介紹他們的DeepID-Net。

第一部分他們的工作,用深度學(xué)習(xí)進(jìn)行行人識(shí)別。其中著重講了通過設(shè)計(jì)大小可變的卷積核來實(shí)現(xiàn)部分檢測器(Part detector),對于行人識(shí)別應(yīng)該是重要的一部分。

第二部分講更general的目標(biāo)檢測問題。首先介紹目標(biāo)檢測的困難有(經(jīng)篩選):

對比了他們的DeepID-Net和RCNN:

0b03452c-d260-11ec-bce3-dac502259ad0.png

后面詳細(xì)的介紹了他們模型的每個(gè)環(huán)節(jié)??傮w來說,感覺每個(gè)環(huán)節(jié)都比較tricky,暫時(shí)也看不到有什么insight,故先略過了。之后專門研究object detection時(shí)可能還會(huì)重新看看他們的工作。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器視覺
    +關(guān)注

    關(guān)注

    162

    文章

    4375

    瀏覽量

    120366
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5503

    瀏覽量

    121206

原文標(biāo)題:學(xué)習(xí)筆記 ——深度學(xué)習(xí)和機(jī)器視覺

文章出處:【微信號(hào):www_51qudong_com,微信公眾號(hào):機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)模型

    深度學(xué)習(xí)近年來在多個(gè)領(lǐng)域取得了顯著的進(jìn)展,尤其是在圖像識(shí)別、語音識(shí)別和自然語言處理等方面。卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一個(gè)分支,因其在圖像處理
    的頭像 發(fā)表于 11-15 14:52 ?348次閱讀

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動(dòng)力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?607次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識(shí)別 圖像識(shí)別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?399次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?788次閱讀

    深度學(xué)習(xí)中的時(shí)間序列分類方法

    時(shí)間序列分類(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之一,廣泛應(yīng)用于人體活動(dòng)識(shí)別、系統(tǒng)監(jiān)測、金融預(yù)測、醫(yī)療診斷等多個(gè)領(lǐng)域。隨著深度
    的頭像 發(fā)表于 07-09 15:54 ?954次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,近年來在多個(gè)領(lǐng)域取得了顯著的成果,特別是在圖像識(shí)別、語音識(shí)別、自然語言處理等領(lǐng)域。然而,深度學(xué)習(xí)模型
    的頭像 發(fā)表于 07-09 10:50 ?761次閱讀

    基于AI深度學(xué)習(xí)的缺陷檢測系統(tǒng)

    在工業(yè)生產(chǎn)中,缺陷檢測是確保產(chǎn)品質(zhì)量的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的人工檢測方法不僅效率低下,且易受人為因素影響,導(dǎo)致誤檢和漏檢問題頻發(fā)。隨著人工智能技術(shù)的飛速發(fā)展,特別是深度學(xué)習(xí)技術(shù)的崛起,基于AI深度學(xué)
    的頭像 發(fā)表于 07-08 10:30 ?1452次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域中兩個(gè)非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。 深度
    的頭像 發(fā)表于 07-05 09:47 ?943次閱讀

    深度學(xué)習(xí)常用的Python庫

    深度學(xué)習(xí)作為人工智能的一個(gè)重要分支,通過模擬人類大腦中的神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜問題。Python作為一種流行的編程語言,憑借其簡潔的語法和豐富的庫支持,成為了深度學(xué)習(xí)研究和應(yīng)用的首選工具。
    的頭像 發(fā)表于 07-03 16:04 ?657次閱讀

    TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

    深度學(xué)習(xí)作為人工智能領(lǐng)域的一個(gè)重要分支,在過去十年中取得了顯著的進(jìn)展。在構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型的過程中,
    的頭像 發(fā)表于 07-02 14:04 ?976次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對比

    在人工智能的浪潮中,機(jī)器學(xué)習(xí)深度學(xué)習(xí)無疑是兩大核心驅(qū)動(dòng)力。它們各自以其獨(dú)特的方式推動(dòng)著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機(jī)器學(xué)習(xí)的范疇,但
    的頭像 發(fā)表于 07-01 11:40 ?1406次閱讀

    深度解析深度學(xué)習(xí)下的語義SLAM

    隨著深度學(xué)習(xí)技術(shù)的興起,計(jì)算機(jī)視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展,例如目標(biāo)的檢測、識(shí)別和分類等領(lǐng)域。近年來,研究人員開始在視覺SLAM算法中引入深度
    發(fā)表于 04-23 17:18 ?1299次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>下的語義SLAM

    為什么深度學(xué)習(xí)的效果更好?

    導(dǎo)讀深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,已成為人工智能領(lǐng)域的一項(xiàng)變革性技術(shù),在從計(jì)算機(jī)視覺、自然語言處理到自動(dòng)駕駛汽車等廣泛的應(yīng)用中取得了顯著的成功。深度
    的頭像 發(fā)表于 03-09 08:26 ?630次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的效果更好?

    什么是深度學(xué)習(xí)?機(jī)器學(xué)習(xí)深度學(xué)習(xí)的主要差異

    2016年AlphaGo 擊敗韓國圍棋冠軍李世石,在媒體報(bào)道中,曾多次提及“深度學(xué)習(xí)”這個(gè)概念。
    的頭像 發(fā)表于 01-15 10:31 ?1084次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>?機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的主要差異

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    在如今的網(wǎng)絡(luò)時(shí)代,錯(cuò)綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境,讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年,深度學(xué)習(xí)逐漸走進(jìn)人們的視線,通過深度
    的頭像 發(fā)表于 01-11 10:51 ?2061次閱讀
    詳解<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用