深度學習是機器學習中一種基于對數(shù)據(jù)進行表征學習的方法。觀測值(例如一幅圖像)可以使用多種方式來表示,如每個像素強度值的向量,或者更抽象地表示成一系列邊、特定形狀的區(qū)域等。而使用某些特定的表示方法更容易從實例中學習任務(wù)(例如,人臉識別或面部表情識別)。
深度學習的好處是用非監(jiān)督式或半監(jiān)督式的特征學習和分層特征提取高效算法來替代手工獲取特征。深度學習是機器學習研究中的一個新的領(lǐng)域,其動機在于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機制來解釋數(shù)據(jù),例如圖像,聲音和文本。
人工智能、機器學習和深度學習三者的關(guān)系
深度學習與神經(jīng)網(wǎng)絡(luò)
現(xiàn)實世界中很多的問題都可以歸為分類或者識別或者選擇的問題,比如下圍棋,下一步的棋子落在什么地方,就是此類問題。而研究此類問題,學術(shù)界研究出來一種叫做“神經(jīng)網(wǎng)絡(luò)”的學習策略。
深度學習的概念就源于人工神經(jīng)網(wǎng)絡(luò)的研究,含多隱層的多層感知器就是一種深度學習結(jié)構(gòu)。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。
從X1/X2/X3輸入到輸出的過程,定義了一個層次的概念,譬如上圖就包括四層,包含最左邊的輸入層,和最右邊的輸出層。如果這是一道選擇題的話,那么題目就是輸入層,而ABCD的選擇結(jié)果就是輸出層,如上圖的L1和L2分別是輸入層和輸出層。
而選擇題解題的過程是不寫出來的,我們叫做”隱藏層“,這里L2和L3就是隱藏層,題目越難,給出的信息可能是越多的,而解題所需要的過程就越復(fù)雜的,也就可能需要更多的”隱藏層“來計算最終的結(jié)果。
最終要來解釋什么是深度學習的”深度“了,就是從”輸入層“到”輸出層“所經(jīng)歷層次的數(shù)目,即”隱藏層“的層數(shù),層數(shù)越多,板凳的深度也越深。所以越是復(fù)雜的選擇問題,越需要深度的層次多。當然,除了層數(shù)多外,每層”神經(jīng)元“,也就是如上圖,橙色小圓圈的數(shù)目也要多。例如,AlphaGo的策略網(wǎng)絡(luò)是13層,每一層的神經(jīng)元數(shù)量為192個。
總結(jié)一句話,深度學習就是用多層次的分析和計算手段,得到結(jié)果的一種方法。深度學習是用于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡(luò),并模仿人腦的機制來解釋數(shù)據(jù)的一種機器學習技術(shù)。
它的基本特點是試圖模仿大腦的神經(jīng)元之間傳遞、處理信息的模式,最顯著的應(yīng)用是計算機視覺和自然語言處理(NLP)領(lǐng)域。顯然,“深度學習”是與機器學習中的“神經(jīng)網(wǎng)絡(luò)”是強相關(guān),“神經(jīng)網(wǎng)絡(luò)”也是其主要的算法和手段;或者我們可以將“深度學習”稱之為“改良版的神經(jīng)網(wǎng)絡(luò)”算法。
深度學習發(fā)展史
學習任一門知識都應(yīng)該先從其歷史開始,把握了歷史,也就抓住了現(xiàn)在與未來 —— by BryantLJ
起源階段
1943年,由神經(jīng)科學家麥卡洛克(W.S.McCilloch) 和數(shù)學家皮茲(W.Pitts)在《數(shù)學生物物理學公告》上發(fā)表論文《神經(jīng)活動中內(nèi)在思想的邏輯演算》(A Logical Calculus of the Ideas Immanent in Nervous Activity)。建立了神經(jīng)網(wǎng)絡(luò)和數(shù)學模型,稱為MP模型。
MP模型是模仿神經(jīng)元的結(jié)構(gòu)和工作原理,構(gòu)成出的一個基于神經(jīng)網(wǎng)絡(luò)的數(shù)學模型,本質(zhì)上是一種“模擬人類大腦”的神經(jīng)元模型。當時是希望能夠用計算機來模擬人的神經(jīng)元反應(yīng)的過程,該模型將神經(jīng)元簡化為了三個過程:輸入信號線性加權(quán),求和,非線性激活(閾值法)。如下圖所示
MP模型作為人工神經(jīng)網(wǎng)絡(luò)的起源,開創(chuàng)了人工神經(jīng)網(wǎng)絡(luò)的新時代,也奠定了神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)。
1949年,加拿大著名心理學家唐納德·赫布在《行為的組織》中提出了與 “條件反射”機理一致的一種分類“網(wǎng)絡(luò)模型” —— 海布學習規(guī)則 (Hebb Rule),為以后的神經(jīng)網(wǎng)絡(luò)學習算法奠定了基礎(chǔ),具有重大的歷史意義。
1958年,計算機科學家羅森布拉特( Rosenblatt)提出了兩層神經(jīng)元組成的神經(jīng)網(wǎng)絡(luò),稱之為“感知器”(Perceptrons)。感知器本質(zhì)上是一種線性模型,可以對輸入的訓練集數(shù)據(jù)進行二分類,且能夠在訓練集中自動更新權(quán)值。感知器的提出吸引了大量科學家對人工神經(jīng)網(wǎng)絡(luò)研究的興趣,對神經(jīng)網(wǎng)絡(luò)的發(fā)展具有里程碑式的意義。
1962年,該方法被證明為能夠收斂,理論與實踐效果引起第一次神經(jīng)網(wǎng)絡(luò)的浪潮。
1969年,“AI之父”馬文·明斯基和LOGO語言的創(chuàng)始人西蒙·派珀特共同編寫了一本書籍《感知器》,在其著作中證明了感知器本質(zhì)上是一種線性模型(linear model),只能處理線性分類問題,就連最簡單的XOR(亦或)問題都無法正確分類。人工神經(jīng)網(wǎng)絡(luò)進入了第一個寒冬期,神經(jīng)網(wǎng)絡(luò)的研究開始陷入了將近20年的停滯。
發(fā)展階段
1986年,由神經(jīng)網(wǎng)絡(luò)之父 Geoffrey Hinton 在1986年發(fā)明了適用于多層感知器(MLP)的BP(Backpropagation)算法,并采用Sigmoid進行非線性映射,有效解決了非線性分類和學習的問題。該方法引起了神經(jīng)網(wǎng)絡(luò)的第二次熱潮。
但是由于八十年代計算機的硬件水平有限,這就導致當神經(jīng)網(wǎng)絡(luò)的規(guī)模增大時,再使用BP算法會出現(xiàn)“梯度消失”的問題,誤差梯度傳到前層時幾乎為0,因此無法對前層進行有效的學習,該問題直接阻礙了深度學習的進一步發(fā)展。
此外90年代中期,支持向量機算法誕生(SVM算法)為代表的其它淺層機器學習算法被提出。在分類、回歸問題上均取得了很好的效果,其原理又明顯不同于神經(jīng)網(wǎng)絡(luò)模型,所以人工神經(jīng)網(wǎng)絡(luò)的發(fā)展再次進入了瓶頸期。
爆發(fā)階段
2006年,加拿大多倫多大學教授、機器學習領(lǐng)域泰斗、神經(jīng)網(wǎng)絡(luò)之父 —— Geoffrey Hinton 和他的學生 Ruslan Salakhutdinov 在頂尖學術(shù)刊物《科學》上發(fā)表了一篇文章,該文章提出了深層網(wǎng)絡(luò)訓練中梯度消失問題的解決方案: 通過無監(jiān)督的學習方法逐層訓練算法,再使用有監(jiān)督的反向傳播算法進行調(diào)優(yōu),至此開啟了深度學習在學術(shù)界和工業(yè)界的浪潮。
2012年,Hinton課題組為了證明深度學習的潛力,首次參加ImageNet圖像識別比賽,其通過構(gòu)建的CNN網(wǎng)絡(luò)AlexNet一舉奪得冠軍,且碾壓第二名(SVM方法)的分類性能。也正是由于該比賽,CNN吸引到了眾多研究者的注意。
2014年,F(xiàn)acebook基于深度學習技術(shù)的DeepFace項目,在人臉識別方面的準確率已經(jīng)能達到97%以上,跟人類識別的準確率幾乎沒有差別。這樣的結(jié)果也再一次證明了深度學習算法在圖像識別方面的一騎絕塵。
2016年,隨著谷歌公司基于深度學習開發(fā)的AlphaGo以4:1的比分戰(zhàn)勝了國際頂尖圍棋高手李世石,深度學習的熱度一時無兩。2017年,基于強化學習算法的AlphaGo升級版AlphaGo Zero橫空出世。其采用“從零開始”、“無師自通”的學習模式,以100:0的比分輕而易舉打敗了之前的AlphaGo。
此外在這一年,深度學習的相關(guān)算法在醫(yī)療、金融、藝術(shù)、無人駕駛等多個領(lǐng)域均取得了顯著的成果。所以,也有專家把2017年看作是深度學習甚至是人工智能發(fā)展最為突飛猛進的一年。
深度學習的典型代表
在深度學習領(lǐng)域有兩個典型的代表:卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)。
· 卷積神經(jīng)網(wǎng)絡(luò)被廣泛的應(yīng)用在計算機視覺領(lǐng)域,比如說強大的AlphaGo就有用到卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)。
· 循環(huán)神經(jīng)網(wǎng)絡(luò)則被廣泛的應(yīng)用在語音識別處理領(lǐng)域,比如說百度翻譯、網(wǎng)絡(luò)音樂生產(chǎn)等。
深度學習又分為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,簡稱CNN)和深度置信網(wǎng)(Deep Belief Nets,簡稱DBN)。其主要的思想就是模擬人的神經(jīng)元,每個神經(jīng)元接受到信息,處理完后傳遞給與之相鄰的所有神經(jīng)元即可。
卷積神經(jīng)網(wǎng)絡(luò)
1962年Hubel和Wiesel通過對貓視覺皮層細胞的研究,提出了感受野(receptive field)的概念,1984年日本學者Fukushima基于感受野概念提出的神經(jīng)認知機(neocognitron)可以看作是卷積神經(jīng)網(wǎng)絡(luò)的第一個實現(xiàn)網(wǎng)絡(luò),也是感受野概念在人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域的首次應(yīng)用。
神經(jīng)認知機將一個視覺模式分解成許多子模式(特征),然后進入分層遞階式相連的特征平面進行處理,它試圖將視覺系統(tǒng)模型化,使其能夠在即使物體有位移或輕微變形的時候,也能完成識別。
隨著深度學習的繼續(xù)發(fā)展,受到貓腦視覺皮層研究中局部感受野的啟發(fā),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),通過稀疏連接、參數(shù)共享兩個思想改進了深度神經(jīng)網(wǎng)絡(luò)。左邊是CNN結(jié)構(gòu),右邊是全連接形式的神經(jīng)網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,已成為當前語音分析和圖像識別領(lǐng)域的研究熱點。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。該優(yōu)點在網(wǎng)絡(luò)的輸入是多維圖像時表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡(luò)是為識別二維形狀而特殊設(shè)計的一個多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。
CNN是第一個真正成功訓練多層網(wǎng)絡(luò)結(jié)構(gòu)的學習算法,它利用空間關(guān)系減少需要學習的參數(shù)數(shù)目以提高一般前向BP算法的訓練性能,CNN作為一個深度學習架構(gòu)提出是為了最小化數(shù)據(jù)的預(yù)處理要求。在CNN中,圖像的一小部分(局部感受區(qū)域)作為層級結(jié)構(gòu)的最低層的輸入,信息再依次傳輸?shù)讲煌膶樱繉油ㄟ^一個數(shù)字濾波器去獲得觀測數(shù)據(jù)的最顯著的特征。這個方法能夠獲取對平移、縮放和旋轉(zhuǎn)不變的觀測數(shù)據(jù)的顯著特征,因為圖像的局部感受區(qū)域允許神經(jīng)元或者處理單元可以訪問到最基礎(chǔ)的特征,例如定向邊緣或者角點。
深度學習的優(yōu)缺點
基于深度神經(jīng)網(wǎng)絡(luò)的端到端學習在最近幾年取得很大的成功,被大量應(yīng)用與計算機視覺、語音識別、自然語音處理、醫(yī)學圖像處理等領(lǐng)域中。
· 優(yōu)點:深度學習能讓計算機自動學習出模式特征,并將特征學習的特征融入到建模的過程中,從而減少了人為設(shè)計特征造成的不完備性。而目前有些深度學習,已經(jīng)達到了超越現(xiàn)有算法的識別或分類性能。
· 缺點:需要大數(shù)據(jù)支撐,才能達到高精度。由于深度學習中圖模型比較復(fù)雜,導致算法的時間復(fù)雜度急劇提升,需要更好的硬件支持。因此,只有一些經(jīng)濟實力比較強大的科研機構(gòu)或企業(yè),才能夠用深度學習來做一些前沿而實用的應(yīng)用。
另外,紐約大學教授、人工智能創(chuàng)業(yè)者Gary Marcus在2018年對深度學習的作用、局限性和本質(zhì)進行了重要的回顧。他指出了深度學習方法的局限性 —— 即需要更多的數(shù)據(jù)、容量有限、不能處理層次結(jié)構(gòu)、無法進行開放式推理、不能充分透明、不能與先驗知識集成、不能區(qū)分因果關(guān)系。
他還提到,深度學習假設(shè)了一個穩(wěn)定的世界,以近似方法實現(xiàn),工程化很困難并且存在著過度炒作的潛在風險。Marcus認為:深度學習需要重新概念化,并在非監(jiān)督學習、符號操作和混合模型中尋找可能性,從認知科學和心理學中獲得見解,并迎接更大膽的挑戰(zhàn)。
下面是深度學習目前的一些標志性公司以及代表性的技術(shù)。
· 語音識別技術(shù):國內(nèi)公司訊飛、百度、阿里,國外公司亞馬遜,微軟等,行業(yè)應(yīng)用就是智能音箱等產(chǎn)品。
· 圖像識別技術(shù):比如做安防的海康威視,圖森科技,依圖科技,曠視科技,代表性的就是面部識別,人臉識別,刷臉解鎖、支付等。
· 自動駕駛技術(shù):比如特斯拉,uber,百度等公司開發(fā)的。
· 金融領(lǐng)域的如:預(yù)測股價、醫(yī)療領(lǐng)域的疾病監(jiān)測,教育領(lǐng)域的技術(shù)賦能等。
深度學習與計算機視覺
傳統(tǒng)計算機視覺是廣泛算法的集合,主要目標是從圖像中提取特征,包括邊緣檢測、角點檢測、基于顏色的分割等子任務(wù)。目前,傳統(tǒng)計算機視覺已有多種用途,例如對不同的對象進行去噪、增強和檢測。
這種方法的主要問題是需要告訴系統(tǒng)在圖像中尋找哪些特性。本質(zhì)上,假設(shè)算法按照設(shè)計者的定義運行,所提取的特征是人為設(shè)計的。在實現(xiàn)中,算法性能差可以通過微調(diào)來解決,但是,這樣的更改需要手工完成,并且針對特定的應(yīng)用程序進行硬編碼,這對高質(zhì)量計算機視覺的實現(xiàn)造成了很大的障礙。
不過,深度學習的出現(xiàn)解決了這一問題。當前,深度學習系統(tǒng)在處理一些相關(guān)子任務(wù)方面取得了重大進展。深度學習最大的不同之處在于,它不再通過精心編程的算法來搜索特定特征,而是訓練深度學習系統(tǒng)內(nèi)的神經(jīng)網(wǎng)絡(luò)。隨著深度學習系統(tǒng)提供的計算能力的增強,計算機將能夠識別并對它所看到的一切做出反應(yīng),這一點已經(jīng)有了顯著的進展。
近年來,深度學習的發(fā)展不僅突破了很多難以解決的視覺難題,提升了對于圖像認知的水平,更是加速了計算機視覺領(lǐng)域相關(guān)技術(shù)的進步。相信,隨著深度學習模型的改進和計算能力的不斷提升,自主系統(tǒng)能夠繼續(xù)穩(wěn)步發(fā)展,真正實現(xiàn)可以解釋和反應(yīng)它們所感知到的東西。
深度學習對于計算機視覺系統(tǒng)來說無疑是一個有趣的補充。我們現(xiàn)在可以相對容易地“訓練”探測器來探測那些昂貴且不切實際的物體。我們還可以在一定程度上擴展這些檢測器,以使用更多的計算能力。
出人意料的是,深度學習教會了我們一些關(guān)于視覺數(shù)據(jù)(通常是高維數(shù)據(jù))的東西,這個觀點十分有趣:在某種程度上,數(shù)據(jù)比我們過去認為的要“淺”得多。
似乎有更多的方法來統(tǒng)計地分離標有高級人類類別的可視化數(shù)據(jù)集,然后有更多的方法來分離這些“語義正確”的數(shù)據(jù)集。換句話說,這組低水平的圖像特征比我們想象的更具“統(tǒng)計意義”。這是深度學習的偉大發(fā)現(xiàn)。
深度學習已經(jīng)成為計算機視覺系統(tǒng)的重要組成部分。但是傳統(tǒng)的計算機視覺并沒有走到那一步,而且,它仍然可以用來建造非常強大的探測器。這些人工制作的檢測器在某些特定的數(shù)據(jù)集度量上可能無法實現(xiàn)深度學習的高性能,但是可以保證依賴于輸入的“語義相關(guān)”特性集。
深度學習提供了統(tǒng)計性能強大的檢測器,而且不需要犧牲特征工程,不過仍然需要有大量的標記數(shù)據(jù)、大量GPU,以及深度學習專家。然而,這些強大的檢測器也會遭遇意外的失敗,因為它們的適用范圍無法輕易地描述(或者更確切地說,根本無法描述)。
評論
查看更多