在2018清潔發(fā)展國際融資論壇上,北京交通大學(xué)人工智能研究院常務(wù)副院長、教授于劍先生從專業(yè)角度回顧了人工智能的發(fā)展歷程,并介紹了深度學(xué)習(xí)的適用范圍和所面臨的問題。他指出,深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域最引人注目的研究方向,但沒有任何一種算法可以解決機器學(xué)習(xí)所有的應(yīng)用。
深度學(xué)習(xí)算法的分類
深度學(xué)習(xí)在早期被稱為神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種特殊的學(xué)習(xí)方式,在神經(jīng)網(wǎng)絡(luò)領(lǐng)域,人們將學(xué)習(xí)定義為“基于經(jīng)驗數(shù)據(jù)的函數(shù)估計問題”。需要指出,這樣的學(xué)習(xí)定義雖然非常片面,但對于神經(jīng)網(wǎng)絡(luò)而言已經(jīng)夠用了。如此一來,如何構(gòu)造函數(shù),并應(yīng)用經(jīng)驗數(shù)據(jù)將其估計出來,就成了神經(jīng)網(wǎng)絡(luò)面臨的首要問題。
學(xué)習(xí)算法的分類有很多種。一種分類方式是將學(xué)習(xí)算法分為傻瓜型學(xué)習(xí)算法與專家型學(xué)習(xí)算法。所謂傻瓜型學(xué)習(xí)算法,就是任何人使用得到的結(jié)果都差別不大的學(xué)習(xí)算法。所謂專家型學(xué)習(xí)算法,就是專家與普通人使用得到的結(jié)果差別巨大的學(xué)習(xí)算法,每個人得出的結(jié)果很難一致。當然,中間還有一些處于兩者之間的學(xué)習(xí)算法,既不是純傻瓜型的也是不純專家型的。
另一種學(xué)習(xí)算法分類,是黑箱算法和白箱算法。所謂黑箱算法,是指使用者難以明白學(xué)習(xí)算法學(xué)到的知識,特別是其學(xué)習(xí)到的知識難以解釋。所謂白箱算法,是指使用者容易明白學(xué)習(xí)算法學(xué)到的知識,特別是其學(xué)習(xí)到的知識可以解釋清楚。
有了以上四個概念之后,我們就可以回顧早期的神經(jīng)網(wǎng)絡(luò)是如何發(fā)展成今天的深度學(xué)習(xí)的了。
早期神經(jīng)網(wǎng)絡(luò)無法解決非線性問題
神經(jīng)網(wǎng)絡(luò)第一個成熟算法是線性感知器算法,該算法是白箱、傻瓜型算法,特點是節(jié)點為恒同映射,不同層次節(jié)點間的關(guān)系是線性組合關(guān)系,優(yōu)點是解釋性好,如線性可分的時候,可以證明迭代有限步就收斂。這個算法在當時得到了很大的支持,拿到了大批基金。
但很遺憾,在1969年,Minsky與Papert提出的一個著名的反例——異或問題,給了線性感知器算法致命一擊。世界的問題大多是非線性問題,而線性感知器算法連非線性問題中最簡單的“異或問題”都解決不了,由此可以推斷其實際用處不大。從此以后的10多年時間里,在國際上,無論是東方還是西方,無論是前蘇聯(lián)還是日本、美國,看到神經(jīng)網(wǎng)絡(luò)都視之為騙子,不再給予支持,這也直接導(dǎo)致了神經(jīng)網(wǎng)絡(luò)第一個冬天的到來。
多層前饋神經(jīng)網(wǎng)絡(luò)的崛起與失敗
早期的神經(jīng)網(wǎng)絡(luò)不成功是因為是線性的,如果改成非線性是不是好一點呢?到1982年以后,Hopfield發(fā)了好幾篇文章,證明了非線性網(wǎng)絡(luò)的有用性。這時候的神經(jīng)網(wǎng)絡(luò)已經(jīng)是典型的黑箱、專家型算法了。
多層前饋神經(jīng)網(wǎng)絡(luò)非常成功的應(yīng)用在了郵政編碼的識別中。20世紀80年代是美國郵政最發(fā)達的年代,當時通訊幾乎全都是紙質(zhì)的,有大量的信件需要發(fā)送,工作量特別大。人們希望用機器代替,就用了郵政編碼的自動分撿系統(tǒng),可以做到三分之二正確識別,剩下三分之一拒識的由人分撿,這樣大大減輕了工作量。
這時候神經(jīng)網(wǎng)絡(luò)有很大的改變,取得了很大的進展,節(jié)點使用非線性函數(shù),訓(xùn)練時間長,一般為三層:輸入層、隱層、輸出層。主要是證明了神經(jīng)網(wǎng)絡(luò)的萬有逼近定理:“如果一個隱層包含足夠的多神經(jīng)元,多層前饋神經(jīng)網(wǎng)絡(luò)能以任意精度逼近任意預(yù)定的連續(xù)函數(shù)”。在神經(jīng)網(wǎng)絡(luò)采用的學(xué)習(xí)定義下,該定理證明了神經(jīng)網(wǎng)絡(luò)的萬能性。由此,當時人們甚至認為神經(jīng)網(wǎng)絡(luò)可以無所不能。據(jù)說,1988年IJCNN(國際神經(jīng)網(wǎng)絡(luò)聯(lián)合會議)曾經(jīng)貼出一個瘋狂的標語,稱:“人工智能已死,神經(jīng)網(wǎng)絡(luò)萬歲”。
但是,當人瘋狂的時候就要挨揍了。如果有其他算法比神經(jīng)網(wǎng)絡(luò)性能好一點,解釋性強一些,就一定能將神經(jīng)網(wǎng)絡(luò)打入冷宮。這樣的事情真的發(fā)生了,1995年支持向量機(SVM)橫空出世,該算法比神經(jīng)網(wǎng)絡(luò)算法解釋性好,其幾何解釋干凈漂亮,性能比當時的三層神經(jīng)好一些。這時候神經(jīng)網(wǎng)絡(luò)進入了第二個冬天,好在這個冬天并沒有第一個那么冷,基金支持并沒有徹底斷絕,能不能拿到基金,主要看人品和運氣。
突破三層的神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)迎來春天
但是SVM也有缺陷,它主要是處理小數(shù)據(jù)的,是小樣本學(xué)習(xí)的典范算法。而到了2008年以后,我們迎來了大數(shù)據(jù)時代,各行各業(yè)都有大量的數(shù)據(jù),而且電腦的計算能力也大幅度地提高了,因此SVM在很多領(lǐng)域?qū)㈦y以適用。以往的神經(jīng)網(wǎng)絡(luò)基本上都是三層的,原因是四層以上的神經(jīng)網(wǎng)絡(luò)會遇到數(shù)據(jù)量、計算力不足和梯度消失等問題。如果以上三個問題能夠解決,就能為深度學(xué)習(xí)奠定很好的基礎(chǔ)。
到2010年左右,人們通過采用新的激勵函數(shù),逐漸克服了梯度消失或者發(fā)散問題,加之數(shù)據(jù)量和計算力的不斷提高,深度學(xué)習(xí)迎來了蓬勃發(fā)展。這使得化名為深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)研究進入了另一個春天。
我們現(xiàn)在所說的深度學(xué)習(xí),可以理解為層數(shù)高于三層的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)最重要的區(qū)別是:神經(jīng)網(wǎng)絡(luò)的主流算法考慮時空數(shù)據(jù)的局部相關(guān)性較少,大多時候假設(shè)特征之間的獨立性;而深度學(xué)習(xí)的主流算法基本考慮了時空數(shù)據(jù)的局部相關(guān)性,如CNN,RNN,LSTM等。深度學(xué)習(xí)可以使學(xué)習(xí)能力提高,而訓(xùn)練樣本并不需要增加太多。
到2016年,神經(jīng)網(wǎng)絡(luò)深度就已經(jīng)達到1207層。隨著深度的提高,算法的錯誤率可以快速減少。深度學(xué)習(xí)避開了單純的特征提取過程,給出了一種將學(xué)習(xí)和表示合二為一的范式。這種方式導(dǎo)致深度學(xué)習(xí)在有人監(jiān)督學(xué)習(xí)中非常成功,同時在自監(jiān)督學(xué)習(xí)中也取得了很大的成功,但在一般意義上的無監(jiān)督學(xué)習(xí)中還沒有取得成功。
深度學(xué)習(xí)并非萬能,仍有局限
深度學(xué)習(xí)不僅是目前熱度最高的人工智能研究方向,也是工業(yè)應(yīng)用最廣泛的學(xué)習(xí)范式,但深度學(xué)習(xí)也有其局限性。沒有免費午餐的定理指出,沒有任何一種算法可以解決機器學(xué)習(xí)所有的應(yīng)用。深度學(xué)習(xí)也有很多“不能”的地方。比如,深度學(xué)習(xí)和人類學(xué)習(xí)相比,人用不了多么大的樣本就可以學(xué)習(xí),但是深度學(xué)習(xí)用的樣本比較多。
此外,由于深度學(xué)習(xí)屬于黑箱型算法,人類將無法知曉算法做出決策的原因與依據(jù)。它適用于各種低風(fēng)險甚至無風(fēng)險性任務(wù),包括搜素引擎和AlphaGo等棋牌游戲,這類任務(wù)即使發(fā)生錯誤,后果也不嚴重,并不要求算法去解釋這些錯誤為什么會發(fā)生。
但對于高風(fēng)險任務(wù),包括無人駕駛、醫(yī)療手術(shù)等,一旦發(fā)生錯誤,由于成本巨大,必須能夠分析出發(fā)生錯誤的原因,以避免類似錯誤再次發(fā)生,此時,深度學(xué)習(xí)在解釋性方面將存在弊端。
總而言之,深度學(xué)習(xí)的表示能力超強,因此,在不要求解釋的學(xué)習(xí)任務(wù)中,深度學(xué)習(xí)的性能在可見的將來將一直占優(yōu)。但是,在要求解釋的學(xué)習(xí)任務(wù)里,深度學(xué)習(xí)將不是一個值得期待的工具。
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121169
原文標題:深度學(xué)習(xí)的能與不能
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論