這兩年人工智能(Artificial Intelligence)領(lǐng)域熱鬧非凡,不僅科技巨頭紛紛發(fā)力AI取得技術(shù)與產(chǎn)品的突破,還有眾多初創(chuàng)企業(yè)獲得風(fēng)險資本的青睞,幾乎每周都可以看到相關(guān)領(lǐng)域初創(chuàng)公司獲得投資的報道。AiphaGo在圍棋游戲中大勝李世石使人們對AI刮目相看的同時也引發(fā)了對AI將如何改變我們生活的思考。
其實,人工智能從上世紀(jì)40年代誕生至今,經(jīng)歷了一次又一次的繁榮與低谷,下面我們就來回顧下過去半個世紀(jì)里人工智能的發(fā)展歷程。
|人工智能發(fā)展的七個階段
1.起源階段:人工智能真正誕生于20世紀(jì)的40 - 50年代。這段時間里,大量從事數(shù)學(xué)、工程、計算機(jī)等研究領(lǐng)域的科學(xué)家們開始探討“人工大腦”的可能性。1950年阿蘭 圖靈(Alan Turing)發(fā)表了題為“機(jī)器能思考嗎”的著名論文,提出了著名的圖靈測試來定義機(jī)器智能。他說只要有30%的人類測試者在5分鐘內(nèi)無法分辨出被測試對象究竟是人類還是機(jī)器,就可以認(rèn)為機(jī)器通過了圖靈測試。
圖1:圖靈測試
2.第一次黃金時期:專業(yè)術(shù)語“人工智能”(Artificial Intelligence)誕生于1956年的達(dá)特矛斯會議,由計算機(jī)科學(xué)家John McCarthy首次正式提出。達(dá)特矛斯會議之后的十多年是人工智能的第一次黃金時代,科學(xué)家們對人工智能的前景滿懷激情,大批研究者撲向這一新領(lǐng)域,一些頂尖高校建立的人工智能項目獲得了ARPA等機(jī)構(gòu)的大筆經(jīng)費,甚至有研究者認(rèn)為機(jī)器很快就能替代人類完成一切工作。
3.第一次低谷:到了70年代,由于計算機(jī)性能瓶頸、計算復(fù)雜性的增長以及數(shù)據(jù)量的不足,很多人工智能科研項目的承諾無法兌現(xiàn),比如計算機(jī)視覺根本找不到足夠的數(shù)據(jù)庫進(jìn)行訓(xùn)練,智能也就無從談起。因此,學(xué)界將人工智能分為兩種:難以實現(xiàn)的強(qiáng)人工智能和可以嘗試的弱人工智能。強(qiáng)人工智能就是能像人類一樣執(zhí)行通用任務(wù);弱人工智能則只能處理單一問題。很多項目的進(jìn)度停滯不前也影響了資助資金的走向,AI陷入了長達(dá)數(shù)年之久的低谷。
4.專家系統(tǒng)的出現(xiàn):70年代之后,學(xué)術(shù)界逐漸接受新的思路:人工智能不光要研究算法,還得引入知識。于是,專家系統(tǒng)誕生了。它利用數(shù)字化的知識去推理,模仿某一領(lǐng)域的專家去解決問題?!爸R處理”開始成為人工智能的研究重點。,1977年世界人工智能大會提出“知識工程”的啟發(fā),rb的第五代計算機(jī)計劃、英國的阿爾維計劃、歐洲的尤里卡計劃和mg的星計劃相繼出臺,帶來專家系統(tǒng)的高速發(fā)展。
5.第二次經(jīng)費危機(jī):20世紀(jì)90年代之前的大部分人工智能項目都是靠zf機(jī)構(gòu)資助,經(jīng)費走向直接影響著人工智能的發(fā)展。80年代中期,蘋果和IBM的臺式機(jī)性能已經(jīng)超過了運用專家系統(tǒng)的通用型計算機(jī),專家系統(tǒng)的風(fēng)光隨之褪去,人工智能研究再次遭遇經(jīng)費危機(jī)。
6.IBM的深藍(lán)和Watson:專家系統(tǒng)之后,機(jī)器學(xué)習(xí)成為了人工智能的焦點,其目的是讓機(jī)器具備自動學(xué)習(xí)的能力,通過算法使得機(jī)器能夠從大量歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律并對新的樣本作出判斷識別。。在這一階段,IBM無疑是人工智能領(lǐng)域的領(lǐng)袖,1996年IBM公司的AI系統(tǒng)“深藍(lán)”戰(zhàn)勝了國際象棋世界冠軍卡斯帕羅夫,2011年IBM公司的AI系統(tǒng)Watson在電視問答節(jié)目中戰(zhàn)勝人類選手。后者涉及到放到現(xiàn)在仍然是難題的自然語言理解,成為機(jī)器理解人類語言的里程碑事件。
7.深度學(xué)習(xí)的強(qiáng)勢崛起:深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的第二次浪潮。2013年4月,《麻省理工學(xué)院技術(shù)評論》將深度學(xué)習(xí)列為2013年十大突破性技術(shù)之首。其實,深度學(xué)習(xí)并非新事物,它是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(Neural Network)的發(fā)展,兩者采用了相似的分層結(jié)構(gòu),不同之處在于深度學(xué)習(xí)采用了不同的訓(xùn)練機(jī)制,具備強(qiáng)大的表達(dá)能力。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)曾經(jīng)在機(jī)器學(xué)習(xí)領(lǐng)域火過一陣子,但后來由于參數(shù)難于調(diào)整和訓(xùn)練速度慢等問題逐漸淡出了人們的視野。
但是有一位叫Geoffrey Hinton的多倫多大學(xué)老教授非常執(zhí)著于神經(jīng)網(wǎng)絡(luò)的研究,并和Yoshua Bengio、Yann LeCun一起提出了可行的深度學(xué)習(xí)方案。2012年Hinton的學(xué)生在圖片分類競賽ImageNet上打敗了Google,頓時讓學(xué)術(shù)界和工業(yè)界嘩然,吸引了工業(yè)界對深度學(xué)習(xí)的大規(guī)模投入。2012年Google Brain用16000個CPU核的計算平臺訓(xùn)練10億神經(jīng)元的深度網(wǎng)絡(luò),無外界干涉下自動識別出了“Cat”;Hinton的DNN初創(chuàng)公司被Google收購,Hinton個人也加入了Google;而另一位大牛LeCun加入Facebook,出任AI實驗室主任。不僅科技巨頭們加大對AI的投入,一大批初創(chuàng)公司乘著深度學(xué)習(xí)的東風(fēng)涌現(xiàn),使得人工智能領(lǐng)域熱鬧非凡。
|人工智能之主要引擎:深度學(xué)習(xí)
機(jī)器學(xué)習(xí)發(fā)展分為兩個階段,起源于上世紀(jì)20年代的淺層學(xué)習(xí)(ShallowLearning)和最近幾年才火起來的深度學(xué)習(xí)(Deep Learning)。淺層學(xué)習(xí)的算法中最先被發(fā)明的是神經(jīng)網(wǎng)絡(luò)的反向傳播算法(back propagation)。為什么稱之為淺層呢,因為當(dāng)時的訓(xùn)練模型是只含有一層隱含層的淺層模型。這種模型有個很大的弱點,那就是有限參數(shù)和計算單元,特征表達(dá)能力弱。
上世紀(jì)90年代,學(xué)術(shù)界提出一系列的淺層機(jī)器學(xué)習(xí)模型,包括風(fēng)行一時的支撐向量機(jī)Support Vector Machine,Boosting等。這些模型相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在效率和準(zhǔn)確率上都有所提升。但后來人們發(fā)現(xiàn),識別精度到達(dá)一定程度后,即使訓(xùn)練再多的數(shù)據(jù),再怎么調(diào)整參數(shù),精度也無法繼續(xù)提高。
在此期間,Hinton教授一直執(zhí)著于多隱層神經(jīng)網(wǎng)絡(luò)的算法研究。多隱層神經(jīng)網(wǎng)絡(luò)其實就是淺層神經(jīng)網(wǎng)絡(luò)的深度版本,試圖使用更多的神經(jīng)元來表達(dá)特征,其實現(xiàn)難點主要在于以下三方面:
BP算法中誤差的反向傳播隨著隱層的增加而衰減;很多時候只能達(dá)到局部最優(yōu)解;
模型參數(shù)增加,對訓(xùn)練數(shù)據(jù)的量有很高要求,如果不能提供龐大的標(biāo)識數(shù)據(jù),可能會導(dǎo)致過度復(fù)雜;
多隱層結(jié)構(gòu)的參數(shù)多,訓(xùn)練數(shù)據(jù)的規(guī)模大,需要消耗很多計算資源。
圖2:傳統(tǒng)神經(jīng)網(wǎng)絡(luò)與多隱層神經(jīng)網(wǎng)絡(luò)
2006年,Hinton和他的學(xué)生R.R. Salakhutdinov成功訓(xùn)練出多層神經(jīng)網(wǎng)絡(luò),在《Science》上發(fā)表文章(Reducingthe dimensionality of data with neural networks),改變了整個機(jī)器學(xué)習(xí)的格局。這篇文章有兩個主要觀點:1)多隱層神經(jīng)網(wǎng)絡(luò)有更強(qiáng)大的學(xué)習(xí)能力,可以表達(dá)更多特征來描述對象;2)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時,可通過降維(pre-training)來實現(xiàn)。Hinton教授設(shè)計的Autoencoder網(wǎng)絡(luò)能夠快速找到好的全局最優(yōu)點,采用無監(jiān)督的方法先分開對每層網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后再進(jìn)行微調(diào)。
圖3:圖像的與訓(xùn)練,編碼→解碼→微調(diào)
從圖3我們可以看到,深度神經(jīng)網(wǎng)絡(luò)是逐層進(jìn)行預(yù)訓(xùn)練,得到每一層的輸出;同時引入編碼器和解碼器,通過原始輸入與編碼→再解碼之后的誤差來訓(xùn)練,這兩步都是無監(jiān)督訓(xùn)練過程;最后引入有標(biāo)識樣本,通過有監(jiān)督訓(xùn)練來進(jìn)行微調(diào)。逐層訓(xùn)練的好處是讓模型處于一個接近全局最優(yōu)的位置去獲得更好的訓(xùn)練效果。
以上就是Hinton在2006年提出的著名的深度學(xué)習(xí)框架,而我們實際運用深度學(xué)習(xí)網(wǎng)絡(luò)的時候,不可避免的會碰到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)。CNN的原理是模仿人類神經(jīng)元的興奮過程:大腦中的一些神經(jīng)細(xì)胞只有在特定方向的邊緣存在時才能做出反應(yīng)。打個比方,當(dāng)我們非常近距離地觀察一張人臉圖片時,這時候我們的大腦中只有一部分神經(jīng)元是被激活的,我們也只能看到人臉上的像素級別點,當(dāng)我們把距離一點點拉開,大腦其他部分的神經(jīng)元將會被激活,我們也就可以觀察到人臉的線條→圖案→局部→整個人臉,這就是一步步獲得高層特征的過程。
圖4:基本完整的深度學(xué)習(xí)流程
深度學(xué)習(xí)的好處是顯而易見的 – 特征表達(dá)能力強(qiáng),有能力表示大量的數(shù)據(jù);預(yù)訓(xùn)練是無監(jiān)督訓(xùn)練,節(jié)省大量人力標(biāo)識工作;相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),通過逐層訓(xùn)練的方法降低了訓(xùn)練難度,如信號衰減的問題。深度學(xué)習(xí)在很多領(lǐng)域比淺層學(xué)習(xí)算法往往有20-30%的提高,驅(qū)使研究者發(fā)現(xiàn)新大陸一般涌向深度學(xué)習(xí)這一領(lǐng)域。
|深度學(xué)習(xí)的重要發(fā)展領(lǐng)域
深度學(xué)習(xí)首先在圖像、聲音和語義識別取得了長足的進(jìn)步,特別是在圖像和聲音領(lǐng)域相比傳統(tǒng)算法大大提升了識別率。其實也很容易理解,深度學(xué)習(xí)是模仿人類大腦神經(jīng)感知外部世界的算法,而最常見的外部自然信號莫過于圖像、聲音和文字(非語義)。
圖像識別:圖像是深度學(xué)習(xí)最早嘗試的領(lǐng)域。YannLeCun早在1989年就開始了卷積神經(jīng)網(wǎng)絡(luò)的研究,取得了在一些小規(guī)模(手寫字)的圖像識別的成果,但在大像素圖片識別上遲遲沒有突破,直到2012年Hinton和他學(xué)生在ImageNet上的突破,才使識別精度提高了一大截。2014年,xg中文大學(xué)教授湯曉鷗領(lǐng)導(dǎo)的計算機(jī)視覺研究組開發(fā)了名為DeepID的深度學(xué)習(xí)模型,在人臉識別上獲得了99.15%的識別率,超過了人類肉眼的的識別率(97.52%)。
語音識別:語音識別長期以來都使用混合高斯模型來建模,盡管降低了語音識別的錯誤率,但在有噪音的實際自然環(huán)境中達(dá)不到可用的級別。直到深度學(xué)習(xí)的出現(xiàn),使得識別錯誤率在以往最好的基礎(chǔ)上相對下降30%以上,達(dá)到商業(yè)可用的水平。
自然語言處理(NLP):即使到現(xiàn)在,深度學(xué)習(xí)在NLP領(lǐng)域并沒有取得像圖像識別或者語音識別領(lǐng)域那樣的成就,基于統(tǒng)計的模型仍然是NLP的主流,先通過語義分析提取關(guān)鍵詞、關(guān)鍵詞匹配、算法判定句子功能(找出距離這個句子最近的標(biāo)識好的句子),最后再利用提前準(zhǔn)備的數(shù)據(jù)庫提供用戶輸出結(jié)果。顯然,這明顯談不上智能,只能算一種搜索功能的實現(xiàn),而缺乏真正的語言能力。
為什么深度學(xué)習(xí)在NLP領(lǐng)域進(jìn)展緩慢?這是因為,對語音和圖像來說,其構(gòu)成元素(輪廓、線條、語音幀)不用經(jīng)過預(yù)處理都能清晰反映出要識別的對象,可以直接放到神經(jīng)網(wǎng)絡(luò)里進(jìn)行識別。而語義識別大不相同:人說的每句話并非自然信號,含有豐富多變的語義,對它的理解需要參考上下文語境的,有時候還會涉及到大量的文化背景知識。因此,仿人類大腦識別機(jī)制建立的深度學(xué)習(xí),對經(jīng)過我們?nèi)祟惔竽X處理的文字信號的理解,效果反而差強(qiáng)人意。根本上來說,現(xiàn)在的算法還屬于弱人工智能,可以去幫人類快速的自動執(zhí)行(識別),卻不能理解這件事情本身。
|深度學(xué)習(xí)的挑戰(zhàn)和發(fā)展方向
受益于計算能力的提升和大數(shù)據(jù)的出現(xiàn),深度學(xué)習(xí)在計算機(jī)視覺和語音識別領(lǐng)域成就斐然,不過我們也看到了一些深度學(xué)習(xí)的局限性,亟待解決:
深度學(xué)習(xí)在學(xué)術(shù)領(lǐng)域取得了不錯的成果,但在商業(yè)上對企業(yè)幫助并不明顯。因為深度學(xué)習(xí)是一個映射的過程,從輸入A映射到輸出B,而在企業(yè)活動中如果我已經(jīng)擁有了這樣的A→B映射,為什么還需要機(jī)器學(xué)習(xí)來推斷呢?讓機(jī)器自己在數(shù)據(jù)中尋找這種映射關(guān)系或者進(jìn)行yc,目前還存在很大難度。
缺乏理論基礎(chǔ),這是困擾著研究者的問題。比如說,AlphaGo這盤棋贏了,你很難弄懂它是怎么贏的。可以說,深度學(xué)習(xí)是一個黑箱子,神經(jīng)網(wǎng)絡(luò)需要多少個隱層來訓(xùn)練,到底需要多少有效的參數(shù)等,都沒有很好的理論解釋。
深度學(xué)習(xí)需要大量的訓(xùn)練樣本。由于深度學(xué)習(xí)的多層網(wǎng)絡(luò)結(jié)構(gòu),模型的參數(shù)也會增加,如果訓(xùn)練樣本不夠大是很難實現(xiàn)的,需要海量的標(biāo)記數(shù)據(jù),避免產(chǎn)生過擬合現(xiàn)象(overfitting)而不能很好的表示整個數(shù)據(jù)。
深度學(xué)習(xí)在NLP領(lǐng)域還面臨很大挑戰(zhàn),目前的模型缺乏理解及推理能力。
因此,深度學(xué)習(xí)將來的發(fā)展方向也將涉及到以上問題的解決。Hinton、LeCun和Bengio三位AI領(lǐng)袖曾在合著的一篇論文(Deep Learning)的結(jié)尾提出了深度學(xué)習(xí)的未來發(fā)展方向:
無監(jiān)督學(xué)習(xí)。雖然監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中表現(xiàn)不俗,超過了無監(jiān)督學(xué)習(xí)在預(yù)訓(xùn)練中的效果,但人類和動物的學(xué)習(xí)都是無監(jiān)督學(xué)習(xí)方式,我們感知世界都是通過我們自己的觀察,因此若要更加接近人類大腦的學(xué)習(xí)模式,無監(jiān)督學(xué)習(xí)需要得到更好的發(fā)展。
強(qiáng)化學(xué)習(xí)。增強(qiáng)學(xué)習(xí)指的是從外部環(huán)境到行為映射的學(xué)習(xí),通過基于回報函數(shù)的試錯來發(fā)現(xiàn)最優(yōu)行為。由于在實際運用中數(shù)據(jù)量是遞增的,在新數(shù)據(jù)中能否學(xué)習(xí)到有效的數(shù)據(jù)并做出修正非常重要,深度+強(qiáng)化學(xué)習(xí)可以提供獎勵的反饋機(jī)制讓機(jī)器自主的學(xué)習(xí),典型案例是AlphaGo。
理解自然語言。老教授們說:趕緊讓機(jī)器讀懂人類的語言吧!
遷移學(xué)習(xí)。把利用大數(shù)據(jù)訓(xùn)練好的模型遷移運用到有效數(shù)據(jù)量小的任務(wù)上,也就是把學(xué)到的知識有效的解決不同但相關(guān)領(lǐng)域的問題。這事情看起來很美好,但難點在于已訓(xùn)練好的模型存在自我偏差,需要高效算法去消除這些偏差。根本上來說,就是讓機(jī)器像人類一樣具備快速學(xué)習(xí)新知識的能力。
自深度學(xué)習(xí)被Hinton在《Science》發(fā)表以來,短短的不到10年時間里,帶來了人工智能在視覺、語音等領(lǐng)域的突破性進(jìn)步,再一次掀起來人工智能的熱潮。雖然目前仍然存在很多差強(qiáng)人意的地方,距離強(qiáng)人工智能還有很大差距,但深度學(xué)習(xí)是目前最接近人類大腦運作原理的算法。相信在將來,隨著算法的完善以及數(shù)據(jù)的積累,甚至硬件層面仿人類大腦神經(jīng)元材料的出現(xiàn),深度學(xué)習(xí)將會更進(jìn)一步推動人工智能的發(fā)展。
審核編輯 黃昊宇
-
人工智能
+關(guān)注
關(guān)注
1792文章
47440瀏覽量
238989 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5507瀏覽量
121295
發(fā)布評論請先 登錄
相關(guān)推薦
評論