近年來,人工智能的強勢崛起,特別是剛剛過去的AlphaGo和韓國九段棋手李世石的人機大戰(zhàn),讓我們領(lǐng)略到了人工智能技術(shù)的巨大潛力。數(shù)據(jù)是載體,智能是目標(biāo),而機器學(xué)習(xí)是從數(shù)據(jù)通往智能的技術(shù)途徑。因此,機器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心,是現(xiàn)代人工智能的本質(zhì)。
通俗地說,機器學(xué)習(xí)就是從數(shù)據(jù)中挖掘出有價值的信息。數(shù)據(jù)本身是無意識的,它不能自動呈現(xiàn)出有用的信息。怎樣才能找出有價值的東西呢?第一步要給數(shù)據(jù)一個抽象的表示;接著基于表示進(jìn)行建模;然后估計模型的參數(shù),也就是計算;為了應(yīng)對大規(guī)模的數(shù)據(jù)所帶來的問題,我們還需要設(shè)計一些高效的實現(xiàn)手段,包括硬件層面和算法層面。統(tǒng)計是建模的主要工具和途徑,而模型求解大多被定義為一個優(yōu)化問題,特別是,頻率派方法其實就是一個優(yōu)化問題。而貝葉斯模型的計算則往往牽涉蒙特卡洛(Monte Carlo)隨機抽樣方法。因此,機器學(xué)習(xí)是計算機科學(xué)和統(tǒng)計學(xué)的交叉學(xué)科。
借鑒計算機視覺理論創(chuàng)始人馬爾(Marr)的關(guān)于計算機視覺的三級論定義,我把機器學(xué)習(xí)也分為三個層次:初級、中級和高級。初級階段是數(shù)據(jù)獲取以及特征的提取。中級階段是數(shù)據(jù)處理與分析,它又包含三個方面:首先是應(yīng)用問題導(dǎo)向,簡單地說,它主要應(yīng)用已有的模型和方法解決一些實際問題,我們可以理解為數(shù)據(jù)挖掘;其次,根據(jù)應(yīng)用問題的需要,提出和發(fā)展模型、方法和算法以及研究支撐它們的數(shù)學(xué)原理或理論基礎(chǔ)等,這是機器學(xué)習(xí)學(xué)科的核心內(nèi)容;第三,通過推理達(dá)到某種智能。高級階段是智能與認(rèn)知,即實現(xiàn)智能的目標(biāo)。數(shù)據(jù)挖掘和機器學(xué)習(xí)本質(zhì)上是一樣的,其區(qū)別是數(shù)據(jù)挖掘更接近于數(shù)據(jù)端,而機器學(xué)習(xí)則更接近于智能端。
統(tǒng)計與計算
今年剛被選為美國科學(xué)院院士的卡內(nèi)基梅隆大學(xué)統(tǒng)計系教授沃塞曼(Larry Wasserman)寫了一本名字非常霸道的書:《統(tǒng)計學(xué)完全教程》(All of Statistics)。這本書的引言部分有一個關(guān)于統(tǒng)計學(xué)與機器學(xué)習(xí)非常有趣的描述。沃塞曼認(rèn)為,原來統(tǒng)計是在統(tǒng)計系,計算機是在計算機系,這兩者是不相來往的,而且互相都不認(rèn)同對方的價值。計算機學(xué)家認(rèn)為那些統(tǒng)計理論沒有用,不解決問題,而統(tǒng)計學(xué)家則認(rèn)為計算機學(xué)家只是在“重新發(fā)明輪子”,沒有新意。然而,他認(rèn)為現(xiàn)在情況改變了,統(tǒng)計學(xué)家認(rèn)識到計算機學(xué)家正在做出的貢獻(xiàn),而計算機學(xué)家也認(rèn)識到統(tǒng)計的理論和方法論的普遍性意義。所以,沃塞曼寫了這本書,可以說這是一本為統(tǒng)計學(xué)者寫的計算機領(lǐng)域的書,為計算機學(xué)者寫的統(tǒng)計領(lǐng)域的書。
現(xiàn)在大家達(dá)成了一個共識:如果你在用一個機器學(xué)習(xí)方法,而不懂其基礎(chǔ)原理,這是一件非??膳碌氖虑?。正是由于這個原因,目前學(xué)術(shù)界對深度學(xué)習(xí)還是心存疑慮的。盡管深度學(xué)習(xí)已經(jīng)在實際應(yīng)用中展示出其強大的能力,但其中的原理目前大家還不是太清楚。
計算機學(xué)家通常具有強大的計算能力和解決問題的直覺,而統(tǒng)計學(xué)家擅長于理論分析和問題建模,因此,兩者具有很好的互補性。Boosting、支持向量機(SVM)、集成學(xué)習(xí)和稀疏學(xué)習(xí)是機器學(xué)習(xí)界也是統(tǒng)計界在近十年或者是近二十年來最為活躍的方向,這些成果是統(tǒng)計界和計算機科學(xué)界共同努力成就的。例如,數(shù)學(xué)家瓦普尼克(Vapnik) 等人早在20世紀(jì)60年代就提出了支持向量機的理論,但直到計算機界于90年代末發(fā)明了非常有效的求解算法,并隨著后續(xù)大量優(yōu)秀實現(xiàn)代碼的開源,支持向量機現(xiàn)在成為了分類算法的一個基準(zhǔn)模型。再比如,核主成分分析(Kernel Principal Component Analysis, KPCA)是由計算機學(xué)家提出的一個非線性降維方法,其實它等價于經(jīng)典多維尺度分析(Multi-Dimensional Scaling, MDS)。而后者在統(tǒng)計界是很早就存在的,但如果沒有計算機界重新發(fā)現(xiàn),有些好的東西可能就被埋沒了。
世界上公認(rèn)最好的兩個統(tǒng)計系來自加州大學(xué)伯克利分校和斯坦福大學(xué)。加州大學(xué)伯克利分校是美國統(tǒng)計學(xué)的發(fā)源地之一,可以說是當(dāng)今統(tǒng)計學(xué)和機器學(xué)習(xí)的中心,其機器學(xué)習(xí)領(lǐng)域的教授通常同時在計算機系和統(tǒng)計系都有正式職位。已故的布萊曼(Leo Breiman)教授是統(tǒng)計機器學(xué)習(xí)的主要奠基人,他是眾多統(tǒng)計學(xué)習(xí)方法的主要貢獻(xiàn)者,比如Bagging、分類回歸樹(CART)、隨機森林以及非負(fù)garrote稀疏模型等。布萊曼是喬丹(Michael Jordan)教授的伯樂,當(dāng)初是他力主把喬丹從麻省理工學(xué)院引進(jìn)到伯克利分校的??梢哉f,伯克利分校的統(tǒng)計系成就了喬丹,反過來他也為伯克利分校的統(tǒng)計學(xué)發(fā)展創(chuàng)造了新的活力,為機器學(xué)習(xí)領(lǐng)域培養(yǎng)了一大批優(yōu)秀的學(xué)者,建立了無可代替的功勛。
斯坦福大學(xué)統(tǒng)計系的一個主要方向就是統(tǒng)計學(xué)習(xí),比如《統(tǒng)計學(xué)習(xí)基礎(chǔ)》(Elements of statistical learning)一書就是統(tǒng)計系幾位著名教授撰寫的。斯坦福大學(xué)計算機科學(xué)系的人工智能方向一直在世界占主導(dǎo)地位,特別是在不確定推理、概率圖模型、概率機器人等領(lǐng)域成就斐然。他們的網(wǎng)絡(luò)公開課“機器學(xué)習(xí)”、“概率圖模型”以及“人工智能”等讓全世界學(xué)者受益。有意思的是,斯坦福大學(xué)和伯克利分校具有令人羨慕的合作競爭關(guān)系。一年一度的聯(lián)合統(tǒng)計學(xué)日是兩校統(tǒng)計系的交流平臺。伯克利分校教授布萊曼和斯坦福大學(xué)教授弗萊德曼(Jerome Friedman)合作建立了許多重要統(tǒng)計學(xué)習(xí)模型。此外,兩校教授羅素(Stuart Russell)和諾維格(Peter Norvig)合作的《人工智能:一種現(xiàn)代的方法》(Artificial Intelligence: A Modern Approach)一書是人工智能的集大成。
卡內(nèi)基梅隆大學(xué)是一個非常獨特的學(xué)校,它并不是美國傳統(tǒng)的常春藤大學(xué)。可以說,它是以計算機科學(xué)為立校之本,是世界第一個建立機器學(xué)習(xí)系的學(xué)校。米歇爾(Tom Mitchell)教授是機器學(xué)習(xí)的早期建立者之一和守護(hù)者,他一直為該校本科生講授“機器學(xué)習(xí)”課程。這個學(xué)校的統(tǒng)計學(xué)同樣也是一流,是貝葉斯統(tǒng)計學(xué)的世界研究中心。
在機器學(xué)習(xí)領(lǐng)域,多倫多大學(xué)有著舉足輕重的地位,它的機器學(xué)習(xí)研究組云集了一批世界級的學(xué)者,在《科學(xué)》(Science)和《自然》(Nature)發(fā)表多篇開創(chuàng)性的論文,實屬罕見。辛頓(Geoffrey Hinton)教授是偉大的思想家,更是實踐者。他是神經(jīng)網(wǎng)絡(luò)的建立者之一,是誤差反向傳播(BP)算法和深度學(xué)習(xí)的主要貢獻(xiàn)者。正是由于他的不懈努力,神經(jīng)網(wǎng)絡(luò)迎來了大爆發(fā)。尼爾(Radford Neal)教授是辛頓的學(xué)生,他在貝葉斯統(tǒng)計領(lǐng)域,特別是在蒙特卡洛馬爾科夫鏈模擬方法(MCMC)方面做出了一系列的重要工作,還開源了許多貝葉斯統(tǒng)計方法程序包,并一直致力于優(yōu)化R語言。
評論
查看更多