我們正處在人工智能革命的過程中,越來越多的人開始認(rèn)識(shí)到人工智能的強(qiáng)大力量。在這篇訪談中,微軟劍橋研究院院長(zhǎng)Christopher Bishop博士將為大家介紹現(xiàn)代觀念下的機(jī)器學(xué)習(xí),并展望了未來幾年我們將如何教會(huì)機(jī)器學(xué)習(xí),提高創(chuàng)造新技術(shù)的能力。
人工智能和機(jī)器學(xué)習(xí)的發(fā)展比人們想象的要慢得多也快得多。人們主觀地認(rèn)為,這兩個(gè)領(lǐng)域在很長(zhǎng)一段時(shí)間沒有進(jìn)展,突然又在一夜之間取得突破。但實(shí)際上,人工智能和機(jī)器學(xué)習(xí)正經(jīng)歷著相對(duì)穩(wěn)定且積極的發(fā)展。
在某些領(lǐng)域特別是多層神經(jīng)網(wǎng)絡(luò)(即深度學(xué)習(xí))領(lǐng)域,一些理論已經(jīng)存在了很長(zhǎng)時(shí)間,而最新的研究進(jìn)展提升了這些理論的準(zhǔn)確度和性能,在例如語音識(shí)別和圖像識(shí)別等方面彰顯出巨大的實(shí)用價(jià)值。機(jī)器學(xué)習(xí)有很大潛力,也得到了充分的重視——人們對(duì)機(jī)器學(xué)習(xí)的關(guān)注度和興奮度空前高漲,研究人員只能不斷推動(dòng)技術(shù)的進(jìn)步以滿足人們的期望。
現(xiàn)代觀念下的機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)研究領(lǐng)域有一個(gè)我很喜歡的理論,叫做“沒有免費(fèi)的午餐定理”。它的大意是對(duì)于應(yīng)用機(jī)器學(xué)習(xí)方法去解決問題,在沒有實(shí)際背景條件下,不同算法之間并沒有優(yōu)劣之分,換句話說,并不存在一種能解決所有問題的機(jī)器學(xué)習(xí)通用算法。
或許確實(shí)存在某些算法,它們對(duì)于現(xiàn)實(shí)世界中可能遇到的各種類型的問題都能給出不錯(cuò)的解決方案,例如,深層神經(jīng)網(wǎng)絡(luò)等技術(shù)就有可能很通用,但是“沒有免費(fèi)午餐定理”也告訴我們不能僅從數(shù)據(jù)中學(xué)習(xí),而要在特定背景下學(xué)習(xí)數(shù)據(jù),這些模型或假設(shè)情境中的數(shù)據(jù)才是機(jī)器學(xué)習(xí)的關(guān)鍵。
假設(shè)取決于你正在解決的特定問題,這也就意味著我們不是要探尋能夠解決所有問題的唯一通用算法,而是要針對(duì)特定問題,找到最合適的技術(shù)。
對(duì)不確定性進(jìn)行量化是機(jī)器學(xué)習(xí)的基礎(chǔ),我把它稱為“現(xiàn)代觀念下的機(jī)器學(xué)習(xí)”。傳統(tǒng)上,我們認(rèn)為機(jī)器學(xué)習(xí)模型是一種函數(shù),將它與某些數(shù)據(jù)進(jìn)行擬合從而進(jìn)行預(yù)測(cè),就像借助數(shù)據(jù)擬合曲線一樣。
在此過程中,你要不斷調(diào)整參數(shù)設(shè)置,使神經(jīng)網(wǎng)絡(luò)能在訓(xùn)練集上得到正確結(jié)果,并在測(cè)試集上也有同樣的效果。從更廣泛意義上理解,機(jī)器學(xué)習(xí)真正的過程就是機(jī)器對(duì)這個(gè)世界進(jìn)行建模,這個(gè)模型對(duì)不確定性進(jìn)行量化,不確定性的積分就是概率。
因此,機(jī)器是建立在概率的基礎(chǔ)之上的,它對(duì)世界的理解本身就包含著不確定性。但是,隨著它“看”到的數(shù)據(jù)越來越多,這種不確定性通常會(huì)降低,換句話說,機(jī)器從數(shù)據(jù)中學(xué)到了一些東西。
這一思想在“貝葉斯定理”這一優(yōu)雅的數(shù)學(xué)理論中得到了體現(xiàn),因此,我認(rèn)為貝葉斯定理,以及“通過概率量化不確定性”的思路,正是機(jī)器學(xué)習(xí)的基石。
這種“基于模型的機(jī)器學(xué)習(xí)”借鑒先驗(yàn)知識(shí)、領(lǐng)域知識(shí)的想法,是機(jī)器學(xué)習(xí)領(lǐng)域非常重要的問題。不要把它看作一種特定技術(shù),而要將其視為一種觀點(diǎn),一種理解機(jī)器學(xué)習(xí)的方法。
不妨想象一下,你是機(jī)器學(xué)習(xí)領(lǐng)域的一名新手。你發(fā)現(xiàn)這個(gè)領(lǐng)域已經(jīng)發(fā)表過成千上萬篇論文,包含成百上千種名稱各異的算法,你仿佛在大海上漂流卻沒帶指南針。
你需要閱讀所有這些文件,并且全部理解它們嗎?如果想解決實(shí)際問題卻不太熟悉其中所需的全部技術(shù)該怎么辦?你可以采用這種“基于模型”的思想:思考你的機(jī)器學(xué)習(xí)解決方案中的假設(shè)并用明晰的語句寫下來,然后將這些假設(shè)轉(zhuǎn)化為模型。
但這個(gè)模型只是你的假設(shè)的數(shù)學(xué)表達(dá),接下來將模型與數(shù)據(jù)相結(jié)合,運(yùn)行這個(gè)模型,機(jī)器就會(huì)自動(dòng)學(xué)習(xí)。如果你做出了很好的假設(shè),機(jī)器就能夠非常有效地從數(shù)據(jù)中學(xué)習(xí),從數(shù)據(jù)中提取到更多信息。
但同時(shí),如果你做出一個(gè)錯(cuò)誤的假設(shè),那么機(jī)器不僅會(huì)做出錯(cuò)誤的預(yù)測(cè),而且可能非常堅(jiān)持這些錯(cuò)誤預(yù)測(cè),因此要十分小心。
微軟劍橋研究院院長(zhǎng)Christopher Bishop
人工智能革命
我們正處于許多人所說的“人工智能革命”過程中,人們對(duì)此感到興奮并開始炒作這個(gè)概念。
而對(duì)我來說,人工智能是一個(gè)宏偉的愿望,是一個(gè)產(chǎn)生并不斷改進(jìn)媲美人類智慧的超長(zhǎng)期目標(biāo),我們還有很長(zhǎng)的路要走。那么人們對(duì)人工智能的看法是不是不合時(shí)宜的或高興得太早?炒作出來的泡沫是否遲早會(huì)破滅?我的回答是否定的。
近些年確實(shí)發(fā)生了一些深刻的轉(zhuǎn)型事件,不過它不是與人工智能有關(guān),而與我們創(chuàng)造新技術(shù)的方法革命有關(guān)。類比硬件的發(fā)展:人們需要硬件和軟件來構(gòu)建新技術(shù),在硬件方面,例如作為硬件的計(jì)算機(jī),多年來變得更快、更好也更便宜,然而,這種進(jìn)步并不是線性的。
在“光刻”技術(shù)發(fā)明以前,計(jì)算機(jī)一直處于平穩(wěn)發(fā)展的狀態(tài),光刻技術(shù)讓我們得以“印刷”晶體管,我們不再需要制造單個(gè)組件然后組裝,而是將整個(gè)電路一次性地“印刷”在硅片上。
這項(xiàng)發(fā)明的影響是深刻的,因?yàn)樗層布l(fā)展速度躍升到指數(shù)級(jí),這就是著名的“摩爾定律”。這之后才有以下事情的發(fā)生:微軟公司的創(chuàng)立,把超級(jí)計(jì)算機(jī)裝進(jìn)口袋等等。
因此,在所謂的人工智能革命(實(shí)質(zhì)是機(jī)器學(xué)習(xí)革命)中,軟件的發(fā)展歷程也會(huì)出現(xiàn)一個(gè)類似的“奇點(diǎn)時(shí)刻”。
我們不妨回顧一下軟件的起源。世界上第一位軟件開發(fā)者Ada Lovelace在為巴貝奇(Babbage)分析機(jī)寫軟件時(shí)必須準(zhǔn)確指出每一個(gè)步驟。
時(shí)至今日,軟件開發(fā)者的工作方式也沒什么兩樣,他們?nèi)皂毟嬖V機(jī)器如何解決問題,只是工作效率更高,但制約其發(fā)展的瓶頸就在于人類智慧的缺失。
然而,如果借助機(jī)器學(xué)習(xí),我們將獲得一種完全不同的軟件編寫方式:我們不再需要通過對(duì)機(jī)器編程來解決問題,而是讓它們能夠?qū)W習(xí),然后用數(shù)據(jù)對(duì)它進(jìn)行訓(xùn)練。
目前,制約其進(jìn)步的因素是數(shù)據(jù),這也是機(jī)器學(xué)習(xí)的動(dòng)力。我們編寫機(jī)器學(xué)習(xí)算法讓計(jì)算機(jī)可以從經(jīng)驗(yàn)中學(xué)習(xí),現(xiàn)在,我們用數(shù)據(jù)對(duì)機(jī)器進(jìn)行訓(xùn)練。如今世界上數(shù)據(jù)量的增長(zhǎng)速度已經(jīng)達(dá)到了指數(shù)級(jí)別,事實(shí)上,它每隔幾年就會(huì)翻一番。
隨著對(duì)城市的監(jiān)測(cè),隨著物聯(lián)網(wǎng)的普及,隨著我們對(duì)自身了解的深入,隨著我們收集到越來越多的數(shù)據(jù),這個(gè)趨勢(shì)還將持續(xù)很長(zhǎng)一段時(shí)間,而這一切都將成為機(jī)器學(xué)習(xí)革命的動(dòng)力源泉。這也就是為什么我會(huì)認(rèn)為有關(guān)人工智能的炒作并非不正確,只是為時(shí)過早。
真正令人興奮的是,未來幾年我們創(chuàng)造新技術(shù)的能力將呈指數(shù)級(jí)增長(zhǎng),這種能力并非是通過對(duì)機(jī)器進(jìn)行編程,而是通過讓機(jī)器學(xué)會(huì)學(xué)習(xí)。
機(jī)器學(xué)習(xí)帶來的挑戰(zhàn)
如今,我們坐擁前所未有的計(jì)算能力、龐大的數(shù)據(jù)集和復(fù)雜的算法。計(jì)算機(jī)科學(xué)的研究人員開始意識(shí)到,有些問題并非僅僅依靠計(jì)算機(jī)科學(xué)家就能解決的,而這只是過去30年來這一領(lǐng)域的眾多變革之一。
在我從事機(jī)器學(xué)習(xí)研究的最初25年間,我們的目標(biāo)是降低錯(cuò)誤率,提升算法性能。
如今,錯(cuò)誤率已被降低,高精度算法正在解決現(xiàn)實(shí)世界中存在的問題,并擁有越來越多的應(yīng)用前景,但是與此同時(shí),我們也不得不考慮將這些算法付諸現(xiàn)實(shí)之后所催生的新問題。
首先,產(chǎn)品的終端用戶獲得某種體驗(yàn),卻不想直接與算法打交道,這就需要能夠營造某種用戶體驗(yàn)的用戶界面,因此,聘請(qǐng)能夠設(shè)計(jì)用戶體驗(yàn)的設(shè)計(jì)師就顯得很重要。
同時(shí),還需要社會(huì)科學(xué)家,理解人們是如何使用技術(shù)的。我們還需要考慮針對(duì)AI的惡意攻擊,以及如何防御這些攻擊。我們需要考慮如何利用普通終端用戶可以理解的語言對(duì)問題加以解釋。
以及如何讓來自不同領(lǐng)域的人們共同工作——他們通常來自迥異的文化、熟悉不同的語言并使用各自的術(shù)語,但是如果真的想解決問題,他們必須和衷共濟(jì)。
很多人都在談?wù)撽P(guān)于偏見、公平性和透明度等話題,但我認(rèn)為我們無需擔(dān)心。關(guān)注這些問題固然非常重要,但好在人們一直在探討這些問題,許多非常聰明的研究人員也正努力破解這個(gè)問題。
對(duì)此我并不是很擔(dān)心,這并非因?yàn)檫@些問題不棘手或者不重要,但是至少我們已經(jīng)認(rèn)識(shí)到了它們的存在,正在探討和研究它們,并且已經(jīng)取得了進(jìn)展。
如果說有什么關(guān)于機(jī)器學(xué)習(xí)和人工智能的問題讓我夜不能寐,那就是技術(shù)探索和發(fā)展過程中遇到的障礙——也許是關(guān)于偏見,隱私,或者安全。
有一些事情會(huì)讓我們對(duì)機(jī)器學(xué)習(xí)技術(shù)冷眼相向,甚至不惜放棄技術(shù)可能帶來的機(jī)會(huì)——就醫(yī)療保健領(lǐng)域,在未來幾十年乃至幾個(gè)世紀(jì)里,人工智能將能夠切實(shí)改善人們的生活,拯救無數(shù)生命。
所以,在我們小心地討論技術(shù)所帶來的各種挑戰(zhàn)和風(fēng)險(xiǎn)時(shí),也不能忽視其中蘊(yùn)含的巨大潛在利益,這樣才能在二者之間找到平衡。
-
人工智能
+關(guān)注
關(guān)注
1794文章
47622瀏覽量
239586 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132912
原文標(biāo)題:微軟劍橋研究院院長(zhǎng)Christopher Bishop:機(jī)器學(xué)習(xí)的基礎(chǔ)是什么?
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論