來(lái)源:人工智能和大數(shù)據(jù)
人工智能未來(lái)的理解與創(chuàng)造
人類(lèi)社會(huì)的發(fā)展就是不斷發(fā)現(xiàn)、理解與創(chuàng)造的過(guò)程。原始社會(huì)利用工具解決生活問(wèn)題,發(fā)現(xiàn)現(xiàn)象并理解現(xiàn)象背后的規(guī)律,進(jìn)而改造甚至創(chuàng)造這個(gè)世界,這就是人類(lèi)社會(huì)發(fā)展的脈絡(luò)。
信息時(shí)代,艾克特25歲帶領(lǐng)團(tuán)隊(duì)做出了第一個(gè)計(jì)算機(jī)系統(tǒng)。馮·諾依曼給出了現(xiàn)代計(jì)算機(jī)系統(tǒng)的新架構(gòu),并沿用至今。計(jì)算機(jī)推動(dòng)了世界的數(shù)字化,包含兩個(gè)歷程,一個(gè)是符號(hào)化,二是模型化。數(shù)字是表達(dá)現(xiàn)象,模型化是對(duì)現(xiàn)象的理解過(guò)程。
1946年至今不到百年,計(jì)算機(jī)的發(fā)展為人類(lèi)帶來(lái)了巨大的價(jià)值。
人工智能參與理解與改造世界
人工智能時(shí)代出現(xiàn)了三位深度學(xué)習(xí)的奠基人,也是2019年的圖靈獎(jiǎng)獲得者。第一是Geoffrey Hinton(杰弗里?辛頓),反向傳播算法的代表人物;第二是Yann LeCun(楊立昆),卷積神經(jīng)網(wǎng)絡(luò)的代表人物;第三是Yoshua Bengio(約書(shū)亞?本吉奧),序列概率模型的代表人物。
那么人工智能將如何參與理解和改造世界?王恩東院士曾有一問(wèn),人類(lèi)怎么預(yù)測(cè)蛋白質(zhì)的作用?諸如此類(lèi)的復(fù)雜問(wèn)題,靠人類(lèi)的預(yù)測(cè)是無(wú)法做到的。以深度學(xué)習(xí)為代表的人工智能推動(dòng)了例如科技、醫(yī)療、電子、金融等行業(yè)的快速發(fā)展,正如總書(shū)記說(shuō)的,人工智能具有賦能作用很強(qiáng)的頭雁效應(yīng)。
人工智能的局限性
同時(shí),我們更應(yīng)看到人工智能的局限性:其一,自動(dòng)駕駛領(lǐng)域中人工智能的相關(guān)應(yīng)用,已經(jīng)凸顯了其在魯棒性、遷移性及能效比等方面的問(wèn)題;其二,在醫(yī)療領(lǐng)域中的應(yīng)用凸顯了人工智能算法自適應(yīng)能力的局限,清華大學(xué)跟301醫(yī)院合作,用20萬(wàn)條男性50歲的腦卒數(shù)據(jù)做訓(xùn)練,但在做預(yù)測(cè)時(shí)發(fā)現(xiàn)對(duì)女性腦卒疾病的預(yù)測(cè)準(zhǔn)確度并不高;其三,人工智能可解決一定的問(wèn)題,但其工作原理還沒(méi)有明確的可解釋性。
還有一個(gè)經(jīng)典案例——莫拉維克悖論。這臺(tái)波士頓動(dòng)力的機(jī)器人能翻跟頭、跳舞和干很多復(fù)雜的事,但讓它把一個(gè)物體放到有障礙物的桌子上去,它做不到,這就是人工智能的問(wèn)題所在——難以理解場(chǎng)景與對(duì)象間的關(guān)系,人工智能能干成年人干的活,但理解能力不如一歲的孩子。
新一代人工智能發(fā)展與腦科學(xué)
由此可見(jiàn),人工智能還有很多瓶頸問(wèn)題要解決。怎么解決呢,就需要追根溯源。我們發(fā)現(xiàn),深度網(wǎng)絡(luò)的發(fā)展很大程度上受到了腦科學(xué)的啟發(fā),僅僅是視覺(jué)聽(tīng)覺(jué)部分腦功能的發(fā)現(xiàn),就極大推進(jìn)了人工智能的發(fā)展。如果有機(jī)會(huì)了解全腦,那會(huì)為人工智能帶來(lái)多大的變化?
我們來(lái)看深度學(xué)習(xí)和人類(lèi)視覺(jué)的不同:生物視覺(jué)是宏觀和微觀回環(huán)交互的。比如畫(huà)畫(huà)首先畫(huà)輪廓,再畫(huà)細(xì)節(jié);人眼看東西也是,先看全場(chǎng)景,再聚焦某個(gè)小場(chǎng)景、某個(gè)小目標(biāo),是一個(gè)回環(huán)交互的過(guò)程,即高級(jí)視覺(jué)的抽象和初級(jí)視覺(jué)的邊緣檢測(cè)存在回環(huán)交互。但計(jì)算機(jī)視覺(jué)只能從微觀到宏觀,不能從宏觀到微觀,這就給人工智能的困惑。舉個(gè)例子,一頭熊照片的碎片,人眼看到一點(diǎn)點(diǎn)邊緣時(shí),就知道這是一頭熊;而人工智能缺乏宏觀與微觀的交互,只能通過(guò)不斷的學(xué)習(xí)才知道是一頭熊。
可見(jiàn),對(duì)場(chǎng)景當(dāng)中復(fù)雜關(guān)系的理解,是人工智能非常重要的部分。以前的人工智能針對(duì)小場(chǎng)景、少對(duì)象、簡(jiǎn)單關(guān)系,用微觀圖像訓(xùn)練一個(gè)模型,設(shè)計(jì)一個(gè)算法,讓它去理解大場(chǎng)景的時(shí)候就無(wú)能為力了。未來(lái)的人工智能應(yīng)該具備對(duì)大場(chǎng)景、多對(duì)象、復(fù)雜關(guān)系的精準(zhǔn)理解,這樣才能夠彌補(bǔ)現(xiàn)有人工智能的不足和發(fā)展。
腦科學(xué)與新一代人工智能發(fā)展
腦科學(xué)研究人類(lèi)如何思考,圖靈獎(jiǎng)關(guān)注的是機(jī)器如何思考,這是兩條平行線。人工智能專(zhuān)家往往將腦科學(xué)的部分現(xiàn)象和模型應(yīng)用到人工智能里面去。這就給了我們一個(gè)啟發(fā):能不能在腦科學(xué)和人工智能之間架起一個(gè)橋梁,這個(gè)橋梁就是認(rèn)知計(jì)算。支撐這個(gè)橋梁的兩個(gè)橋墩,是多模態(tài)回路觀測(cè)以及多層次認(rèn)知模型。通過(guò)解決微觀、宏觀的回環(huán)交互問(wèn)題,來(lái)創(chuàng)造新一代人工智能。
該怎樣去做這些研究呢?通過(guò)觀測(cè)可以看到,小鼠有億級(jí)的神經(jīng)元,恒河猴有百億的神經(jīng)元,人類(lèi)有千億級(jí)的神經(jīng)元,神經(jīng)元的多少代表了聰明的程度。斑馬魚(yú)只有80~100萬(wàn)個(gè)神經(jīng)元,它就可以工作。MIT去年的研究,構(gòu)建了一款只有18個(gè)神經(jīng)元的機(jī)器人,就能夠?qū)崿F(xiàn)自動(dòng)駕駛。
2016年美國(guó)IARPA做了MICrONS項(xiàng)目,稱(chēng)為阿波羅腦計(jì)劃,花費(fèi)一億美金,研究一立方毫米大腦皮層10萬(wàn)個(gè)神經(jīng)元是怎么連接的,參與項(xiàng)目的有CMU的Tai Sing Lee、哈佛大學(xué)的David Cox、貝勒醫(yī)學(xué)院的教授,這是個(gè)交叉的大項(xiàng)目。前兩位科學(xué)家都來(lái)過(guò)清華,專(zhuān)門(mén)討論10萬(wàn)個(gè)神經(jīng)元活動(dòng)到底怎么構(gòu)建,討論神經(jīng)元活動(dòng)連接和機(jī)器學(xué)習(xí)算法如何建立關(guān)系。
清華開(kāi)發(fā)了RUSH-II(多維多尺度高分辨光學(xué)顯微成像系統(tǒng))來(lái)觀察小鼠、大鼠全腦神經(jīng)元的連接和它行為的變化。這是世界上最大視場(chǎng),數(shù)據(jù)通量最高的高分辨光學(xué)顯微鏡,視場(chǎng)大小是一個(gè)平方厘米,分辨率達(dá)到0.4個(gè)微米,就是400納米,意味著不僅是神經(jīng)元,用來(lái)在神經(jīng)元之間傳遞信息的軸突和樹(shù)突的連接都可以看清楚。目前正在觀測(cè)獼猴的全腦神經(jīng)元活動(dòng),這是更接近人類(lèi)的靈長(zhǎng)類(lèi)動(dòng)物?,F(xiàn)在我們正在開(kāi)展新的工作,將腦機(jī)和觀測(cè)儀器相結(jié)合,不但看神經(jīng)元連接,還要看放電過(guò)程,這樣能夠揭示意識(shí)是如何轉(zhuǎn)移的。
新一代人工智能按照這樣的路徑,不僅要做微觀觀測(cè),還要做宏觀觀測(cè)。將CT核磁共振、全腦高分辨率光學(xué)觀測(cè)、多模態(tài)觀測(cè)結(jié)合起來(lái),才能理解神經(jīng)元之間傳遞了什么信息。我們也在跟數(shù)學(xué)家討論,并構(gòu)建新型的網(wǎng)絡(luò)模型,包含了記憶環(huán)路、生物機(jī)制、物理的熵平衡原理,來(lái)推導(dǎo)新型的神經(jīng)網(wǎng)絡(luò)模型。我們需要考慮生物化學(xué)機(jī)制的發(fā)覺(jué),數(shù)學(xué)物理機(jī)制的約束,短期記憶、長(zhǎng)期記憶的過(guò)程,新一代神經(jīng)網(wǎng)絡(luò)推理的自增強(qiáng)等等很多方面,這是我們從腦科學(xué)到人工智能做的事情。
大場(chǎng)景多對(duì)象智能理解
人工智能能夠拓展人類(lèi)發(fā)現(xiàn)、理解與創(chuàng)造的能力。人眼的感知能力會(huì)受到空間、時(shí)間、波長(zhǎng)等多個(gè)維度的限制。人工智能可以具備超越人類(lèi)的感知能力,利用仿生光學(xué)復(fù)現(xiàn)鷹眼、貓眼、果蠅等的感知能力;同時(shí)大量的信息凸顯了人類(lèi)自身的處理能力不足,必須交給機(jī)器來(lái)繼續(xù)感知。
人眼感知視覺(jué)的像素?cái)?shù)不到6億,但是機(jī)器視覺(jué)可以達(dá)10億甚至百億像素,感知能力更強(qiáng),帶來(lái)豐富的信息。對(duì)大場(chǎng)景范圍中多動(dòng)態(tài)目標(biāo)之間復(fù)雜關(guān)系的理解,就需要構(gòu)建新一代人工智能模型,讓它看得全、看得清、看得準(zhǔn),要做一個(gè)大場(chǎng)景多對(duì)象數(shù)據(jù)平臺(tái)。但寬視場(chǎng)和高分辨的矛盾難以解決,這是物理上面臨的挑戰(zhàn)。因此我們提出了非結(jié)構(gòu)化的概念和原型系統(tǒng),很多相機(jī)長(zhǎng)的不一樣,可以自調(diào)整,魯棒性非常高。以此為基礎(chǔ)構(gòu)建數(shù)據(jù)平臺(tái),是10億像素的大場(chǎng)景多對(duì)象數(shù)據(jù)視頻平臺(tái)PANDA,大家可以看到這是清華主樓門(mén)口,非常多的人群在邁步走,我們可以對(duì)這些對(duì)象實(shí)時(shí)識(shí)別和理解;這是馬拉松比賽中的萬(wàn)人人臉識(shí)別,就是如何處理和解決大場(chǎng)景、多對(duì)象、復(fù)雜關(guān)系。目前在CVPR、ICCV還有2021全球人工智能技術(shù)大會(huì)上做了數(shù)據(jù)的公開(kāi)并且比賽,有6千多支隊(duì)伍參加了這場(chǎng)比賽。剛才我還跟王恩東院士討論,我們是不是可以建一個(gè)大的數(shù)據(jù)平臺(tái),來(lái)解決復(fù)雜場(chǎng)景中復(fù)雜關(guān)系的理解問(wèn)題。
從感知智能怎樣走向認(rèn)知智能,第一個(gè)要解決模型問(wèn)題,第二個(gè)要解決數(shù)據(jù)問(wèn)題。認(rèn)知智能能夠促進(jìn)大范圍動(dòng)態(tài)場(chǎng)景時(shí)空關(guān)聯(lián)建模分析,支撐數(shù)字城市構(gòu)建與理解,可以構(gòu)建物理世界的孿生數(shù)字城市。目前我們正在杭州開(kāi)展工作,做一個(gè)數(shù)字孿生的城市形態(tài),希望為智慧城市做出貢獻(xiàn)。
總? 結(jié)
我們要從腦科學(xué)出發(fā),來(lái)構(gòu)建新一代人工智能的理論、方法和技術(shù),同時(shí)構(gòu)建一個(gè)大的數(shù)據(jù)平臺(tái)來(lái)驗(yàn)證理論和模型的可行性。在未來(lái),新一代人工智能需要大場(chǎng)景、多對(duì)象的數(shù)據(jù)平臺(tái),大到能夠從物理城市構(gòu)建孿生的數(shù)字城市,最后構(gòu)建智慧城市,這樣一來(lái),我們新一代的人工智能理論、模型和算法就初具雛形了。
審核編輯:湯梓紅
評(píng)論
查看更多