5月9日,以「機(jī)器智聯(lián)、賦能萬(wàn)物」為主題的第六屆中國(guó)機(jī)器人峰會(huì)暨智能經(jīng)濟(jì)人才峰會(huì)在浙江寧波余姚盛大開(kāi)幕。峰會(huì)上中國(guó)工程院院士,西安交通大學(xué)鄭南寧教授以「AI及機(jī)器人的新方向」為主題進(jìn)行了演講,以下根據(jù)鄭南寧教授演講整理內(nèi)容。
就當(dāng)前的人工智能而言,解決相對(duì)人類(lèi)有一定挑戰(zhàn)的問(wèn)題相對(duì)容易,但是,要讓機(jī)器解決對(duì)人類(lèi)而言看似簡(jiǎn)單的問(wèn)題卻非常困難,無(wú)人駕駛就屬于此類(lèi)問(wèn)題。人腦實(shí)際上對(duì)非認(rèn)知性的細(xì)節(jié)內(nèi)容更多是通過(guò)直覺(jué)進(jìn)行判斷,直覺(jué)實(shí)際上扮演著人腦認(rèn)知世界中一個(gè)非常重要的功能。所以,我今天就來(lái)談?wù)?strong>我們?nèi)绾伟l(fā)展直覺(jué)性AI,以及如何將直覺(jué)性AI和無(wú)人駕駛怎么結(jié)合起來(lái)。
什么是直覺(jué)?
直覺(jué)在我們?nèi)粘I钪刑幪帟?huì)使用到,例如,在人群中我們看到一個(gè)熟悉面孔,我們即時(shí)做出識(shí)別,這主要依靠直覺(jué)即使調(diào)用大腦中所存儲(chǔ)的知識(shí);再如,警察在破案過(guò)程中,拿到的眾多線(xiàn)索錯(cuò)綜復(fù)雜,可是一位老警察能夠敏銳感覺(jué)到重要線(xiàn)索就在這里,這就是直覺(jué)的判斷、決策和執(zhí)行。
人的認(rèn)知可以分為三大類(lèi):直覺(jué)、邏輯思維及形象思維、靈感和頓悟。
我們當(dāng)前的人工智能依賴(lài)符號(hào)學(xué),依賴(lài)形式化的描述,所以可以在語(yǔ)義上解釋人類(lèi)的思維。但是直覺(jué)不能僅僅使用語(yǔ)義進(jìn)行表達(dá)的,實(shí)際上,人類(lèi)直覺(jué)工作的過(guò)程和深思熟慮以及有意識(shí)的思維過(guò)程之間存在著錯(cuò)綜復(fù)雜的作用。
所以新的人工智能中,我們需要思考如何把人類(lèi)直覺(jué)的這種行為變成機(jī)器實(shí)現(xiàn)的功能。這就是我們下一代人工智能一個(gè)非常重要的研究方向。
我們把這個(gè)問(wèn)題引申一下,我們的直覺(jué)在判斷過(guò)程中有哪些規(guī)律?
以圖像識(shí)別為例,人類(lèi)是把一幅圖看成整體或者是一種整體的體驗(yàn)。所以這里有一個(gè)先驗(yàn)知識(shí)的利用,從整體到局部。這是一種直觀決策,如果我們從認(rèn)知心理學(xué)角度看,卻是所謂大范圍首先理論,這是中國(guó)科學(xué)院院士在上世紀(jì)80年代通過(guò)對(duì)人類(lèi)視覺(jué)的研究提出的。
機(jī)器和多數(shù)人工智能方法沒(méi)有從這個(gè)方面解決問(wèn)題,機(jī)器對(duì)圖象的理解是從一個(gè)象素開(kāi)始的。語(yǔ)音識(shí)別也是從語(yǔ)音中每一個(gè)量化的數(shù)據(jù)開(kāi)始識(shí)別。但是,人的認(rèn)知過(guò)程不是這樣的,特別是直覺(jué)。此外,在人的行動(dòng)上,依然存在對(duì)直覺(jué)的應(yīng)用。直覺(jué)的反映、直覺(jué)的決策帶來(lái)了直覺(jué)的行動(dòng)。
例如上圖中這四位經(jīng)過(guò)訓(xùn)練的芭蕾舞演員,他們動(dòng)作整齊劃一,非常和諧。這個(gè)和諧的背后實(shí)際上是人的直覺(jué)經(jīng)過(guò)長(zhǎng)期訓(xùn)練的反映?;蛘哒f(shuō)在這個(gè)場(chǎng)合下,對(duì)直覺(jué)的敏感性。當(dāng)然我們還有更夸張的游泳,這是蝶泳員動(dòng)作很協(xié)調(diào);還有極限運(yùn)動(dòng),在攀巖過(guò)程中還能夠翻跟頭。這不是我們用符號(hào)和語(yǔ)義所能表達(dá)的,因此,機(jī)器無(wú)法直接模仿人類(lèi)完成復(fù)雜又靈巧的任務(wù)。但是對(duì)于人類(lèi)而言,經(jīng)過(guò)專(zhuān)業(yè)訓(xùn)練可以達(dá)到這樣的程度。
為什么要發(fā)展直覺(jué)性AI?
實(shí)際上我們?nèi)斯ぶ悄馨l(fā)展到今天,由于深度學(xué)習(xí)的出現(xiàn),人工智能迎來(lái)了發(fā)展高潮,取得了許多巨大的進(jìn)展。但是,當(dāng)我們仔細(xì)思考時(shí),實(shí)際上當(dāng)前的AI系統(tǒng)或AI算法實(shí)際上對(duì)每個(gè)任務(wù)進(jìn)行編程,就會(huì)帶來(lái)指數(shù)級(jí)的復(fù)雜性。有許多難題,人類(lèi)所面臨的許多難題只能夠在指數(shù)時(shí)間內(nèi)得到解決,而且還有一些問(wèn)題的求解,幾乎需要無(wú)限長(zhǎng)的時(shí)間。因此新一代人工智能面臨巨大的挑戰(zhàn),那就是如何應(yīng)對(duì)指數(shù)級(jí)復(fù)雜性的任務(wù)。
上圖可以形象地看到人工智能從過(guò)去到當(dāng)前,再到未來(lái)的四個(gè)發(fā)展階段。當(dāng)前的AI和AI2.0中間一個(gè)重要的方向就是混合增強(qiáng)智能。那么在混合增強(qiáng)智能之后是什么呢?就是具有人類(lèi)意識(shí)的智能,我們又稱(chēng)之為通用人工智能,這是人工智能追求的長(zhǎng)期的目標(biāo)。當(dāng)然現(xiàn)在在學(xué)術(shù)界對(duì)這個(gè)觀點(diǎn)還有不同的爭(zhēng)論。
發(fā)展直覺(jué)性AI的原因之一是計(jì)算復(fù)雜性與指數(shù)爆炸。實(shí)際上指數(shù)爆炸問(wèn)題源于兩個(gè)具體的問(wèn)題,一個(gè)是條件問(wèn)題,即我們不可能枚舉出一個(gè)行為的所有條件;另一個(gè)是分支問(wèn)題,即我們不可能預(yù)測(cè)一個(gè)行為有可能帶來(lái)的所有隱性的成果。條件問(wèn)題和分支問(wèn)題背后正是指數(shù)級(jí)爆炸和計(jì)算復(fù)雜性。
傳統(tǒng)人工智能的局限性
傳統(tǒng)人工智能的方法首先需要對(duì)一個(gè)問(wèn)題給出精確數(shù)學(xué)意義上的解析模型,如果模型抽象不出來(lái),這個(gè)問(wèn)題就沒(méi)有解;模型給出以后還要給出確定的算法,而一個(gè)確定的算法設(shè)計(jì)完成后,這個(gè)人工智能系統(tǒng)的算力、能力或任務(wù)是唯一的,所以又是一個(gè)單一任務(wù)。
確定的算法沒(méi)有辦法應(yīng)對(duì)我們?nèi)祟?lèi)所面對(duì)的許多測(cè)不準(zhǔn)或不完備的問(wèn)題,這就是傳統(tǒng)人工智能方面面臨著在發(fā)展中。
深度學(xué)習(xí)的局限性
深度學(xué)習(xí)給人工智能帶來(lái)了春天,而且這個(gè)春天會(huì)一直發(fā)展下去,但是深度學(xué)習(xí)仍然存在諸多問(wèn)題:
泛化能力差。而且訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)必須是同分布的,如果不同分布,分類(lèi)能力就會(huì)極大降低;
表達(dá)能力弱。這里提到的表達(dá)能力是指缺乏推理和因果關(guān)系的表達(dá)能力,無(wú)法解釋一個(gè)深度學(xué)習(xí)模型給出結(jié)果背后的推理過(guò)程;
無(wú)法引入注意機(jī)制。注意機(jī)制強(qiáng)調(diào)的是計(jì)算過(guò)程中的路徑選擇和計(jì)算負(fù)載的分配。深度學(xué)習(xí)目前還找不到有效的辦法解決這一問(wèn)題。
大腦的認(rèn)知過(guò)程
傳統(tǒng)人工智能的局限性以及深度學(xué)習(xí)還面臨著一些新的挑戰(zhàn)。那么解決這些問(wèn)題,我們的靈感和啟發(fā)同哪里來(lái)呢?來(lái)源于人類(lèi)大腦。
人類(lèi)大腦實(shí)際上對(duì)世界的印象是不完整事件的描述,但是,這個(gè)不完整的事件的描述是人類(lèi)直覺(jué)判斷和邏輯思維的基礎(chǔ),面對(duì)真實(shí)世界復(fù)雜的、動(dòng)態(tài)的變化,如果能將直覺(jué)、經(jīng)驗(yàn)、知識(shí)和以數(shù)學(xué)為基礎(chǔ)的演繹歸納結(jié)合,就可能設(shè)計(jì)出一種機(jī)器能夠在不完整世界中給出正確的決策或產(chǎn)生相應(yīng)的行為。
如上圖中的兩幅圖,大多數(shù)人會(huì)認(rèn)為左邊這幅圖更容易記住。這幅圖描述了一個(gè)家庭的客廳,目前在陪著孩子彈鋼琴,母親右手邊掛著世界地圖,世界地圖下有一張桌子。如果我們把這個(gè)場(chǎng)景的各個(gè)物體(對(duì)象)在空間中的位置做一個(gè)調(diào)整,得到右邊這幅圖不符合我們大腦中所記憶的先前積累的經(jīng)驗(yàn)和常識(shí)。
從認(rèn)知心理學(xué)角度來(lái)看,把這幅圖在大腦形成的這樣一種概念,稱(chēng)之為認(rèn)知影射,所謂認(rèn)知影射就是人類(lèi)在理解和描述世界時(shí)大腦中形成的對(duì)時(shí)間的可視化圖象,我們又定義為對(duì)環(huán)境表征的認(rèn)知地圖,這是人類(lèi)對(duì)理解世界的一種模型。
直覺(jué)性AI的計(jì)算框架
本質(zhì)上講,直覺(jué)應(yīng)該遵循泛化,即遵循有序的指令集以在有限步驟中給出決策。把直覺(jué)和我們的認(rèn)知地圖結(jié)合就形成了直覺(jué)性AI的計(jì)算框架。
上圖右邊這幅圖是把直覺(jué)推理與認(rèn)知地圖結(jié)合的一種計(jì)算模型。這種計(jì)算模型實(shí)際上做了兩項(xiàng)工作:
第一,把先前經(jīng)驗(yàn)與模式匹配。即把線(xiàn)索的先桑或者事物模式與存儲(chǔ)的模板(大腦中的記憶)進(jìn)行匹配。大腦的神經(jīng)網(wǎng)絡(luò)是一種高效的模式匹配裝置,它依據(jù)先前經(jīng)驗(yàn)與存儲(chǔ)模板相匹配,從而給出正確決策。
第二,啟發(fā)式搜索和聯(lián)想。特別是直覺(jué)型啟發(fā)式搜索,不是去尋找可能性,是要排除不可能,縮小搜索空間,提高決策行動(dòng)的速度。在邏輯上管理“不確定性”。
這正是直覺(jué)性AI的計(jì)算框架,下面在這個(gè)框架上,我們?cè)侔堰@個(gè)問(wèn)題引申一下,我們?cè)趺茨茏寵C(jī)器像人一樣對(duì)物理世界進(jìn)行直觀的理解,這里我給出讓機(jī)器對(duì)物理世界進(jìn)行直觀理解三個(gè)基本的要素:
第一,特征的識(shí)別,并形成記憶;
第二,物體之間的特征關(guān)系與作用的直觀理解;
第三,基于模式匹配和想象力的決策或行為模型產(chǎn)生。
直觀理解對(duì)機(jī)器而言如何實(shí)現(xiàn)?如下圖所示。
左邊圖中給出兩個(gè)小朋友玩滑板車(chē),從坡上向下滑,我們知道這個(gè)坡的坡度和滑板車(chē)的摩擦力,也知道孩子的重量,就知道這兩個(gè)滑板車(chē)上面什么時(shí)候會(huì)到達(dá)目的地,我們稱(chēng)之為物理世界的約束,直觀推理可以跨越時(shí)間與空間去追蹤事物發(fā)展的軌跡。按照這個(gè)思路,右邊給出了一個(gè)直觀物理層面推理的框架,這一框架有物體間的相互作用的理解,有直觀的感知處理與行為產(chǎn)生,也有對(duì)情景產(chǎn)生的交互。這一系統(tǒng)其實(shí)相對(duì)于其它人工智能應(yīng)用系統(tǒng)而言,可以看作是直覺(jué)性AI的基本計(jì)算框架。
直覺(jué)性AI在無(wú)人駕駛中的應(yīng)用
直覺(jué)是以一種最少的假設(shè)去描述一個(gè)系統(tǒng)或產(chǎn)生相應(yīng)的行為。
如果從直覺(jué)推理上來(lái)看智能無(wú)人駕駛,我們就可能為無(wú)人駕駛技術(shù)帶來(lái)新的方法。
無(wú)人駕駛的問(wèn)題可以定義為具有先前經(jīng)驗(yàn)和先驗(yàn)知識(shí)的不確定性,而且有約束環(huán)境條件的推理。2002年我們開(kāi)始做無(wú)人車(chē),2004年我們?cè)谛@里能夠?qū)崿F(xiàn)行駛,能夠動(dòng)起來(lái),當(dāng)時(shí)雄心勃勃,可是出了校門(mén)就寸步難行了。之后可以在沙漠中的公路上(沒(méi)有行人,沒(méi)有車(chē)輛的情況下),以每小時(shí)十幾公里的速度行駛。
經(jīng)過(guò)這樣十幾年的研究,到2015年我們無(wú)人駕駛技術(shù)有了新的進(jìn)展,在一個(gè)鄉(xiāng)村道路上測(cè)試時(shí),它的控制是平穩(wěn)型,操控性與人類(lèi)駕駛員都優(yōu)秀;在2017年中國(guó)智能車(chē)挑戰(zhàn)賽中,我們的無(wú)人駕駛汽車(chē)拿到了第一名。
盡管我們?nèi)〉昧巳绱舜蟮倪M(jìn)步,但是能上路嗎?回答是否定的。
上圖是城市經(jīng)常常見(jiàn)的復(fù)雜交通場(chǎng)景,我們即便有了5G,無(wú)人駕駛和有人駕駛的車(chē)如何進(jìn)行交互依然是很有挑戰(zhàn)性的難題。對(duì)于整個(gè)十字路口交通場(chǎng)景是不可預(yù)測(cè)的,但是各個(gè)對(duì)象的自身的直覺(jué)判斷和他們對(duì)相互之間的關(guān)系的理解構(gòu)建了這樣一個(gè)穩(wěn)定的系統(tǒng)。而事實(shí)上,我們要讓計(jì)算機(jī)對(duì)交通場(chǎng)景及變化進(jìn)行編碼是做不到的。
人類(lèi)駕駛員開(kāi)車(chē)就是將車(chē)外無(wú)窮狀態(tài)空間約簡(jiǎn)為動(dòng)態(tài)變化的可行駛的二域狀態(tài)空間,直覺(jué)推理是用排除法尋找一個(gè)可行駛區(qū)域。因此,從認(rèn)知層面,要解決的問(wèn)題就是如何把復(fù)雜未知的現(xiàn)實(shí)世界變換成有限空間環(huán)境的語(yǔ)義推理。無(wú)人駕駛我們還面臨著如何在這些方面上取得更大的突破。
上圖是用多激光雷達(dá)感知的環(huán)境數(shù)據(jù),實(shí)際上也是為了尋找可行駛的區(qū)域,中間是無(wú)人駕駛車(chē)。因此我們把直覺(jué)性AI用到無(wú)人駕駛中就是要基于認(rèn)知構(gòu)建一個(gè)類(lèi)人自主駕駛。因?yàn)槿祟?lèi)駕駛員是對(duì)場(chǎng)景認(rèn)知一個(gè)連續(xù)的過(guò)程,我們現(xiàn)在無(wú)人駕駛實(shí)際上仍是一個(gè)離散的過(guò)程。
因此我們?cè)趺茨軌騺?lái)發(fā)展一種具有進(jìn)化的,自主學(xué)習(xí)的無(wú)人駕駛系統(tǒng),它的學(xué)習(xí)過(guò)程與人類(lèi)司機(jī)相似,熟能生巧。其中要解決的問(wèn)題包括以下三點(diǎn):
第一,人類(lèi)駕駛員如何注意并獲取交通環(huán)境信息;
第二,交通環(huán)境信息如何在大腦中存儲(chǔ)和加工;
第三,產(chǎn)生駕駛行為的背后的存在怎樣的內(nèi)部表征。
這是我們做的一些工作(如上圖),大家可以看視覺(jué)深度圖,怎么把視覺(jué)和低精度的地圖結(jié)合,生成可行駛區(qū)域和路徑規(guī)劃,實(shí)現(xiàn)一個(gè)基于認(rèn)知構(gòu)建的無(wú)人駕駛,實(shí)際上就是「度量-拓?fù)?語(yǔ)義混合」的交通情境認(rèn)知的層次結(jié)構(gòu)。
在無(wú)人駕駛當(dāng)中,我們進(jìn)行了20多年的研究。走到今天,我們已經(jīng)取得了一些進(jìn)步,但是無(wú)人駕駛真正要進(jìn)入尋常老百姓家還面臨許多艱難的挑戰(zhàn),不是3-5年就能夠?qū)崿F(xiàn)的,可能需要10年乃至更長(zhǎng)時(shí)間,無(wú)論是從技術(shù)的安全性,還是從成本上來(lái)看,我們都還需要付出艱難的努力。
-
AI
+關(guān)注
關(guān)注
87文章
31022瀏覽量
269360 -
無(wú)人駕駛
+關(guān)注
關(guān)注
98文章
4071瀏覽量
120601
原文標(biāo)題:鄭南寧:無(wú)人駕駛商用至少還需10年,直覺(jué)性AI技術(shù)將成關(guān)鍵
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車(chē)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論