0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

張鈸教授:邁向第三代人工智能

AI智勝未來(lái) ? 來(lái)源:AIII研究院 ? 2023-12-21 17:05 ? 次閱讀

人工智能(ArtificialIntelligence,簡(jiǎn)稱(chēng) AI)在 60 多年的發(fā)展歷史中,一直存在兩個(gè)相互競(jìng)爭(zhēng)的范式,即符號(hào)主義與連接主義(或稱(chēng)亞符號(hào)主義)。符號(hào)主義(即第一代人工智能)到上個(gè)世紀(jì)八十年代之前一直主導(dǎo)著 AI 的發(fā)展,而連接主義(即第二代人工智能)從上個(gè)世紀(jì)九十年代逐步發(fā)展,到本世紀(jì)初進(jìn)入高潮,大有替代符號(hào)主義之勢(shì)。但是今天看來(lái),這兩種范式只是從不同的側(cè)面模擬人類(lèi)的心智 (或大腦),具有各自的片面性,不可能觸及人類(lèi)真正的智能。

清華大學(xué)人工智能研究院院長(zhǎng)、中國(guó)科學(xué)院院士張鈸教授在「紀(jì)念《中國(guó)科學(xué)》創(chuàng)刊 70 周年專(zhuān)刊」上發(fā)表署名文章,首次全面闡述第三代人工智能的理念,提出第三代人工智能的發(fā)展路徑是融合第一代的知識(shí)驅(qū)動(dòng)和第二代的數(shù)據(jù)驅(qū)動(dòng)的人工智能, 同時(shí)利用知識(shí)、數(shù)據(jù)、算法和算力等 4 個(gè)要素, 建立新的可解釋和魯棒的 AI 理論與方法,發(fā)展安全、可信、可靠和可擴(kuò)展的 AI 技術(shù),這是發(fā)展 AI 的必經(jīng)之路。

自 2018 年成立以來(lái),清華大學(xué)人工智能研究院本著「一個(gè)核心、兩個(gè)融合」的發(fā)展戰(zhàn)略,大力推動(dòng)人工智能的基礎(chǔ)理論和基本方法的源頭性和顛覆性創(chuàng)新,在人工智能基礎(chǔ)理論、關(guān)鍵技術(shù)和產(chǎn)學(xué)研合作等諸方面取得了創(chuàng)新成果。人工智能的序幕剛剛拉開(kāi),正劇正在上演?;A(chǔ)研究是科技創(chuàng)新的源頭,尤其在當(dāng)前復(fù)雜多變的國(guó)際環(huán)境下,更需要提升我國(guó)的原始創(chuàng)新能力,久久為功,努力實(shí)現(xiàn)人工智能領(lǐng)域更多「從 0 到 1」的突破。

以下全文刊載張鈸院士的文章《邁向第三代人工智能》。

1、第一代人工智能

人類(lèi)的智能行為是怎么產(chǎn)生的, 紐威爾 (A.Newell)、西蒙 (H.A.Simon) 等 提出以下模擬人類(lèi)大腦的符號(hào)模型, 即物理符號(hào)系統(tǒng)假設(shè)。這種系統(tǒng)包括:

(1) 一組任意的符號(hào)集, 一組操作符號(hào)的規(guī)則集;

(2) 這些操作是純語(yǔ)法(syntax)的,即只涉及符號(hào)的形式不涉及語(yǔ)義,操作的內(nèi)容包括符號(hào)的組合和重組;

(3)這些語(yǔ)法具有系統(tǒng)性的語(yǔ)義解釋?zhuān)此赶虻膶?duì)象和所描述的事態(tài)。

1955 年麥卡錫 (J.McCarthy) 和明斯基 (M.L.Minsky) 等學(xué)者,在達(dá)特茅斯人工智能夏季研究項(xiàng)目 (the Dartmouth Summer Research Projection ArtificialIntelligence) 的建議中, 明確提出符號(hào) AI(artificialintelligence) 的基本思路:「人類(lèi)思維的很大一部分是按照推理和猜想規(guī)則對(duì)‘詞’(words)進(jìn)行操作所組成的」。根據(jù)這一思路,他們提出了基于知識(shí)與經(jīng)驗(yàn)的推理模型,因此我們又把符號(hào) AI 稱(chēng)為知識(shí)驅(qū)動(dòng)方法。

符號(hào) AI 的開(kāi)創(chuàng)者最初把注意力放在研究推理(搜索)的通用方法上,如「手段–目的分析」(meanendanalysis)、「分而治之」(divideandconquer)、「試錯(cuò)」(trialanderror)法等,試圖通過(guò)通用的方法解決范圍廣泛的現(xiàn)實(shí)問(wèn)題。由于通用方法是一種弱方法,實(shí)際上只能解決「玩具世界」中的簡(jiǎn)單問(wèn)題,如機(jī)器人擺放積木,下簡(jiǎn)單的井字棋(tic-tac-toe)等,與解決復(fù)雜現(xiàn)實(shí)問(wèn)題相差很遠(yuǎn)。尋求通用 AI 的努力遭到了失敗,符號(hào) AI 于 20 世紀(jì) 70 年代初跌入低谷。

幸運(yùn)的是,斯坦福大學(xué)教授費(fèi)根堡姆(E. A. Feigenbaum)等及時(shí)改變了思路,認(rèn)為知識(shí),特別是特定領(lǐng)域的知識(shí)才是人類(lèi)智能的基礎(chǔ),提出知識(shí)工程(knowledgeengineering)與專(zhuān)家系統(tǒng)(expertsystems)等一系列強(qiáng) AI 方法,給符號(hào) AI 帶來(lái)了希望。他們開(kāi)發(fā)了專(zhuān)家系統(tǒng) DENDRAL(有機(jī)化學(xué)結(jié)構(gòu)分析系統(tǒng),1965~1975),隨后其他學(xué)者相繼開(kāi)發(fā)了 MYCIN(血液傳染病診斷和抗菌素處方,1971~1977),XCON(計(jì)算機(jī)硬件組合系統(tǒng))等。不過(guò)早期的專(zhuān)家系統(tǒng)規(guī)模都較小,難以實(shí)用。

直到 1997 年 5 月 IBM 的深藍(lán)(deepblue)國(guó)際象棋程序打敗世界冠軍卡斯帕諾夫(Kasparov),符號(hào) AI 才真正解決大規(guī)模復(fù)雜系統(tǒng)的開(kāi)發(fā)問(wèn)題。費(fèi)根堡姆和雷蒂(R. Raddy)作為設(shè)計(jì)與構(gòu)造大型人工智能系統(tǒng)的先驅(qū),共同獲得 1994 年 ACM 圖靈獎(jiǎng)。

符號(hào) AI 同樣可以應(yīng)用于機(jī)器學(xué)習(xí),把「機(jī)器學(xué)習(xí)」看成是基于知識(shí)的(歸納)推理。下面以歸納邏輯編程(inductivelogicprogramming,ILP)為例說(shuō)明符號(hào) AI 的學(xué)習(xí)機(jī)制。在 ILP 中正負(fù)樣本(具體示例)、背景知識(shí)和學(xué)習(xí)結(jié)果(假設(shè))都以一階邏輯子句(程序)形式表示。學(xué)習(xí)過(guò)程是在假設(shè)空間中尋找一個(gè)假設(shè),這個(gè)假設(shè)應(yīng)盡可能多地包含正例,盡量不包含負(fù)例,而且要與背景知識(shí)一致。一般情況下假設(shè)空間很大,學(xué)習(xí)十分困難,不過(guò)有了背景知識(shí)之后,就可以極大地限制假設(shè)空間,使學(xué)習(xí)變成可行。顯然,背景知識(shí)越多,學(xué)習(xí)速度越快,效果也越好。

為解決不確定問(wèn)題,近年來(lái),發(fā)展了概率歸納邏輯編程方法(probabilisticinductivelogicprogramming,PILP)?;谥R(shí)的學(xué)習(xí),由于有背景知識(shí),可以實(shí)現(xiàn)小樣本學(xué)習(xí),而且也很容易推廣到不同的領(lǐng)域,學(xué)習(xí)的魯棒性也很強(qiáng)。以遷移學(xué)習(xí)(transferlearning)為例,可以將學(xué)習(xí)得到的模型從一種場(chǎng)景更新或者遷移到另一場(chǎng)景,實(shí)現(xiàn)跨領(lǐng)域和跨任務(wù)的推廣。

具體做法如下,首先,從學(xué)習(xí)訓(xùn)練的環(huán)境(包括訓(xùn)練數(shù)據(jù)與方法)出發(fā),發(fā)現(xiàn)哪些(即具有某種通用性)知識(shí)可以跨域或者跨任務(wù)進(jìn)行遷移,哪些只是針對(duì)單個(gè)域或單個(gè)任務(wù)的特定知識(shí),并利用通用知識(shí)幫助提升目標(biāo)域或目標(biāo)任務(wù)的性能。這些通用知識(shí)主要通過(guò)以下 4 種渠道遷移到目標(biāo)域中去,即源域中可利用的實(shí)例,源域和目標(biāo)域中可共享的特征,源域模型可利用的部分,源域中實(shí)體之間的特定規(guī)則??梢?jiàn),知識(shí)在遷移學(xué)習(xí)中起關(guān)鍵的作用,因此,符號(hào) AI 易于跨領(lǐng)域和跨任務(wù)推廣。

在創(chuàng)建符號(hào) AI 中做出重大貢獻(xiàn)的學(xué)者中,除費(fèi)根堡姆和雷蒂(1994)之外,還有明斯基(1969),麥卡錫(1971),紐威爾和西蒙(1975)共 6 位先后獲得圖靈獎(jiǎng)(括號(hào)中的數(shù)字表示獲獎(jiǎng)的年份)??傊谝淮?AI 的成功來(lái)自于以下 3 個(gè)基本要素。以深藍(lán)程序?yàn)槔?1 是知識(shí)與經(jīng)驗(yàn),「深藍(lán)」從象棋大師已經(jīng)下過(guò)的 70 萬(wàn)盤(pán)棋局和大量 5~6 個(gè)棋子的殘局中,總結(jié)出下棋的規(guī)則。另外,在象棋大師與深藍(lán)對(duì)弈的過(guò)程中,通過(guò)調(diào)試「評(píng)價(jià)函數(shù)」中的 6000 個(gè)參數(shù),把大師的經(jīng)驗(yàn)引進(jìn)程序。第 2 是算法,深藍(lán)采用α?β剪枝算法,有效提高搜索效率。第 3 是算力(計(jì)算能力),為了達(dá)到實(shí)時(shí)的要求,深藍(lán)使用 IBM RS/6000 SP2, 11.38 G FLOPS(浮點(diǎn)運(yùn)算 / 秒),每秒可檢查 2 億步,或 3 分鐘運(yùn)行 5 千萬(wàn)盤(pán)棋局(positions)。

符號(hào) AI 有堅(jiān)實(shí)的認(rèn)知心理學(xué)基礎(chǔ),把符號(hào)系統(tǒng)作為人類(lèi)高級(jí)心智活動(dòng)的模型,其優(yōu)勢(shì)是,由于符號(hào)具有可組合性(compositionality),可從簡(jiǎn)單的原子符號(hào)組合成復(fù)雜的符號(hào)串。每個(gè)符號(hào)都對(duì)應(yīng)著一定的語(yǔ)義,客觀上反映了語(yǔ)義對(duì)象的可組合性,比如,由簡(jiǎn)單部件組合成整體等,可組合性是推理的基礎(chǔ),因此符號(hào) AI 與人類(lèi)理性智能一樣具有可解釋性和容易理解。符號(hào) AI 也存在明顯的局限性,目前已有的方法只能解決完全信息和結(jié)構(gòu)化環(huán)境下的確定性問(wèn)題,其中最具代表性的成果是 IBM「深藍(lán)」國(guó)際象棋程序,它只是在完全信息博弈(決策)中戰(zhàn)勝人類(lèi),這是博弈中最簡(jiǎn)單的情況。而人類(lèi)的認(rèn)知行為(cognitivebehavior),如決策等都是在信息不完全和非結(jié)構(gòu)化環(huán)境下完成的,符號(hào) AI 距離解決這類(lèi)問(wèn)題還很遠(yuǎn)。

以自然語(yǔ)言形式表示(離散符號(hào))的人類(lèi)知識(shí),計(jì)算機(jī)難以處理,必須尋找計(jì)算機(jī)易于處理的表示形式,這就是知識(shí)表示問(wèn)題。我們已有的知識(shí)表示方法,如產(chǎn)生式規(guī)則(productionrules),邏輯程序(logicprogram)等,雖然計(jì)算機(jī)易于處理(如推理等),但都較簡(jiǎn)單,表現(xiàn)能力有限,難以刻畫(huà)復(fù)雜和不確定的知識(shí),推理也只限于邏輯推理等確定性的推理方法。更加復(fù)雜的知識(shí)表示與推理形式都在探討之中,如知識(shí)圖譜(knowledgegraph)、概率推理等。符號(hào) AI 缺乏數(shù)學(xué)基礎(chǔ),除數(shù)理邏輯之外,其他數(shù)學(xué)工具很難使用,這也是符號(hào) AI 難以在計(jì)算機(jī)上高效執(zhí)行的重要原因。

基于知識(shí)驅(qū)動(dòng)的強(qiáng) AI 只能就事論事地解決特定問(wèn)題,有沒(méi)有廣泛適用的弱方法,即通用 AI,目前還是一個(gè)值得探討的問(wèn)題。此外,從原始數(shù)據(jù)(包括文本、圖像、語(yǔ)音和視頻)中獲取知識(shí)目前主要靠人工,效率很低,需要探索有效的自動(dòng)獲取方法。此外,真正的智能系統(tǒng)需要常識(shí),常識(shí)如何獲取、表達(dá)和推理還是一個(gè)有待解決的問(wèn)題。常識(shí)的數(shù)量巨大,構(gòu)造一個(gè)實(shí)用的常識(shí)庫(kù),無(wú)異于一項(xiàng) AI 的「曼哈頓工程」,費(fèi)時(shí)費(fèi)力。

2、第二代人工智能

b7423f82-9f46-11ee-8b88-92fbcf53809c.png

感官信息(視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)等)是如何存儲(chǔ)在記憶中并影響人類(lèi)行為的? 有兩種基本觀點(diǎn),一種觀點(diǎn)是,這些信息以某種編碼的方式表示在(記憶)神經(jīng)網(wǎng)絡(luò)中,符號(hào) AI 屬于這一學(xué)派。另一種觀點(diǎn)是,感官的刺激并不存儲(chǔ)在記憶中,而是在神經(jīng)網(wǎng)絡(luò)中建立起「刺激–響應(yīng)」的連接(通道),通過(guò)這個(gè)「連接」保證智能行為的產(chǎn)生,這是連接主義的主張,連接主義 AI 就是建立在這個(gè)主張之上。

1958 年羅森布拉特(Rosenblatt)按照連接主義的思路,建立一個(gè)人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ANN)的雛形——感知機(jī)(perceptron)。感知機(jī)的靈感來(lái)自于兩個(gè)方面,一是 1943 年麥卡洛克(McCulloch)和皮特(Pitts)提出的神經(jīng)元數(shù)學(xué)模型——「閾值邏輯」線路,它將神經(jīng)元的輸入轉(zhuǎn)換成離散值,通常稱(chēng)為 M-P 模型。二是來(lái)自于 1949 年赫布(D. O. Hebb)提出的 Hebb 學(xué)習(xí)率,即「同時(shí)發(fā)放的神經(jīng)元連接在一起」。感知機(jī)如圖 1 所示。

b756c8da-9f46-11ee-8b88-92fbcf53809c.png

其中 b 為閾值,w 為權(quán)值。

AI 的創(chuàng)建者從一開(kāi)始就關(guān)注連接主義的思路。1955 年麥卡錫等在達(dá)特茅斯(Dartmouth)AI 研究建議中寫(xiě)道「如何安排一組(假想的)神經(jīng)元使之形成概念 ······ 已經(jīng)獲得部分的結(jié)果,但問(wèn)題是需要更多的理論工作」,并把它列為會(huì)議的研討內(nèi)容之一。由感知機(jī)組成的 ANN 只有一個(gè)隱蔽層,過(guò)于簡(jiǎn)單。明斯基等 于 1969 年出版的書(shū)《感知機(jī)》中指出,感知機(jī)只能解決線性可分問(wèn)題,而且即使增加隱層的數(shù)量,由于沒(méi)有有效的學(xué)習(xí)算法,感知機(jī)也很難實(shí)用。明斯基對(duì)感知機(jī)的批評(píng)是致命的,使剛剛起步的連接主義 AI 跌入低谷達(dá) 10 多年之久。在困難的時(shí)期里,在許多學(xué)者的共同努力下,30 多年來(lái)無(wú)論在神經(jīng)網(wǎng)絡(luò)模型還是學(xué)習(xí)算法上均取得重大進(jìn)步,逐步形成了深度學(xué)習(xí)的成熟理論與技術(shù)。

其中重要的進(jìn)展有,第 1,梯度下降法(gradientdescent),這本來(lái)是一個(gè)古老的算法,法國(guó)數(shù)學(xué)家柯西(Cauchy)早在 1847 年就已經(jīng)提出; 到 1983 年俄國(guó)數(shù)學(xué)家尤里 · 涅斯捷諾夫(YuriiNesterov)做了改進(jìn),提出了加強(qiáng)版,使它更加好用。第 2,反向傳播(backpropagation,BP)算法,這是為 ANN 量身定制的,1970 年由芬蘭學(xué)生 SeppoLinnainmaa 在他的碩士論文中首先提出; 1986 年魯梅哈特(D.E.Rumelhart)和辛頓(G.Hinton)等做了系統(tǒng)的分析與肯定 。「梯度下降」和「BP」兩個(gè)算法為 ANN 的學(xué)習(xí)訓(xùn)練注入新的動(dòng)力,它們和「閾值邏輯」、「Hebb 學(xué)習(xí)率」一起構(gòu)成 ANN 的 4 大支柱。

除 4 大支柱之外,還有一系列重要工作,其中包括更好的損失函數(shù),如交叉熵?fù)p失函數(shù)(cross-entropycostfunction); 算法的改進(jìn),如防止過(guò)擬合的正則化方法(regularization); 新的網(wǎng)絡(luò)形式,如 1980 年日本福島邦彥(Fukushima)的卷積神經(jīng)網(wǎng)絡(luò)(convolutionneuralnetworks,CNN),遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,RNN),長(zhǎng)短程記憶神經(jīng)網(wǎng)絡(luò)(longshort-termmemoryneuralnetworks,LSTM),辛頓的深度信念網(wǎng)絡(luò)(deepbeliefnets,DBN)等。這些工作共同開(kāi)啟了以深度學(xué)習(xí)(deeplearning)為基礎(chǔ)的第二代 AI 的新紀(jì)元。

第二代 AI 的學(xué)習(xí)理論有堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),為了說(shuō)明這個(gè)基礎(chǔ),下面舉一個(gè)簡(jiǎn)單的有監(jiān)督學(xué)習(xí)的例子,有監(jiān)督學(xué)習(xí)可以形式化為以下的函數(shù)回歸問(wèn)題: 從數(shù)據(jù)庫(kù) D 中提取樣本

b764eb68-9f46-11ee-8b88-92fbcf53809c.png

,對(duì)樣本所反映的輸入–輸出關(guān)系 f:X→Y 做出估計(jì),即從備選函數(shù)族(假設(shè)空間)F={fθ:X?→Y;θ∈A}中選出一個(gè)函數(shù) f^?使它平均逼近于真實(shí) f。在深度學(xué)習(xí)中這個(gè)備選函數(shù)族由深度神經(jīng)網(wǎng)絡(luò)表示:

b7702492-9f46-11ee-8b88-92fbcf53809c.png

參數(shù)學(xué)習(xí)中有 3 項(xiàng)基本假設(shè)。(1)獨(dú)立性假設(shè): 損失函數(shù)和備選函數(shù)族 F(或者神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu))的選擇與數(shù)據(jù)無(wú)關(guān)。(2)大容量假設(shè): 樣本(x_i,y_i)數(shù)量巨大(n→∞)。(3)完備性假設(shè): 訓(xùn)練樣本完備且無(wú)噪聲。 如果上述假設(shè)均能滿足,f^?將隨樣本數(shù)的增加最后收斂于真實(shí)函數(shù) f。由此可見(jiàn),如果擁有一定質(zhì)量的大數(shù)據(jù),由于深度神經(jīng)網(wǎng)絡(luò)的通用性(universality),它可以逼近任意的函數(shù),因此利用深度學(xué)習(xí)找到數(shù)據(jù)背后的函數(shù)具有理論的保證。這個(gè)論斷在許多實(shí)際應(yīng)用中得到了印證,比如,在標(biāo)準(zhǔn)圖像庫(kù) ImageNet(2 萬(wàn)類(lèi)別,1 千 4 百萬(wàn)張圖片)上的機(jī)器識(shí)別性能,2011 年誤識(shí)率高達(dá) 50%,到 2015 年微軟公司利用深度學(xué)習(xí)方法,誤識(shí)率大幅度地降到 3.57%,比人類(lèi)的誤識(shí)率 5.1% 還要低。低噪聲背景下的語(yǔ)音識(shí)別率,2001 年之前基本上停留在 80% 左右,到了 2017 年識(shí)別率達(dá)到 95% 以上,滿足商品化的要求。

2016 年 3 月谷歌圍棋程序 AlphaGo 打敗世界冠軍李世石,是第二代 AI 巔峰之作,因?yàn)樵?2015 年之前計(jì)算機(jī)圍棋程序最高只達(dá)到業(yè)余五段!更加令人驚奇的是,這些超越人類(lèi)性能成果的取得,并不需要領(lǐng)域知識(shí)的幫助,只需輸入圖像原始像素、語(yǔ)音原始波形和圍棋棋盤(pán)的布局(圖像)!

深度學(xué)習(xí)的成功來(lái)自于以下 3 個(gè)要素:一是數(shù)據(jù),以 AlphaGo 為例,其中 AlphaGo-Zero 通過(guò)強(qiáng)化學(xué)習(xí)自學(xué)了億級(jí)的棋局,而人類(lèi)在千年的圍棋史中,下過(guò)的有效棋局只不過(guò) 3000 萬(wàn)盤(pán)。二是算法,包括蒙特卡洛樹(shù)搜索(Monte-Carlotreesearch)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)(reinforcementlearning) 等。三是算力,運(yùn)行 AlphaGo 的機(jī)器是由 1920 個(gè) CPU 和 280 個(gè) GPU 組成的分布系統(tǒng)。因此第二代 AI 又稱(chēng)數(shù)據(jù)驅(qū)動(dòng)方法。

在創(chuàng)建第二代 AI 中做出重大貢獻(xiàn)的學(xué)者中,有以下 5 位獲得圖靈獎(jiǎng)。他們是菲麗恩特(L. G. Valiant,2010)、珀?duì)枺↗. Pearl,2011)、本杰奧(Y. Bengio,2018)、辛頓(G. Hinton,2018)、楊立昆(Y. LeCun,2018)等。

早在 2014 年,深度學(xué)習(xí)的諸多缺陷不斷地被發(fā)現(xiàn),預(yù)示著這條道路遇到了瓶頸。下面僅以基于深度學(xué)習(xí)的圖像識(shí)別的一個(gè)例子說(shuō)明這個(gè)問(wèn)題(材料引自本團(tuán)隊(duì)的工作)。文獻(xiàn) 表示利用基于動(dòng)量的迭代快速梯度符號(hào)法(momentumiterativefastgradientsignmethod,MI-FGSM)對(duì) Inceptionv3 深度網(wǎng)絡(luò)模型實(shí)施攻擊的結(jié)果。無(wú)噪聲的原始圖像——阿爾卑斯山(Alps),模型以 94.39% 的置信度得到正確的分類(lèi)。利用 MI-FGSM 方法經(jīng) 10 次迭代之后生成攻擊噪聲,將此攻擊噪聲加進(jìn)原圖像后得到攻擊樣本。由于加入的噪聲很小,生成的攻擊樣本與原始圖幾乎沒(méi)有差異,人類(lèi)無(wú)法察覺(jué),但 Inceptionv3 模型卻以 99.99% 的置信度識(shí)別為「狗」。

深度學(xué)習(xí)為何如此脆弱,這樣容易受攻擊,被欺騙和不安全,原因只能從機(jī)器學(xué)習(xí)理論本身去尋找。機(jī)器學(xué)習(xí)的成功與否與 3 項(xiàng)假設(shè)密切相關(guān),由于觀察與測(cè)量數(shù)據(jù)的不確定性,所獲取的數(shù)據(jù)一定不完備和含有噪聲,這種情況下,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(備選函數(shù)族)的選擇極為重要,如果網(wǎng)絡(luò)過(guò)于簡(jiǎn)單,則存在欠擬合(under-fitting)風(fēng)險(xiǎn),如果網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于復(fù)雜,則出現(xiàn)過(guò)擬合(overfitting)現(xiàn)象。雖然通過(guò)各種正則化的手段,一定程度上可以降低過(guò)擬合的風(fēng)險(xiǎn),但是如果數(shù)據(jù)的質(zhì)量差,則必然會(huì)導(dǎo)致推廣能力的嚴(yán)重下降。

此外,深度學(xué)習(xí)的「黑箱」性質(zhì)是造成深度學(xué)習(xí)推廣能力差的另一個(gè)原因,以圖像識(shí)別為例,通過(guò)深度學(xué)習(xí)只能發(fā)現(xiàn)重復(fù)出現(xiàn)的局部片段(模式),很難發(fā)現(xiàn)具有語(yǔ)義的部件。文獻(xiàn)描述了利用深度網(wǎng)絡(luò)模型 VGG-16 對(duì)「鳥(niǎo)」原始圖像進(jìn)行分類(lèi),從該模型 pool5 層 147 號(hào)神經(jīng)元的響應(yīng)可以看出,該神經(jīng)元最強(qiáng)烈的響應(yīng)是「鳥(niǎo)」頭部的某個(gè)局部特征,機(jī)器正利用這個(gè)局部特征作為區(qū)分「鳥(niǎo)」的主要依據(jù),顯然它不是「鳥(niǎo)」的不變語(yǔ)義特征。因此對(duì)于語(yǔ)義完全不同的對(duì)抗樣本(人物、啤酒瓶和馬等),由于具有與「鳥(niǎo)」頭部相似的片段,VGG-16 模型 pool5 層 147 號(hào)神經(jīng)元同樣產(chǎn)生強(qiáng)烈的響應(yīng),于是機(jī)器就把這些對(duì)抗樣本錯(cuò)誤地判斷為「鳥(niǎo)」。

3、第三代人工智能

第一代知識(shí)驅(qū)動(dòng)的 AI,利用知識(shí)、算法和算力 3 個(gè)要素構(gòu)造 AI,第二代數(shù)據(jù)驅(qū)動(dòng)的 AI,利用數(shù)據(jù)、算法與算力 3 個(gè)要素構(gòu)造 AI。由于第一、二代 AI 只是從一個(gè)側(cè)面模擬人類(lèi)的智能行為,因此存在各自的局限性。為了建立一個(gè)全面反映人類(lèi)智能的 AI,需要建立魯棒與可解釋的 AI 理論與方法,發(fā)展安全、可信、可靠與可擴(kuò)展的 AI 技術(shù),即第三代 AI。其發(fā)展的思路是,把第一代的知識(shí)驅(qū)動(dòng)和第二代的數(shù)據(jù)驅(qū)動(dòng)結(jié)合起來(lái),通過(guò)同時(shí)利用知識(shí)、數(shù)據(jù)、算法和算力等 4 個(gè)要素,構(gòu)造更強(qiáng)大的 AI。目前存在雙空間模型與單一空間模型兩個(gè)方案。

3.1 雙空間模型

b78eba92-9f46-11ee-8b88-92fbcf53809c.png

雙空間模型如圖 2 所示,它是一種類(lèi)腦模型,符號(hào)空間模擬大腦的認(rèn)知行為,亞符號(hào)(向量)空間模擬大腦的感知行為。這兩層處理在大腦中是無(wú)縫融合的,如果能在計(jì)算機(jī)上實(shí)現(xiàn)這種融合,AI 就有可能達(dá)到與人類(lèi)相似的智能,從根本上解決目前 AI 存在的不可解釋和魯棒性差的問(wèn)題。為了實(shí)現(xiàn)這種目標(biāo),需要解決以下 3 個(gè)問(wèn)題。

3.1.1 知識(shí)與推理

知識(shí) (包括常識(shí)) 與推理是理性智能的基礎(chǔ), 在第一代 AI 中, 以物理符號(hào)系統(tǒng)模擬人類(lèi)的理性 智能, 取得顯著的進(jìn)展, 但無(wú)論在知識(shí)表示還是推理方法上都有大量的問(wèn)題需要進(jìn)一步探討。下面以 IBMDeepQA 項(xiàng)目為例說(shuō)明最近的進(jìn)展, 之所以選擇這個(gè)例子是因?yàn)榛?DeepQA 構(gòu)成的 Watson 對(duì)話系統(tǒng), 在 2011 年 2 月美國(guó)電視 「危險(xiǎn)邊緣」 智力競(jìng)賽節(jié)目中, 以壓倒優(yōu)勢(shì)戰(zhàn)勝全美冠軍 K. 詹寧斯 (KenJennings) 和 B. 拉特 (BradRutter), 表明 Watson 是一個(gè)成功的 AI 系統(tǒng)。Watson 關(guān)于知識(shí) 表示和推理方法的以下經(jīng)驗(yàn)值得借鑒: (1) 從大量非結(jié)構(gòu)化的文本自動(dòng)生成結(jié)構(gòu)化知識(shí)表示的方法, (2) 基于知識(shí)質(zhì)量的評(píng)分表示知識(shí)不確定性的方法, (3) 基于多種推理的融合實(shí)現(xiàn)不確定性推理的方法。

b7a047d0-9f46-11ee-8b88-92fbcf53809c.png

Watson 系統(tǒng)將 「問(wèn)答」(question-answer) 看成是基于知識(shí)的從 「問(wèn)題」 到 「答案」 的推理, 為了達(dá) 到人類(lèi)的答題水平, 計(jì)算機(jī)需要擁有與人類(lèi)冠軍一樣甚至更多的知識(shí)。其中包括百科全書(shū)、主題詞表、 詞典、專(zhuān)線新聞報(bào)道、文學(xué)作品等互聯(lián)網(wǎng)上數(shù)量巨大 (相當(dāng)于 2 億頁(yè)的紙質(zhì)材料) 的文本, 這些文本是 非結(jié)構(gòu)化的, 而且質(zhì)量參差不齊, 需要把這些非結(jié)構(gòu)化的文本自動(dòng)轉(zhuǎn)換為結(jié)構(gòu)化且易于處理的表達(dá)形 式。Watson 系統(tǒng)使用的表達(dá)形式為 「擴(kuò)展語(yǔ)料庫(kù)」(expendedcorpus) , 它的生成步驟如下。首先給出 基線語(yǔ)料庫(kù) (baselinecorpus) 判別種子文件 (seeddocuments) , 根據(jù)種子文件從網(wǎng)上收集相關(guān)文件 并 并 從中挖掘 「文本核 」(textnuggets) , 對(duì)文本核做評(píng)分 按 按照評(píng)分結(jié)果集成為最后的 「擴(kuò)展語(yǔ)料庫(kù)」。

除自動(dòng)生成的擴(kuò)展語(yǔ)料庫(kù)之外, Watson 的知識(shí)庫(kù)中還包括已有的語(yǔ)料庫(kù), 如 dbPedia, WordNet, Yago 等, 以及人工編制的部分庫(kù)。Watson 采用多種推理機(jī)制 (多達(dá)百種) 將 「問(wèn)題」 轉(zhuǎn)換為 「答案」(見(jiàn)圖 3)。先對(duì) 「問(wèn)題」 做分析、分類(lèi)和分解, 根據(jù)分解的結(jié)果從答案源 (語(yǔ)料庫(kù)) 中搜索假設(shè)與候選答 案, 經(jīng)初步過(guò)濾之后, 篩選出 100 個(gè)左右候選答案。再?gòu)淖C據(jù)源中收集證據(jù), 對(duì)候選答案進(jìn)行評(píng)分, 評(píng) 估過(guò)程同時(shí)考慮數(shù)據(jù)源的可靠性, 依據(jù)評(píng)分結(jié)果合成出幾種候選答案, 按照置信度大小進(jìn)行排序, 最后輸出排序后的答案。

此外,Watson 還通過(guò) 155 場(chǎng)與人類(lèi)現(xiàn)場(chǎng)對(duì)決和 8000 次的實(shí)驗(yàn),學(xué)習(xí)對(duì)「問(wèn)題」(自然語(yǔ)言)的理解。

3.1.2 感知

符號(hào)主義用符號(hào)系統(tǒng)作為人類(lèi)心智的模型, 以實(shí)現(xiàn)與人類(lèi)相似的推理能力。但從認(rèn)知的角度看, 二者卻有本質(zhì)上的不同, 即存在 「符號(hào)基礎(chǔ)問(wèn)題」(symbolgroundingproblem)。在物理符號(hào)系統(tǒng)中, 客觀世界的 「對(duì)象」 和 「關(guān)系」 等用符號(hào)表示, 但符號(hào)本身并無(wú)語(yǔ)義, 我們只好人為地給它們規(guī)定語(yǔ)義, 也就是說(shuō)是外部強(qiáng)加的 「寄生語(yǔ)義」(parasiticsemantics) , 機(jī)器本身并不知道。這與人類(lèi)大腦中存在的 「內(nèi)在語(yǔ)義 」(intrinsicsemantics) 完全不同, 人類(lèi)大腦中的 「內(nèi)在語(yǔ)義」, 特別是 「原子概念」 和 「常識(shí)」, 除極少數(shù)先天之外, 主要是通過(guò)感官 (視聽(tīng)等) 或者感官與動(dòng)作的結(jié)合自我習(xí)得的, 即將感官圖符式 (iconic) 表示或反映語(yǔ)義不變性的分類(lèi) (categorical) 表示轉(zhuǎn)化為符號(hào)表示。這本來(lái)是深度學(xué)習(xí)要完成的任務(wù), 但很可惜, 目前深度學(xué)習(xí)的模型并不能完成這項(xiàng)使命。

因?yàn)樯疃葘W(xué)習(xí)所處理的空間是特征空間, 與語(yǔ)義空間差別很大, 它只能學(xué)到?jīng)]有明確語(yǔ)義的 「局部片段」, 這些片段不具備可組合性, 因此不 能用來(lái)作為 「物體」 的 「內(nèi)在語(yǔ)義」 表示。換句話講, 目前的深度學(xué)習(xí)只能做到 「感覺(jué)」(sensation) , 達(dá)不到感知 為 為達(dá)到感知的水平 , 機(jī)器必須通過(guò)自我學(xué)習(xí)獲取 「物體」 的語(yǔ)義部件 (semanticparts) , 如 「狗」 的腿、頭、尾等,才有可能通過(guò)這些部件的組合形成 「狗」 的不變 「內(nèi)在語(yǔ)義」。解決這個(gè)問(wèn)題的基本思路是利用知識(shí)為引導(dǎo),將感覺(jué)的信息從向量特征空間提升到符號(hào)語(yǔ)義空間,如圖 2 所示。這方面已經(jīng)有不少的研究工作 ,下面以本團(tuán)隊(duì)的工作闡述這方面工作的初步進(jìn)展。

文獻(xiàn) 描述如何利用一個(gè)三元生成對(duì)抗網(wǎng)絡(luò) (triplegenerativeadversarialnetworks , Triple-GAN) 提高圖像分類(lèi)性能的方法。三元生成對(duì)抗網(wǎng)絡(luò)由 3 部分組成: 分類(lèi)器、生成器和鑒別器,分別用于條件化圖像生成和半監(jiān)督學(xué)習(xí)中的分類(lèi)。生成器在給定真實(shí)標(biāo)簽的情況下生成偽數(shù)據(jù),分類(lèi)器在給定真實(shí)數(shù)據(jù)的情況下生成偽標(biāo)簽,鑒別器的作用是區(qū)分?jǐn)?shù)據(jù)標(biāo)簽對(duì)是否來(lái)自真實(shí)標(biāo)記的數(shù)據(jù)集。如果設(shè)計(jì)好合適的效用函數(shù),利用三元生成對(duì)抗網(wǎng)絡(luò),可以通過(guò)無(wú)監(jiān)督(或弱監(jiān)督)學(xué)習(xí),讓生成器(網(wǎng)絡(luò))學(xué)到樣本中「物體」的表示(即先驗(yàn)知識(shí)),同時(shí)利用這個(gè)先驗(yàn)知識(shí)改善分類(lèi)器的性能。

此項(xiàng)研究表明,通過(guò) ANN 的無(wú)監(jiān)督學(xué)習(xí)可以學(xué)到「物體」的先驗(yàn)知識(shí),這就是「物體」(符號(hào))的「內(nèi)在語(yǔ)義」。利用這個(gè)具有「內(nèi)在語(yǔ)義」的先驗(yàn)知識(shí)提高分類(lèi)器的識(shí)別率,從根本上解決計(jì)算機(jī)視覺(jué)中存在的「檢測(cè)」(where)與「識(shí)別」(what)之間的矛盾,實(shí)現(xiàn)小樣本學(xué)習(xí),提高魯棒性和推廣能力。

還可以從另外的角度思考,先回到深度學(xué)習(xí)所使用的人工神經(jīng)網(wǎng)絡(luò)(圖 4),以視覺(jué)為例,它與人類(lèi)的視覺(jué)神經(jīng)網(wǎng)絡(luò)相比過(guò)于簡(jiǎn)單了,既沒(méi)有反饋連接,同層之間的橫向連接和抑制連接,也沒(méi)有稀疏放電、記憶和注意等機(jī)制。如果我們能夠?qū)⑦@些機(jī)制引進(jìn) ANN,將會(huì)逐步提高計(jì)算機(jī)視覺(jué)的感知能力。由于我們對(duì)大腦視神經(jīng)網(wǎng)絡(luò)的工作原理了解得很少,目前只能沿著「腦啟發(fā)計(jì)算」(brianinspiredcomputing)的道路一步一步地往前探索。

b7b235b2-9f46-11ee-8b88-92fbcf53809c.png

目前有一些試探性的工作,有些效果但都不夠顯著。下面介紹本團(tuán)隊(duì)的一項(xiàng)研究。如文獻(xiàn) 所述,將稀疏放電的原理運(yùn)用到 ANN 各層的計(jì)算中。網(wǎng)絡(luò)共 6 層,包括 Gabor 濾波和 Max 池化等,在各層的優(yōu)化計(jì)算中加上「稀疏」正則約束項(xiàng),稀疏性的要求迫使 ANN 選擇最具代表性的特征。如果用背景簡(jiǎn)單的「人類(lèi)」「小汽車(chē)」「大象」和「鳥(niǎo)」等圖像作為訓(xùn)練樣本訓(xùn)練網(wǎng)絡(luò),那么神經(jīng)網(wǎng)絡(luò)的輸出層就會(huì)出現(xiàn)代表這些「類(lèi)別」的神經(jīng)元,分別對(duì)人臉、小汽車(chē)、大象和鳥(niǎo)的輪廓做出響應(yīng),即提取了「整個(gè)物體」的語(yǔ)義信息,形成部分的「內(nèi)在語(yǔ)義」。

這種方法也只能提取部分的語(yǔ)義信息,還不能做到提取不同層面上的語(yǔ)義信息,如「整體」、「部件」和「子部件」等,達(dá)到符號(hào)化的水平,因此仍有許多工作有待研究。

3.1.3 強(qiáng)化學(xué)習(xí)

上面說(shuō)過(guò)通過(guò)感官信息有可能學(xué)到一些基本知識(shí)(概念),不過(guò)僅僅依靠感官信息還不夠,比如「常識(shí)概念」,如「吃飯」「睡覺(jué)」等僅依靠感官難以獲取,只有通過(guò)與環(huán)境的交互,即親身經(jīng)驗(yàn)之后才能獲得,這是人類(lèi)最基本的學(xué)習(xí)行為,也是通往真正 AI 的重要道路。強(qiáng)化學(xué)習(xí)(reinforcementlearning)就是用來(lái)模擬人類(lèi)的這種學(xué)習(xí)行為,它通過(guò)「交互–試錯(cuò)」機(jī)制,與環(huán)境不斷進(jìn)行交互進(jìn)而學(xué)習(xí)到有效的策略,很大程度上反映了人腦做出決定的反饋系統(tǒng)運(yùn)行機(jī)理,成為當(dāng)前人工智能突破的重要方法,在視頻游戲、棋牌游戲、機(jī)器人導(dǎo)航與控制、人機(jī)交互等領(lǐng)域取得了諸多成果,并在一些任務(wù)上接近甚至超越了人類(lèi)的水平。

強(qiáng)化學(xué)習(xí)通??闯墒请x散時(shí)間的隨機(jī)控制過(guò)程,即智能體與環(huán)境的交互過(guò)程。智能體從起始狀態(tài)b7ca6dda-9f46-11ee-8b88-92fbcf53809c.png出發(fā),取得起始觀察值b7d32678-9f46-11ee-8b88-92fbcf53809c.png,在 t 時(shí)刻,智能體根據(jù)其內(nèi)部的推理機(jī)制采取行動(dòng)b7e0dade-9f46-11ee-8b88-92fbcf53809c.png之后,獲得回報(bào)b7f57e30-9f46-11ee-8b88-92fbcf53809c.png,并轉(zhuǎn)移到下一個(gè)狀態(tài)b800c1aa-9f46-11ee-8b88-92fbcf53809c.png,得到新的觀察b80bb128-9f46-11ee-8b88-92fbcf53809c.png。強(qiáng)化學(xué)習(xí)的目標(biāo)是,選擇策略π(s,a)使累計(jì)回報(bào)預(yù)期 V^π(s):S→R 最優(yōu)。如果我們考慮簡(jiǎn)單的馬爾可夫(Markov)決策過(guò)程,即后一個(gè)狀態(tài)僅取決于前一個(gè)狀態(tài),并且環(huán)境完全可觀察,即觀察值 o 等于狀態(tài)值 s,即 O=S; 并假設(shè)策略穩(wěn)定不變。如圖 5 所示。以 AlphaZero 為例,智能體不依賴(lài)人類(lèi)的標(biāo)注數(shù)據(jù),僅僅通過(guò)自我博弈式的環(huán)境交互積累數(shù)據(jù),實(shí)現(xiàn)自身策略的不斷改進(jìn),最終在圍棋任務(wù)上達(dá)到了超越人類(lèi)頂級(jí)大師的水平,代表強(qiáng)化學(xué)習(xí)算法的一個(gè)巨大進(jìn)步。

b81b93ae-9f46-11ee-8b88-92fbcf53809c.png

強(qiáng)化學(xué)習(xí)算法在選擇行為策略的過(guò)程中,需要考慮環(huán)境模型的不確定性和目標(biāo)的長(zhǎng)遠(yuǎn)性。具體的,通過(guò)值函數(shù)也就是未來(lái)累積獎(jiǎng)勵(lì)的期望衡量不同策略的性能,即

b827bd32-9f46-11ee-8b88-92fbcf53809c.png

其中γ∈[0,1]是折扣因子。值函數(shù)可以寫(xiě)成貝爾曼方程(Bellmanequation)的形式。該方程表示了相鄰狀態(tài)之間的關(guān)系,可以利用其將決策過(guò)程劃分成多個(gè)不同的階段,其中某一階段的最優(yōu)決策問(wèn)題可以利用貝爾曼方程轉(zhuǎn)化為下一階段最優(yōu)決策的子問(wèn)題。

強(qiáng)化學(xué)習(xí)的核心目標(biāo)就是選擇最優(yōu)的策略,使得預(yù)期的累計(jì)獎(jiǎng)勵(lì)最大,即值函數(shù)取得最優(yōu)值

b83e7d06-9f46-11ee-8b88-92fbcf53809c.png

需要指出的是,盡管強(qiáng)化學(xué)習(xí)在圍棋、視頻游戲等任務(wù)上獲得了極大的成功,但是這些任務(wù)從本質(zhì)上是相對(duì)「簡(jiǎn)單」的,其任務(wù)的環(huán)境是完全可觀察的、反饋是確定的、狀態(tài)主要是離散的、規(guī)則是明確的,同時(shí)可以相對(duì)比較廉價(jià)地得到大量的數(shù)據(jù),這些都是目前人工智能算法所擅長(zhǎng)的。但是在不確定性、不完全信息、數(shù)據(jù)或者知識(shí)匱乏的場(chǎng)景下,目前強(qiáng)化學(xué)習(xí)算法的性能往往會(huì)出現(xiàn)大幅度的下降,這也是目前強(qiáng)化學(xué)習(xí)所面臨的重要挑戰(zhàn)。其中的典型問(wèn)題如下所述。

(1)部分觀測(cè)馬氏決策過(guò)程中強(qiáng)化學(xué)習(xí): 在真實(shí)的問(wèn)題中,系統(tǒng)往往無(wú)法感知環(huán)境狀態(tài)的全部信息,因此不僅需要考慮動(dòng)作的不確定性,同時(shí)也需要考慮狀態(tài)的不確定性。這就導(dǎo)致了部分感知的強(qiáng)化學(xué)習(xí)往往不滿足馬爾可夫環(huán)境假設(shè)。盡管相關(guān)的研究者近年來(lái)進(jìn)行了大量的探索,但是部分觀測(cè)馬氏決策(partiallyobservableMarkovdecisionprocess,POMDP)仍然是強(qiáng)化學(xué)習(xí)中比較有挑戰(zhàn)的問(wèn)題。

(2)領(lǐng)域知識(shí)在強(qiáng)化學(xué)習(xí)中的融合機(jī)制: 如何實(shí)現(xiàn)領(lǐng)域知識(shí)的融合在強(qiáng)化學(xué)習(xí)中同樣是重要科學(xué)問(wèn)題。對(duì)提高收斂速度、降低采樣復(fù)雜度、改善模型遷移性和算法魯棒性等具有重要意義。本團(tuán)隊(duì)針對(duì)這一問(wèn)題,在領(lǐng)域知識(shí)指導(dǎo)的動(dòng)作空間抽象壓縮、結(jié)構(gòu)設(shè)計(jì)等方面進(jìn)行了初步探索,但是如何實(shí)現(xiàn)領(lǐng)域知識(shí)和強(qiáng)化學(xué)習(xí)框架的高效融合仍然是亟待解決的問(wèn)題。

(3)強(qiáng)化學(xué)習(xí)和博弈論的結(jié)合: 博弈論和強(qiáng)化學(xué)習(xí)的結(jié)合是近年來(lái)領(lǐng)域內(nèi)研究的熱點(diǎn)問(wèn)題。二者的結(jié)合可以讓多智能體之間的競(jìng)爭(zhēng)和合作關(guān)系的建模變得更加直觀和清晰,這其中包含了多智能體之間的零和 / 非零和、完全信息 / 非完全信息等多種不同的任務(wù)類(lèi)型,尤其是在對(duì)抗性的任務(wù)中更具有研究和應(yīng)用價(jià)值。本團(tuán)隊(duì)前期在這方面也進(jìn)行了探索性的研究,將智能體對(duì)環(huán)境的探索建模成智能體和環(huán)境之間的博弈過(guò)程,也是目前第一個(gè)在擴(kuò)展型博弈、參數(shù)未知的場(chǎng)景下能夠從理論上保證收斂的算法。

除此之外,強(qiáng)化學(xué)習(xí)所面臨的難題還包括仿真環(huán)境和真實(shí)環(huán)境的差異、探索和利用的矛盾、基于模型的強(qiáng)化學(xué)習(xí)算法等諸多難點(diǎn)的問(wèn)題,相比于監(jiān)督學(xué)習(xí)所獲得的成功而言,強(qiáng)化學(xué)習(xí)的研究還處于相對(duì)較為初級(jí)的階段。

3.2 單一空間模型

單一空間模型是以深度學(xué)習(xí)為基礎(chǔ),將所有的處理都放在亞符號(hào)(向量)空間,這顯然是為了利用計(jì)算機(jī)的計(jì)算能力,提高處理速度。問(wèn)題在于深度學(xué)習(xí)與大腦的學(xué)習(xí)機(jī)制不同,在許多方面表現(xiàn)不佳,如可解釋性和魯棒性等。關(guān)鍵是要克服深度學(xué)習(xí)所帶來(lái)的缺陷,如圖 6 所示。下面討論幾個(gè)關(guān)鍵問(wèn)題。

b84978aa-9f46-11ee-8b88-92fbcf53809c.png

3.2.1 符號(hào)表示的向量化

知識(shí)通常以自然語(yǔ)言的離散符號(hào)形式表示,為了實(shí)現(xiàn)單一空間模型,首先要將符號(hào)表示的詞、短語(yǔ)、句子和篇章等轉(zhuǎn)換為向量,或者將知識(shí)圖譜轉(zhuǎn)換為向量表示。關(guān)鍵是「詞」的變換,即詞嵌入(wordembedding)。目前「詞嵌入」已有各種方法,如 Word2Vec[53]和 GloVe等。

下面介紹 Word2Vec 中采用的 Skip-gram[55]策略,用來(lái)說(shuō)明詞是如何由符號(hào)轉(zhuǎn)換為向量的。

b8575a7e-9f46-11ee-8b88-92fbcf53809c.png

其中 w 是給定的目標(biāo)詞,c 是從其上下文中任選的一個(gè)詞,p(c|w;θ)是給定詞 w 下,詞 c 出現(xiàn)的概率。D 是從語(yǔ)料庫(kù)中提取的所有 w?c 對(duì),θ是模型參數(shù),式(5)進(jìn)一步參數(shù)化后,得到

b8603ae0-9f46-11ee-8b88-92fbcf53809c.png

其中

b86e3ba4-9f46-11ee-8b88-92fbcf53809c.png

是詞 c 和詞 w 的向量表示,C 是所有可用文本。參數(shù)b877b33c-9f46-11ee-8b88-92fbcf53809c.png,i=1,2,。..d,共 | C|×|W|×d 個(gè)。調(diào)整這些參數(shù)使式(5)最大化,最后得到所有詞 w∈W 的向量表示

b883befc-9f46-11ee-8b88-92fbcf53809c.png

。

這些詞向量具有以下良好的性質(zhì),即「語(yǔ)義相似的詞,其詞向量也很相似」(見(jiàn)圖 7)。變換后的詞向量之所以具有上述良好的性質(zhì),出自嵌入過(guò)程的以下假設(shè),兩個(gè)詞在上下文中同現(xiàn)的頻率越高,這兩個(gè)詞的語(yǔ)義越可能接近,或者越可能存在語(yǔ)義上的某種關(guān)聯(lián)。嵌入詞向量的這些特性,表明它帶有語(yǔ)義信息,因此稱(chēng)嵌入空間為準(zhǔn)語(yǔ)義空間。式(5)是難計(jì)算的,可以采用深度神經(jīng)網(wǎng)絡(luò)等做近似計(jì)算。利用類(lèi)似的嵌入法也可以把「短語(yǔ)」「句子」和「篇章」或者知識(shí)圖譜等轉(zhuǎn)換到具有準(zhǔn)語(yǔ)義的向量空間中去。

b88c2542-9f46-11ee-8b88-92fbcf53809c.png

向量形式的知識(shí)表示具有上述良好的性質(zhì),且可以與數(shù)據(jù)一樣,使用大量的數(shù)學(xué)工具,包括深度學(xué)習(xí)方法,因此被大量應(yīng)用于文本處理,如機(jī)器翻譯等,取得明顯的效果。下面以神經(jīng)機(jī)器翻譯(neuralmachinetranslation)為例予以說(shuō)明。

神經(jīng)機(jī)器翻譯的基本思路是,給定源句子(比如中文)b89ceaee-9f46-11ee-8b88-92fbcf53809c.png,尋找目標(biāo)句(比如英文)b8a595ae-9f46-11ee-8b88-92fbcf53809c.png。神經(jīng)翻譯的任務(wù)是,計(jì)算詞一級(jí)翻譯概率的乘積,

b8ae840c-9f46-11ee-8b88-92fbcf53809c.png

其中θ是一組模型參數(shù),

b8bc904c-9f46-11ee-8b88-92fbcf53809c.png

是部分翻譯結(jié)果。詞一級(jí)的翻譯概率可用 softmax 函數(shù) f(·)定義:

b8cb96e6-9f46-11ee-8b88-92fbcf53809c.png

其中b8e180b4-9f46-11ee-8b88-92fbcf53809c.png是目標(biāo)句中第 j 個(gè)詞的向量表示,v_x 是源句子的向量表示,b8ee2c06-9f46-11ee-8b88-92fbcf53809c.png是部分翻譯句的向量表示,y=y_j,j=1,2.。.,J 是要找的目標(biāo)句。

神經(jīng)翻譯模型的構(gòu)造: 給定訓(xùn)練樣本為一組「源句–目標(biāo)句」對(duì)

b8f8e4f2-9f46-11ee-8b88-92fbcf53809c.png

,模型訓(xùn)練的目標(biāo)是最大化 log 似然:

b906ca5e-9f46-11ee-8b88-92fbcf53809c.png

即選擇一組模型參數(shù)θ,使目標(biāo)函數(shù)最大化。利用這個(gè)模型,通過(guò)式(7)計(jì)算(翻譯)目標(biāo)句子。這種翻譯方法盡管可以得到比傳統(tǒng)方法錯(cuò)誤率還低的翻譯結(jié)果,但它具有深度學(xué)習(xí)方法的共性缺陷,如不可解釋、會(huì)發(fā)生重大錯(cuò)誤、魯棒性差等。為克服這些缺陷,需要加入知識(shí),通過(guò)先驗(yàn)知識(shí)或后驗(yàn)正則化等方式引入語(yǔ)言知識(shí)等。

3.2.2 深度學(xué)習(xí)方法的改進(jìn)

基于深度學(xué)習(xí)的 AI 具有不可解釋和魯棒性差等缺陷,目前有許多改進(jìn)工作。下面介紹本團(tuán)隊(duì)的一些工作。

(1)可解釋性問(wèn)題??山忉屓斯ぶ悄芩惴ǖ难芯拷陙?lái)引起眾多研究人員的關(guān)注。而人類(lèi)理解機(jī)器決策過(guò)程的核心難點(diǎn)是跨越數(shù)據(jù)特征空間和人類(lèi)語(yǔ)義空間之間的鴻溝。無(wú)論是早期的以手工特征為基礎(chǔ)的算法,還是當(dāng)前以特征學(xué)習(xí)為代表的深度學(xué)習(xí),其核心思想都是將觀測(cè)樣本映射到特征空間中,進(jìn)而在特征空間進(jìn)行分析,發(fā)現(xiàn)樣本在特征空間不同區(qū)域內(nèi)的規(guī)律,從而達(dá)到算法要實(shí)現(xiàn)的任務(wù)目標(biāo)(如分類(lèi)、回歸等)。與之不同的是,人類(lèi)的分析和決策是利用自身的背景知識(shí),在語(yǔ)義空間當(dāng)中完成。但是數(shù)據(jù)特征空間和人類(lèi)的語(yǔ)義空間在結(jié)構(gòu)和內(nèi)涵上存在顯著的區(qū)別,而可解釋人工智能的最終就是要在二者之間架起一座橋梁,進(jìn)而跨越二者之間的鴻溝。

總體而言,相關(guān)的研究主要分為(i)模型的后解釋技術(shù)(post-hocexplanation),也就是給定了人工智能的模型,通過(guò)可視化、交互技術(shù)等方式,分析給定模型的工作機(jī)理,為其決策結(jié)果尋找解釋途徑;(ii)可解釋模型,即通過(guò)發(fā)展新的網(wǎng)絡(luò)架構(gòu)、損失函數(shù)、訓(xùn)練方式等,發(fā)展具有內(nèi)在可解釋性的新型人工智能模型。從整體來(lái)說(shuō),兩類(lèi)方法目前都在發(fā)展過(guò)程中,在可解釋性的研究中具有重要作用。

可視分析是人工智能算法可解釋的一種直觀的思路。既然深度學(xué)習(xí)是「黑箱」學(xué)習(xí)法,內(nèi)部的工作機(jī)理是不透明的,「不可解釋」,如果利用可視化,打開(kāi)「黑箱」,一切不就清楚了嗎? 為了幫助機(jī)器學(xué)習(xí)專(zhuān)家更加理解卷積神經(jīng)網(wǎng)絡(luò)的工作機(jī)理,我們開(kāi)發(fā)了 CNNVis 這一可視分析工具。CNNVis 旨在幫助專(zhuān)家更好地理解與診斷深度卷積神經(jīng)網(wǎng)絡(luò),作為一種混合可視化方法,綜合應(yīng)用了基于雙聚類(lèi)技術(shù)的邊綁定方法,以及矩形布局算法、矩陣重排算法和有向無(wú)環(huán)圖布局算法等。作為可視化領(lǐng)域的首批深度學(xué)習(xí)可視分析工作,該工作在工業(yè)界和學(xué)術(shù)界都引起了廣泛關(guān)注。在此基礎(chǔ)上,為了分析復(fù)雜神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程,我們以深度生成模型(對(duì)抗生成網(wǎng)絡(luò)(generativeadversarialnetworks,GAN)和變分自編碼器(variationalauto-encoder,VAE))為例,研究了如何幫助機(jī)器學(xué)習(xí)專(zhuān)家診斷訓(xùn)練過(guò)程中出現(xiàn)的常見(jiàn)問(wèn)題。

解釋模型的另外一個(gè)思路是利用部分統(tǒng)計(jì)分析的技巧,針對(duì)神經(jīng)網(wǎng)絡(luò)決策過(guò)程中的參數(shù)冗余性,對(duì)神經(jīng)網(wǎng)絡(luò)內(nèi)部最后決策起到關(guān)鍵作用的子成分進(jìn)行分析,得到復(fù)雜模型內(nèi)部對(duì)決策起到最關(guān)鍵作用的核心部分。為了更高效發(fā)掘子網(wǎng)絡(luò),我們借鑒了網(wǎng)絡(luò)剪枝(networkpruning)思路,提出一種普適的提取子網(wǎng)絡(luò)的方法,而無(wú)需對(duì)模型從頭進(jìn)行訓(xùn)練。具體來(lái)說(shuō),我們對(duì)網(wǎng)絡(luò)中每一層都附加一組控制門(mén)(controlgate)變量,在知識(shí)蒸餾(knowledgedistillation)準(zhǔn)則下優(yōu)化該組變量控制各層輸出通道,用以確定關(guān)鍵子網(wǎng)絡(luò)。具體來(lái)說(shuō),令 p(y | x;θ)為具有權(quán)重參數(shù)θ的原始模型對(duì)于單個(gè)樣本 X 所做出的預(yù)測(cè)概率。而我們想要提取參數(shù)為θ_s 的關(guān)鍵子網(wǎng)絡(luò),其預(yù)測(cè)輸出應(yīng)為 q(y | x;θ_s),應(yīng)該與原模型輸出結(jié)果在 Kullback-Leibler 散度度量下接近。因此總體最小化目標(biāo)函數(shù)為

b9176b16-9f46-11ee-8b88-92fbcf53809c.png

其中?(θ_s)為稀疏正則項(xiàng),即鼓勵(lì)模型通過(guò)盡量少的激活神經(jīng)元達(dá)到和原網(wǎng)絡(luò)相似的性能。通過(guò)對(duì)關(guān)鍵子網(wǎng)絡(luò)可視化分析,我們觀察到對(duì)于樣本特定子網(wǎng)絡(luò),各層控制門(mén)值表征形式隨著層級(jí)增高而展現(xiàn)出類(lèi)別區(qū)分特性。實(shí)驗(yàn)結(jié)果表明,對(duì)于類(lèi)別特定子網(wǎng)絡(luò),其整體表征形式與類(lèi)別語(yǔ)義之間有著密切聯(lián)系。

以上方法更多的關(guān)注是模型的后解釋?zhuān)簿褪墙o定一個(gè)深度學(xué)習(xí)模型「強(qiáng)行」尋求對(duì)其決策過(guò)程的解釋?zhuān)@種解釋是否符合神經(jīng)網(wǎng)絡(luò)的內(nèi)在機(jī)理仍然是需要討論的問(wèn)題。由于深度學(xué)習(xí)模型的不可解釋性是由于機(jī)器推理的特征空間和人類(lèi)可理解的空間存在著本質(zhì)的區(qū)別,因此深度學(xué)習(xí)要想實(shí)現(xiàn)可解釋性就需要把機(jī)器特征空間和人類(lèi)的語(yǔ)義空間聯(lián)系起來(lái)。本團(tuán)隊(duì)也在此方面進(jìn)行了探索性研究,主要針對(duì)如何將人類(lèi)的先驗(yàn)知識(shí)融入到深度學(xué)習(xí)模型的訓(xùn)練中,使特征具有更加明確的語(yǔ)義內(nèi)涵,從而能夠做到?jīng)Q策的追溯。具體的,在圖文的聯(lián)合分析中,我們利用文本信息中抽取出來(lái)的人類(lèi)可理解的主題信息指導(dǎo)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程,并對(duì)文本和圖像 / 視頻數(shù)據(jù)進(jìn)行協(xié)同訓(xùn)練,引導(dǎo)神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到人類(lèi)可以理解的語(yǔ)義特征。具體的,我們通過(guò)在神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)中引入可解釋的正則約束:

b925bfb8-9f46-11ee-8b88-92fbcf53809c.png

其中第 1 項(xiàng)是相關(guān)任務(wù)的損失函數(shù),第 2 項(xiàng)是可解釋正則約束。通過(guò)這種方法,可以在文本數(shù)據(jù)引導(dǎo)下,通過(guò)不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)性,利用可解釋正則約束,提升深度學(xué)習(xí)模型的可解釋性。

(2)魯棒性問(wèn)題。由于對(duì)抗攻擊給深度學(xué)習(xí)模型帶來(lái)的潛在的惡意風(fēng)險(xiǎn),其攻擊不但精準(zhǔn)且?guī)в泻軓?qiáng)的傳遞性,給深度學(xué)習(xí)模型的實(shí)際應(yīng)用帶來(lái)了嚴(yán)重的安全隱患,迫切需要增強(qiáng)深度學(xué)習(xí)模型自身的安全性,發(fā)展相應(yīng)的深度學(xué)習(xí)防御算法,降低惡意攻擊帶來(lái)的潛在威脅。具體來(lái)說(shuō),目前的深度學(xué)習(xí)防御算法主要有兩類(lèi)思路。

第 1 是基于樣本 / 模型輸入控制的對(duì)抗防御。這類(lèi)方法的核心是在模型的訓(xùn)練或者使用階段,通過(guò)對(duì)訓(xùn)練樣本的去噪、增廣、對(duì)抗檢測(cè)等方法,降低對(duì)抗攻擊造成的危害。其中去噪器由于不改變模型自身的結(jié)構(gòu)和性質(zhì),具有「即插即用」的性質(zhì),引起了廣泛的關(guān)注。但是由于對(duì)抗噪聲的特殊屬性,其形成的干擾效應(yīng)往往可以隨著神經(jīng)網(wǎng)絡(luò)的加深逐步放大,因此在普通的高斯噪聲(Gaussiannoise)上具有良好濾除效果的自編碼器往往不能很好地濾除對(duì)抗噪聲。

針對(duì)這一問(wèn)題,本團(tuán)隊(duì)提出了基于高層表示引導(dǎo)的去噪器(HGD),通過(guò)高層特征的約束使得對(duì)抗樣本與正常樣本引起目標(biāo)模型的上層神經(jīng)元響應(yīng)盡可能一致。將傳統(tǒng)像素級(jí)去噪網(wǎng)絡(luò) DAE(denoisingautoencoder)與 U-net 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行結(jié)合,到負(fù)噪聲輸出b9306364-9f46-11ee-8b88-92fbcf53809c.png,用對(duì)抗樣本加上負(fù)噪聲可以得到去噪圖片b93c1d9e-9f46-11ee-8b88-92fbcf53809c.png,即b948424a-9f46-11ee-8b88-92fbcf53809c.png。研究表明該方法不僅去掉了一部分對(duì)抗擾動(dòng),還增加了一部分「反對(duì)抗擾動(dòng)」,取得了非常好的防御效果,獲得「NIPS2017 對(duì)抗性攻防競(jìng)賽」中對(duì)抗防御任務(wù)冠軍,以及 2018 年在拉斯維加斯(LasVegas)舉辦的 CAADCTF 對(duì)抗樣本邀請(qǐng)賽冠軍。

第 2 是基于模型增強(qiáng)的對(duì)抗防御。這類(lèi)方法的核心是通過(guò)修改網(wǎng)絡(luò)的結(jié)構(gòu)、模型的激活函數(shù)、損失函數(shù)等,訓(xùn)練更加魯棒的深度學(xué)習(xí)模型,從而提高對(duì)對(duì)抗攻擊的防御能力。其中集成模型(ensemble)是近年來(lái)出現(xiàn)的一類(lèi)典型的防御方法。針對(duì)經(jīng)典集成防御由于各個(gè)子模型的相似性導(dǎo)致防御性能下降的問(wèn)題,本團(tuán)隊(duì)提出自適應(yīng)多樣性增強(qiáng)訓(xùn)練方法(adaptivediversitypromotingtraining,ADP)。相比于經(jīng)典集成模型,ADP 方法在訓(xùn)練函數(shù)中額外引入了多樣性正則項(xiàng),鼓勵(lì)每個(gè)子模型在正確類(lèi)別上決策一致,而在其他類(lèi)別上預(yù)測(cè)不一致。由于其他類(lèi)別包括所有潛在的對(duì)抗樣本的目標(biāo)類(lèi)別,所以這種不一致性可以使得各個(gè)子模型難以被同時(shí)欺騙,從而增強(qiáng)集成模型的魯棒性。具體來(lái)講,在 ADP 方法中,為了保證每個(gè)子模型的最大預(yù)測(cè)都對(duì)應(yīng)于正確的類(lèi)別,這種多樣性定義在每個(gè)子模型輸出的非最大預(yù)測(cè)上,當(dāng)不同子模型的非最大預(yù)測(cè)向量相互正交時(shí),這種多樣性取得最大值。具體的,其訓(xùn)練的目標(biāo)函數(shù)為

b94f8f3c-9f46-11ee-8b88-92fbcf53809c.png

其中,

b962807e-9f46-11ee-8b88-92fbcf53809c.png

;b96ca95a-9f46-11ee-8b88-92fbcf53809c.png為每個(gè)子模型 k 的交叉熵(cross-entropy)損失函數(shù)。ADP_α,β(x,y)=α·H(F)+β·log(ED)是模型集成多樣性的度量,鼓勵(lì)不同的子模型形成盡量差異化的決策邊界。實(shí)驗(yàn)結(jié)果表明,通過(guò)鼓勵(lì)不同子模型的差異化決策性質(zhì),有效地提升了模型的對(duì)抗魯棒性。但是,總體而言,目前多數(shù)的對(duì)抗防御方法是基于經(jīng)驗(yàn)主義的,研究表明很多防御對(duì)抗樣本的方法在很短的時(shí)間就會(huì)被后來(lái)的攻擊算法攻破。其重要原因之一是深度學(xué)習(xí)只是在做簡(jiǎn)單的函數(shù)擬合,缺乏像人一樣對(duì)問(wèn)題的理解能力。因此通過(guò)理解機(jī)器學(xué)習(xí)模型的內(nèi)部工作機(jī)理,發(fā)展數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)融合的第三代人工智能理論框架,將成為提高人工智能算法魯棒性的重要途徑。

但是,總體而言,目前多數(shù)的對(duì)抗防御方法是基于經(jīng)驗(yàn)主義的,研究表明很多防御對(duì)抗樣本的方法在很短的時(shí)間就會(huì)被后來(lái)的攻擊算法攻破。其重要原因之一是深度學(xué)習(xí)只是在做簡(jiǎn)單的函數(shù)擬合,缺乏像人一樣對(duì)問(wèn)題的理解能力。因此通過(guò)理解機(jī)器學(xué)習(xí)模型的內(nèi)部工作機(jī)理,發(fā)展數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)融合的第三代人工智能理論框架,將成為提高人工智能算法魯棒性的重要途徑。

3.2.3 貝葉斯深度學(xué)習(xí)

如圖 6 所示,圖像和語(yǔ)音等信息是在特征空間中處理的,這些特征語(yǔ)義信息很少,需要提取含有更多語(yǔ)義的特征,其中的一種解決辦法是將知識(shí)引入深度學(xué)習(xí)。下面以貝葉斯深度學(xué)習(xí)為例,說(shuō)明這一思路。

我們前面說(shuō)過(guò)深度神經(jīng)網(wǎng)絡(luò)沒(méi)有考慮數(shù)據(jù)觀測(cè)的不確定性,這種不確定性的存在,以及對(duì)于數(shù)據(jù)背后物理背景的無(wú)知,使我們對(duì)深度學(xué)習(xí)結(jié)果的正確性難以判斷。同時(shí),在數(shù)據(jù)量有限但模型逐漸變大(如包括十億甚至千億參數(shù))的過(guò)程中,模型的不確定性也變得更嚴(yán)重——存在很多模型在訓(xùn)練集上表現(xiàn)都很好,但在測(cè)試集上的表現(xiàn)差別很大。貝葉斯學(xué)習(xí)充分考慮了先驗(yàn)知識(shí)以及模型和數(shù)據(jù)的不確定性,而且還能從不斷提供的數(shù)據(jù)(證據(jù))中,加深對(duì)數(shù)據(jù)的了解,即根據(jù)新的證據(jù)實(shí)現(xiàn)增量式的學(xué)習(xí),充分發(fā)揮知識(shí)在學(xué)習(xí)中的作用。不僅可以對(duì)學(xué)習(xí)結(jié)果的可信度做出判斷,也因此提高了學(xué)習(xí)的效率和準(zhǔn)確度。

貝葉斯學(xué)習(xí)(Bayesianlearning)定義: 給定觀測(cè)數(shù)據(jù) d∈D,按貝葉斯規(guī)則計(jì)算每個(gè)假設(shè)的概率,

b974c28e-9f46-11ee-8b88-92fbcf53809c.png

其中 D 是所有數(shù)據(jù)。給定 d

b983ebe2-9f46-11ee-8b88-92fbcf53809c.png

是對(duì)未知量 X 的預(yù)測(cè),即通過(guò)觀測(cè)數(shù)據(jù)確定各個(gè)假設(shè)的概率,再?gòu)母鱾€(gè)假設(shè)確定未知量 X 的分布。其中的關(guān)鍵是假設(shè)先驗(yàn) p(h_i)和給定假設(shè) h_i 下數(shù)據(jù) d 的似然 p(d|h_i)。貝葉斯預(yù)測(cè)(式(13))不管樣本量大小,均可達(dá)到最優(yōu),但當(dāng)假設(shè)空間很大時(shí),式(13)的加法計(jì)算量太大(在連續(xù)情況下為積分),難以實(shí)際應(yīng)用。通常需要采用近似算法,主要有兩類(lèi)近似方法——變分推斷和蒙特卡洛采樣[69]。另外,還有一些常見(jiàn)的簡(jiǎn)化有,(1)對(duì) X 的預(yù)測(cè)不是利用所有的假設(shè),而只利用其中讓 p(h_i|d)最大化的一個(gè) h_i,稱(chēng)為最大化后驗(yàn)(maximumaposteriori,MAP)假設(shè)。(2)假定 p(h_i)是均勻分布,問(wèn)題就簡(jiǎn)化為,選擇一個(gè)讓 p(d|h_i)最大化的 hi,稱(chēng)為最大化似然(maximumlikelihood,ML)假設(shè)。(3)如果不是所有數(shù)據(jù)都可以觀測(cè),即存在隱變量,通常采用 EM(expectationmaximization)算法[70]。該算法分為兩步(式(14)),E 步: 利用觀測(cè)的數(shù)據(jù) x 和θ^(i),計(jì)算 p(Z=z|x;θ^(i));M 步: 利用計(jì)算出來(lái)的 z 和 x,計(jì)算模型參數(shù)θ^(i+1)。兩個(gè)步驟交替進(jìn)行,找到最終的模型參數(shù)θ:

b98b9c20-9f46-11ee-8b88-92fbcf53809c.png

貝葉斯準(zhǔn)則 (式 (12)) 是一個(gè)從先驗(yàn)分布和似然函數(shù)推斷后驗(yàn)分布的過(guò)程, 為了更靈活地考慮知識(shí), 我 們團(tuán)隊(duì)提出了正則化貝葉斯 (regularized Bayesian inference, RegBayes) , 它基于貝葉斯定理的信息 論描述 , 通過(guò)引入后驗(yàn)正則化, 在變分優(yōu)化的框架下可以靈活地考慮領(lǐng)域知識(shí) (如基于邏輯表達(dá)式 的知識(shí) ) 或者學(xué)習(xí)任務(wù)優(yōu)化的目標(biāo) (如最大間隔損失 ) 等。

更進(jìn)一步的, 貝葉斯深度學(xué)習(xí)是將貝葉斯學(xué)習(xí)的基本原理與深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)有機(jī)融合的 一類(lèi)方法, 融合主要體現(xiàn)在兩個(gè)方面, (1) 用貝葉斯方法更好地學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò) (如貝葉斯神經(jīng)網(wǎng)絡(luò)、 高斯過(guò)程等), 包括計(jì)算預(yù)測(cè)的不確定性、避免過(guò)擬合等; (2) 用深度神經(jīng)網(wǎng)絡(luò)作為非線性函數(shù)變換定 義更加豐富靈活的貝葉斯模型, 如圖 8 所示, 包括深度生成模型 (如 GAN, VAE, 基于可逆變換的流模 型等)。 其中第 1 種融合早在 20 世紀(jì) 90 年代就被霍普菲爾德 (J. Hopfield) 和辛頓指導(dǎo)博士生系統(tǒng)研究過(guò) , 當(dāng)時(shí)的算力和數(shù)據(jù)都很有限, 稍微大一點(diǎn)的神經(jīng)網(wǎng)絡(luò)都面臨著嚴(yán)重的過(guò)擬合, 因此, 那時(shí) 候就開(kāi)始研究用貝葉斯方法保護(hù)神經(jīng)網(wǎng)絡(luò), 并且選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)。 隨著神經(jīng)網(wǎng)絡(luò)的加深, 貝葉斯 方法又引起了很多研究興趣, 主要進(jìn)展包括對(duì)深度貝葉斯神經(jīng)網(wǎng)絡(luò)進(jìn)行高效的 (近似) 計(jì)算, 需要克服 的主要困難是深度網(wǎng)絡(luò)過(guò)參數(shù)化 (over-parametrization) 帶來(lái)的維數(shù)災(zāi)難。 在這方面, 我們團(tuán)隊(duì)進(jìn)行了 深入研究, 先后提出了隱式變分推斷 (implicit variational inference) 算法 , 在泛函空間進(jìn)行粒子 優(yōu)化的推斷算法 (functional variational inference) 等。

b9976424-9f46-11ee-8b88-92fbcf53809c.png

對(duì)于第 2 種融合, 我們知道一個(gè)簡(jiǎn)單分布的隨機(jī)變量 z 經(jīng)過(guò)函數(shù) f 變化之后, 得到的變量 x = f(z), 具有更復(fù)雜的分布, 當(dāng) f 是一個(gè)雙射變換時(shí), 我們可以得到 x 分布的解析形式

b9ab946c-9f46-11ee-8b88-92fbcf53809c.png

但是, 在處理復(fù)雜數(shù)據(jù)時(shí), f 是未知的, 因此, 我們希望從數(shù)據(jù)中進(jìn)行學(xué)習(xí)。 利用深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大擬合能 力, 我們將 f 定義成一個(gè)深度神經(jīng)網(wǎng)絡(luò), 通過(guò)一定的準(zhǔn)則學(xué)習(xí)最優(yōu)的 f_θ。 如圖 8 所示, 這種想法被證明是非常有效的, 已經(jīng)發(fā)展了包括 VAE, GAN 以及基于流的模型 (flow-based models), 即使在完全無(wú) 監(jiān)督訓(xùn)練下, 這些模型都可以產(chǎn)生高質(zhì)量的自然圖片或人臉等。

具體的, 這幾種模型的區(qū)別在于定義 x 的變化函數(shù), 在 VAE 中,

b9b5b622-9f46-11ee-8b88-92fbcf53809c.png

其中 ? 是一個(gè)噪聲變量 (如白噪聲對(duì)應(yīng)的標(biāo)準(zhǔn)高斯分布); 在 GAN 和基于流的模型中, 沒(méi)有顯式的噪聲變量。這種區(qū)別帶來(lái)了參數(shù)估計(jì)上的不同, VAE 和基于流的模型采用最大似然估計(jì), 而 GAN 定義了對(duì)抗學(xué)習(xí)的目標(biāo)——「最大最小博弈」。同樣的, 這些模型雖然功能強(qiáng)大, 但是給推斷和學(xué)習(xí)也帶來(lái)了很多挑戰(zhàn)。例如, GAN 網(wǎng)絡(luò)的訓(xùn)練過(guò)程經(jīng)常是不穩(wěn)定的, 會(huì)遇到梯度消失或梯度爆炸等問(wèn)題, 我們團(tuán)隊(duì)最新的成果利用控制論對(duì)這一問(wèn)題進(jìn)行了分析研究, 提出了有效的反饋機(jī)制, 能夠讓 GAN 的訓(xùn)練更平穩(wěn)。此外, 基于可逆變換的流模型往往受限于維數(shù)的約束, 為此, 我們提出了自適應(yīng)數(shù)據(jù)增廣的流模型, 顯著提升這類(lèi)模型的表達(dá)能力。

基于上述介紹, 能夠看出貝葉斯深度學(xué)習(xí)提供了一種強(qiáng)大的建模語(yǔ)言, 將不確定性建模和推斷與深度表示學(xué)習(xí)有機(jī)融合, 其關(guān)鍵挑戰(zhàn)在于推斷和學(xué)習(xí)算法。幸運(yùn)的是, 近年來(lái), 在算法方面取得了很多突破進(jìn)展 (如上所述)。同時(shí), 也發(fā)展了性能良好的概率編程庫(kù), 支持貝葉斯深度學(xué)習(xí)模型的開(kāi)發(fā)和部 署。例如, 我們團(tuán)隊(duì)研制的「珠算」1) , 是最早的系統(tǒng)支持貝葉斯深度學(xué)習(xí)的開(kāi)源庫(kù)之一。在應(yīng)用方面, 貝葉斯深度學(xué)習(xí)的方法已經(jīng)在時(shí)間序列預(yù)測(cè)、半監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)、持續(xù)學(xué)習(xí) 等復(fù)雜場(chǎng)景下, 取得良好的效果。

3.2.4 單一空間中的計(jì)算

如圖 6 所示, 我們要在單一的向量空間中, 對(duì)來(lái)自文本的嵌入向量和來(lái)自視聽(tīng)覺(jué)的特征向量進(jìn)行 計(jì)算, 存在一定的難度。 因?yàn)槲谋局幸苑?hào)表示的詞, 經(jīng)嵌入之后變成向量時(shí)損失了大量語(yǔ)義, 從視聽(tīng)覺(jué)中提取的特征, 雖然我們盡量獲取更多的語(yǔ)義, 但一般情況多屬底層特征, 語(yǔ)義含量很少。

我們將以視覺(jué)問(wèn)答為例介紹這方面的初步嘗試。 在視覺(jué)問(wèn)答中既有圖像又有文本, 需要在單一的向量空間中同時(shí)處理, 涉及單一空間模型的使用。以本團(tuán)隊(duì)關(guān)于 「篇章級(jí)圖文問(wèn)答」 研究工作為例予以說(shuō)明 。如圖 9 所示, 根據(jù)給定的圖片, 回答以下問(wèn)題, 「在大陸地殼下面有多少層 (類(lèi)型)?」, 除問(wèn)題以文本形式表示之外, 還有一個(gè)與圖片相關(guān)的篇章「板塊運(yùn)動(dòng)」。

b9c8534a-9f46-11ee-8b88-92fbcf53809c.png

首先通過(guò)詞嵌入 (采用 Word2Vec 中的 Skip-gram 策略), 將 「問(wèn)題」 與 「篇章」 中的以離散符號(hào)表示的詞轉(zhuǎn)換為向量。 圖片經(jīng) ResNet 網(wǎng)絡(luò)處理后, 取 res5c 層的特征作為輸出 , 它是一組高維空間的特征向量。然后將「問(wèn)題」和「篇章」中的詞向量與「圖片」輸出的特征向量做融合, 以預(yù)測(cè)「答案」。為了更好地融合, 通過(guò)注意機(jī)制, 先找出「問(wèn)題」 和 「篇章」中的「關(guān)鍵詞」, 這些關(guān)鍵詞能夠更好地反映「問(wèn)題」的主題 (語(yǔ)義)。再依據(jù)關(guān)鍵詞通過(guò)「空間注意機(jī)制」找出圖片中關(guān)鍵區(qū)域的特征, 因?yàn)檫@些特征更符合關(guān)鍵詞向量所表達(dá)的主題, 因此融合效果會(huì)更好。這里采用的融合方法是雙線性池化 (multi modal bilinear pooling) 方法?!笀D文問(wèn)答」是選擇題, 備選方案有 「1」, 「2」, 「3」三種, 將融合后的向量與備選方案的向量相比較, 取最接近的一個(gè)向量作為輸出, 這里是 「2」 (向量)。

圖文問(wèn)答目前達(dá)到的水平與人類(lèi)相比相差很遠(yuǎn), 以「選擇題」為例, 目前達(dá)到的水平只比隨機(jī)猜測(cè)略好。

4、總結(jié)

為了實(shí)現(xiàn)第三代 AI 的目標(biāo), 我們采用三空間融合的模型,即融合雙空間與單空間兩種模型,如圖 10 所示。雙空間模型采用類(lèi)腦的工作機(jī)制,如果實(shí)現(xiàn)的話,機(jī)器就會(huì)像人類(lèi)大腦的行為一樣,具有可解釋性與魯棒性。此外,當(dāng)把感覺(jué)(視覺(jué)、聽(tīng)覺(jué)等)信號(hào)提升為感知(符號(hào))時(shí), 機(jī)器就具備一定的理解能力,因此也解決了可解釋和魯棒的問(wèn)題。當(dāng)機(jī)器中的基本概念(符號(hào))可由感知產(chǎn)生時(shí),符號(hào)就有了基礎(chǔ) (根基),符號(hào)與符號(hào)推理就有了內(nèi)在的語(yǔ)義,從根本上解決了機(jī)器行為的可解釋與魯棒性的問(wèn)題。單空間模型以深度學(xué)習(xí)為基礎(chǔ),存在不可解釋與不魯棒的缺陷,如果經(jīng)過(guò)改進(jìn)提高了其可解釋性與魯棒性,就從另外一個(gè)方向邁向第三代 AI。

b9eef022-9f46-11ee-8b88-92fbcf53809c.png

雙空間模型模仿了大腦的工作機(jī)制,但由于我們對(duì)大腦的工作機(jī)制了解得很少,這條道路存在某些不確定性,比如,機(jī)器通過(guò)與環(huán)境的交互學(xué)習(xí) (強(qiáng)化學(xué)習(xí)) 所建立的「內(nèi)在語(yǔ)義」, 與人類(lèi)通過(guò)感知所獲取的「內(nèi)在語(yǔ)義」是否一樣,機(jī)器是否也能具有意識(shí)? 等,目前還不能肯定。盡管存在這些困難,但我們相信機(jī)器只要朝這個(gè)方向邁出一步,就會(huì)更接近于真正的 AI。單一空間模型是以深度學(xué)習(xí)為基礎(chǔ),優(yōu)點(diǎn)是充分利用計(jì)算機(jī)的算力,在一些方面會(huì)表現(xiàn)出比人類(lèi)優(yōu)越的性能。但深度學(xué)習(xí)存在一些根本性的缺點(diǎn),通過(guò)算法的改進(jìn)究竟能得到多大程度的進(jìn)步,也存在不確定性,需要進(jìn)一步探索。但是,我們也相信對(duì)于深度學(xué)習(xí)的每一步改進(jìn),都將推動(dòng) AI 向前發(fā)展。

考慮以上這些不確定性,為了實(shí)現(xiàn)第三代 AI 的目標(biāo),最好的策略是同時(shí)沿著這兩條路線前進(jìn),即三空間的融合,如圖 10 所示。這種策略的好處是,既最大限度地借鑒大腦的工作機(jī)制,又充分利用計(jì)算機(jī)的算力,二者的結(jié)合,有望建造更加強(qiáng)大的 AI。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31133

    瀏覽量

    269449
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47425

    瀏覽量

    238948
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3267

    瀏覽量

    48921

原文標(biāo)題:張鈸教授:邁向第三代人工智能

文章出處:【微信號(hào):AI智勝未來(lái),微信公眾號(hào):AI智勝未來(lái)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是第三代移動(dòng)通信

    什么是第三代移動(dòng)通信答復(fù):第三代移動(dòng)通信系統(tǒng)IMT2000,是國(guó)際電信聯(lián)盟(ITU)在1985年提出的,當(dāng)時(shí)稱(chēng)為陸地移動(dòng)系統(tǒng)(FPLMTS)。1996年正式更名為IMT2000。與現(xiàn)有的第二移動(dòng)
    發(fā)表于 06-13 22:49

    第三代紅外技術(shù)(IR-III)并不是陣列式

    (PATRO)高解析強(qiáng)光抑制攝像機(jī)、帕特羅(PATRO)遠(yuǎn)距離紅外一體攝像機(jī)、帕特羅(PATRO)紅外防雷攝像機(jī) 正當(dāng)IR-III技術(shù)以新臉孔出現(xiàn)在紅外夜視市場(chǎng)時(shí),市場(chǎng)上也出現(xiàn)了第三代陣列式紅外攝像機(jī),造成
    發(fā)表于 02-19 09:35

    liklon的第三代MP3

    `第一沒(méi)有留下痕跡。第二之前在論壇展示過(guò):https://bbs.elecfans.com/jishu_282495_1_1.html現(xiàn)在第三代誕生:`
    發(fā)表于 08-10 15:35

    第三代移動(dòng)通信技術(shù)定義

    3G定義 3G是英文3rd Generation的縮寫(xiě),至第三代移動(dòng)通信技術(shù)。相對(duì)于第一模擬制式手機(jī)(1G)和第二GSM、TDMA等數(shù)字手機(jī)(2G)來(lái)說(shuō),第三代手機(jī)是指將無(wú)線通信與
    發(fā)表于 07-01 07:19

    什么是第三代移動(dòng)通信網(wǎng)絡(luò)規(guī)劃?

    隨著第三代移動(dòng)通信技術(shù)的興起,UMTS網(wǎng)絡(luò)的建立將帶來(lái)一場(chǎng)深刻的革命,這對(duì)網(wǎng)絡(luò)規(guī)劃也提出了更高的要求。在德國(guó)轟動(dòng)一時(shí)的UMTS執(zhí)照拍賣(mài),引起了公眾對(duì)這一新技術(shù)的極大興趣。第三代移動(dòng)通信網(wǎng)絡(luò)的建設(shè)正方
    發(fā)表于 08-15 07:08

    基于第三代移動(dòng)通信系統(tǒng)標(biāo)準(zhǔn)的ALC控制方案研究

    基于第三代移動(dòng)通信系統(tǒng)標(biāo)準(zhǔn)的ALC控制方案的設(shè)計(jì)與實(shí)現(xiàn)
    發(fā)表于 01-13 06:07

    中國(guó)第三代半導(dǎo)體名單!精選資料分享

    據(jù)業(yè)內(nèi)權(quán)威人士透露,我國(guó)計(jì)劃把大力支持發(fā)展第三代半導(dǎo)體產(chǎn)業(yè),寫(xiě)入“十四五”規(guī)劃,計(jì)劃在2021-2025年期間,在教育、科研、開(kāi)發(fā)、融資、應(yīng)用等等各個(gè)方面,大力支持發(fā)展第三代半導(dǎo)體產(chǎn)業(yè),...
    發(fā)表于 07-27 07:58

    匯佳智能第三代25-29彩電電路圖

    匯佳智能第三代25-29彩色電視機(jī)電路圖,匯佳智能第三代25-29彩電圖紙,匯佳智能第三代25-
    發(fā)表于 05-22 10:11 ?179次下載
    匯佳<b class='flag-5'>智能</b><b class='flag-5'>第三代</b>25-29彩電電路圖

    谷歌發(fā)布第三代AI芯片TPU 3.0

    5月9日消息,據(jù)CNBC報(bào)道,在2018年開(kāi)發(fā)者大會(huì)上,谷歌宣布其已經(jīng)開(kāi)發(fā)出第三代人工智能(AI)芯片。
    的頭像 發(fā)表于 05-21 16:15 ?4455次閱讀

    第三代人工智能,人工智能編程框架珠算2.0

    院士指出,清華大學(xué)建立人工智能研究院的重要目標(biāo)就是在人工智能的基礎(chǔ)理論和基本方法上進(jìn)行源頭性和顛覆性創(chuàng)新,使清華大學(xué)成為世界一流的人工智能
    的頭像 發(fā)表于 05-08 09:30 ?4035次閱讀

    RealAI兩大人工智能產(chǎn)品正式發(fā)布

    日前,由清華大學(xué)人工智能研究院、北京智源人工智能研究院、北京瑞萊智慧科技有限公司聯(lián)合主辦的“2020第三代人工智能產(chǎn)業(yè)論壇暨瑞萊智慧RealAI戰(zhàn)略發(fā)布會(huì)”在北京召開(kāi)。
    的頭像 發(fā)表于 12-10 13:56 ?2089次閱讀

    什么是人工智能?人工智能的分類(lèi)和應(yīng)用介紹

    增強(qiáng)出發(fā),以?xún)?nèi)生驅(qū)動(dòng)力突破算法關(guān)、數(shù)據(jù)關(guān)、應(yīng)用關(guān)大關(guān)卡,向算法可靠、數(shù)據(jù)安全和應(yīng)用可控的第三代人工智能邁進(jìn)。
    的頭像 發(fā)表于 12-12 09:08 ?1.1w次閱讀

    燧原科技第三代高性能云端人工智能訓(xùn)練和推理芯片成功上榜

    近日,工業(yè)和信息化部“人工智能產(chǎn)業(yè)創(chuàng)新任務(wù)”揭榜掛帥單位入圍名單逐步揭曉,燧原科技依托“第三代高性能人工智能訓(xùn)練芯片”和“第三代高性能人工智能
    的頭像 發(fā)表于 06-10 15:53 ?3224次閱讀

    院士: 邁向第三代人工智能

    符號(hào) AI 同樣可以應(yīng)用于機(jī)器學(xué)習(xí),把「機(jī)器學(xué)習(xí)」看成是基于知識(shí)的(歸納)推理。下面以歸納邏輯編程(inductivelogicprogramming,ILP)為例說(shuō)明符號(hào) AI 的學(xué)習(xí)機(jī)制。在 ILP 中正負(fù)樣本(具體示例)、背景知識(shí)和學(xué)習(xí)結(jié)果(假設(shè))都以一階邏輯子句(程序)形式表示。
    的頭像 發(fā)表于 07-11 15:34 ?1461次閱讀
    <b class='flag-5'>張</b><b class='flag-5'>鈸</b>院士: <b class='flag-5'>邁向</b><b class='flag-5'>第三代人工智能</b>

    MagicLab開(kāi)發(fā)第三代人形機(jī)器人,洽談字節(jié)豆包大模型合作

    人形機(jī)器人創(chuàng)業(yè)公司MagicLab近日宣布,正在積極開(kāi)發(fā)第三代人形機(jī)器人產(chǎn)品,并聚焦于其實(shí)地應(yīng)用與落地。據(jù)悉,這款機(jī)器人已在某家電工廠的流水線上進(jìn)行測(cè)試,旨在驗(yàn)證其在工業(yè)生產(chǎn)環(huán)境中的作業(yè)能力。
    的頭像 發(fā)表于 12-03 17:38 ?637次閱讀