在認(rèn)知智能領(lǐng)域,AI企業(yè)如何才能取得進(jìn)一步的突破?科大訊飛高級(jí)副總裁、研究院院長(zhǎng)胡國(guó)平在AI WORLD 2018峰會(huì)上分享了關(guān)于認(rèn)知智能最新進(jìn)展及下一步方向的思考:若想在認(rèn)知智能上走得更遠(yuǎn),不能只停留在文字層面,更需要關(guān)注的是語(yǔ)言之下智慧本質(zhì)。
計(jì)算智能、感知智能和認(rèn)知智能,是探索人工智能道路上的三大臺(tái)階。
在計(jì)算智能方面,機(jī)器早已遠(yuǎn)遠(yuǎn)超過人類。而在感知智能方面,機(jī)器也已達(dá)到可媲美人類的水平??拼笥嶏w在語(yǔ)音識(shí)別錯(cuò)誤率方面每年相對(duì)下降30%以上。在2018年CHiME-5國(guó)際多通道語(yǔ)音分離和識(shí)別大賽上,當(dāng)面對(duì)更難、更復(fù)雜的語(yǔ)音識(shí)別任務(wù)時(shí),科大訊飛依然獲得第一名。
基于深度網(wǎng)絡(luò)學(xué)習(xí)、語(yǔ)音合成、語(yǔ)義理解、圖像合成等技術(shù),深耕語(yǔ)音識(shí)別19年的科大訊飛作為“中國(guó)智造”的影響力持續(xù)擴(kuò)大。不僅認(rèn)知智能國(guó)家重點(diǎn)實(shí)驗(yàn)室已經(jīng)在訊飛落戶,科大訊飛還在人工智能+腦科學(xué)等諸多領(lǐng)域展開了探索。
9月20日,AI WORLD 2018世界人工智能峰會(huì)重磅發(fā)布AI領(lǐng)域年度大獎(jiǎng)——AI Era創(chuàng)新大獎(jiǎng),評(píng)選出2018年度對(duì)AI領(lǐng)域作出重大貢獻(xiàn),切實(shí)推動(dòng)AI進(jìn)步和發(fā)展的人物、企業(yè)和產(chǎn)品??拼笥嶏w憑借領(lǐng)先世界的智能語(yǔ)音技術(shù)成功登榜「中國(guó)AI領(lǐng)軍企業(yè)TOP10」,科大訊飛創(chuàng)始人、董事長(zhǎng)劉慶峰也被評(píng)選為「華人AI人物TOP10」。
中國(guó)AI領(lǐng)軍企業(yè)TOP10:阿里巴巴、騰訊、百度、華為、科大訊飛、字節(jié)跳動(dòng)、螞蟻金服、京東、??低?/u>、小米
AI華人影響力TOP10:陳天石、胡郁、黃仁勛、李飛飛、劉慶峰、王海峰、王小川、吳恩達(dá)、顏水成、余凱
此外,本次峰會(huì)同時(shí)也頒發(fā)了「AI產(chǎn)品影響力TOP10」,訊飛翻譯機(jī)2.0成功入圍。目前,訊飛翻譯機(jī)2.0具備中文與33種語(yǔ)言即時(shí)互譯、離線翻譯、拍照翻譯、方言翻譯、以及全球上網(wǎng)等功能,英文翻譯水準(zhǔn)達(dá)到大學(xué)六級(jí)水平。
AI產(chǎn)品影響力TOP10:寒武紀(jì)智能芯片MLU100、華為麒麟980、曠視Brain++、訊飛翻譯機(jī)2.0、百度Apollo3.0、阿里云ET城市大腦、英偉達(dá)Drive Xavier、百度大腦3.0、浪潮AI服務(wù)器、阿里量子計(jì)算云平臺(tái)
科大訊飛已經(jīng)在感知智能以及認(rèn)知智能領(lǐng)域中的自然語(yǔ)言處理技術(shù)上領(lǐng)先世界,科大訊飛高級(jí)副總裁、研究院院長(zhǎng)胡國(guó)平在AI WORLD 2018世界人工智能峰會(huì)上說(shuō):“機(jī)器的自然語(yǔ)言理解能力已經(jīng)超過人類的平均水平,這是認(rèn)知智能重大的突破。”
然而當(dāng)談到AI企業(yè)該如何徹底地邁上人工智能的最高臺(tái)階——認(rèn)知智能時(shí),胡國(guó)平表示:“在強(qiáng)調(diào)知識(shí)、推理能力的認(rèn)知智能方面,機(jī)器與人類仍有差距?!弊匀徽Z(yǔ)言處理技術(shù)的確是認(rèn)知智能的重要技術(shù)基石,但即便是自然語(yǔ)言處理技術(shù)在特定領(lǐng)域已經(jīng)超過人類,AI在認(rèn)知智能層面依舊面臨艱巨挑戰(zhàn)。
現(xiàn)在多數(shù)產(chǎn)業(yè)在認(rèn)知智能上面的做法大多停留在純文字層面,但語(yǔ)言只是人類智慧的載體和表層,如果只純粹在文字層面做認(rèn)知智能,可能會(huì)有著極矮的天花板。胡國(guó)平針對(duì)這一問題在本次峰會(huì)上分享了認(rèn)知智能下一步方向:若想在認(rèn)知智能路上走得更遠(yuǎn),需要關(guān)注的是語(yǔ)言之下智慧本質(zhì)。
下面就是科大訊飛高級(jí)副總裁、研究院院長(zhǎng)胡國(guó)平在AI WORLD 2018世界人工智能峰會(huì)上的演講《認(rèn)知智能最新進(jìn)展及下一步思考》的主要內(nèi)容:
胡國(guó)平:人工智能現(xiàn)在大家都習(xí)慣分為三個(gè)臺(tái)階,計(jì)算智能、感知智能和認(rèn)知智能。計(jì)算智能方面,機(jī)器已經(jīng)遠(yuǎn)遠(yuǎn)超過人類,而在感知智能方面,機(jī)器也可與人類媲美,而認(rèn)知智能則強(qiáng)調(diào)知識(shí)、推理等相關(guān)的技能,要求能理解、會(huì)思考,這些方面機(jī)器與人之間依然存在差距。
全球首次通過國(guó)家執(zhí)業(yè)醫(yī)師資格的機(jī)器人:自然語(yǔ)言理解能力強(qiáng),分?jǐn)?shù)趕超人類考生
關(guān)于感知智能,這里有兩個(gè)例子。首先是語(yǔ)音識(shí)別,大家都知道包括科大訊飛在內(nèi)的很多公司都把語(yǔ)言識(shí)別做得非常厲害,在過去的六年里,語(yǔ)言識(shí)別每年錯(cuò)誤率相對(duì)下降30%。換言之,大概識(shí)別率從2012年的85%左右一路飆升到現(xiàn)在的97-98%。
語(yǔ)音合成亦是如此,現(xiàn)在遠(yuǎn)遠(yuǎn)超過一般自然人的說(shuō)話水平,今年1月份人工智能語(yǔ)音合成已經(jīng)在中央電視臺(tái)《創(chuàng)新中國(guó)》節(jié)目上正式上崗應(yīng)用:可以將已故播音員李易老師的聲音合成之后再現(xiàn)熒屏。
另外一方面,認(rèn)知智能,涉及到語(yǔ)義理解、知識(shí)表達(dá)、聯(lián)想推理、智能問答、自主學(xué)習(xí),大部分都認(rèn)為認(rèn)知智能是更難的任務(wù),而且是至關(guān)重要的任務(wù)。未來(lái)十年最重要的任務(wù)、也是認(rèn)知智能方面最典型的任務(wù)就是閱讀理解:目前機(jī)器的閱讀理解在精確匹配指標(biāo)上已經(jīng)超過人類的水平,機(jī)器的閱讀理解指標(biāo)達(dá)到82.48,人類平均水平則是82.3,這也是認(rèn)知智能重大的突破。
當(dāng)機(jī)器具有閱讀能力后,科大訊飛訓(xùn)練機(jī)器人閱讀醫(yī)學(xué)書籍,2017年,科大訊飛機(jī)器人“智醫(yī)助理”參加了中國(guó)真正的全國(guó)臨床執(zhí)業(yè)醫(yī)師綜合筆試測(cè)試,并以456的高分輕松通過該考試,從而成為中國(guó)首臺(tái)通過此類考試的人工智能機(jī)器人。
此外,現(xiàn)在不僅認(rèn)知智能國(guó)家重點(diǎn)實(shí)驗(yàn)室已經(jīng)在訊飛落戶,科大訊飛還在人工智能+腦科學(xué)等諸多領(lǐng)域展開了探索。
如何在認(rèn)知智能路上走得更遠(yuǎn)?不能只停留在純文字方面,更要重視語(yǔ)言之下的智慧本質(zhì)
人工智能跟腦科學(xué)其實(shí)有非常多的結(jié)合地方,我下面要分享的內(nèi)容則是關(guān)于認(rèn)知智能下一步方向的思考。
先舉幾個(gè)例子,我們認(rèn)為認(rèn)知智能在現(xiàn)在的做法屬于純文字層面,甚至是把文字當(dāng)做符號(hào)的層面。當(dāng)我們看這樣一些例子,例如父愛如山,我們知道父愛如山是重的意思不是陡峭的意思。這里就存在著一個(gè)我們認(rèn)為很重要的概念——語(yǔ)言的Grounding問題。
平頭哥,所有人知道云棲大會(huì)上發(fā)布的平頭哥,如果不了解這個(gè)詞匯肯定會(huì)去查,如果查到是這樣一段文字的描述,其實(shí)又叫蜜獾,你可能無(wú)法真正形成對(duì)這樣一個(gè)詞匯的真實(shí)理解或者大腦中的真實(shí)印象。于是乎,你需要一張圖片,甚至可能會(huì)去看一下它跟毒蛇搏斗的視頻,才能形成對(duì)平頭哥的概念、印象、知識(shí)。這個(gè)叫語(yǔ)言管理,你必須要有這樣的能力。Grounding之后才能理解這個(gè)世界,人類的智能基于多模態(tài),不是能夠閉環(huán)自洽的,或者我們認(rèn)為語(yǔ)言只是人類智慧的載體和表層,如果純粹在文字層面做認(rèn)知智能,可能會(huì)有著極矮的天花板。
再舉一個(gè)例子,蘋果大還是雞蛋大?你絕對(duì)不會(huì)說(shuō)想想蘋果10公分的長(zhǎng)度,雞蛋5公分的長(zhǎng)度,哦,蘋果比雞蛋大。其實(shí)你在腦袋中有一個(gè)蘋果的印象,有一個(gè)雞蛋的印象,直接問這兩個(gè)哪個(gè)大,自然而然基于多模態(tài)甚至物理的印象中直接能夠判斷出來(lái)。我們認(rèn)為語(yǔ)言只是智能的表層和載體,更多的智能在語(yǔ)言之下,這是有關(guān)語(yǔ)言之下的智慧本質(zhì)的一些思考。
認(rèn)知智能的挑戰(zhàn):難以像人類做到基于物體與時(shí)空感知的序列記憶和預(yù)測(cè)
生活在城市中的烏鴉為了吃到堅(jiān)果,充分利用馬路上的汽車能夠把堅(jiān)果碾碎以及紅綠燈會(huì)讓車停下來(lái)的知識(shí),把堅(jiān)果安全地吃到,在這樣一個(gè)觀察和運(yùn)用,烏鴉實(shí)現(xiàn)了自己的智慧。沒有任何語(yǔ)言,通過觀察習(xí)得。我們認(rèn)為語(yǔ)言之下智慧的本質(zhì)還有一個(gè)通式,這個(gè)通式定義為對(duì)物體在三維空間加以時(shí)間坐標(biāo)下序列的感知、記憶和預(yù)測(cè)的能力。在三維空間里,無(wú)論是人還是烏鴉,都在觀察過程中掌握了物體的移動(dòng)或者變化的規(guī)律。
人類也是這樣一個(gè)學(xué)習(xí)的過程,在過程中實(shí)現(xiàn)了對(duì)物體、空間和時(shí)間的感知,并且把它融到一起,形成了智慧本質(zhì)的通式的概念。無(wú)論是我們今天各位在座的也好,包括網(wǎng)上直播的網(wǎng)友也好,都在利用這種通式做很多的智能。
比如說(shuō)一根火柴點(diǎn)燃之后,也許沒有書上寫出來(lái)這個(gè)火柴點(diǎn)燃之后會(huì)怎樣,但是所有人其實(shí)都很清楚,這根火柴點(diǎn)燃之后它燃燒的形狀,在你的腦中已經(jīng)有了記憶。如果火柴點(diǎn)一根煙,煙會(huì)點(diǎn)著,這是你在記憶上掌握的知識(shí)。所有和環(huán)境的互動(dòng)過程中就自然而然記下來(lái)了很多的智慧智能,而且我們這種智能在使用中或者預(yù)測(cè)的時(shí)候就有潛意識(shí)。
科技館有無(wú)源的自來(lái)水,一個(gè)空的水龍頭不停往下流水。所有小孩一開始都會(huì)很驚訝,他們?cè)谡-h(huán)境的訓(xùn)練里已經(jīng)認(rèn)識(shí)到:水龍頭一定后面有根管子。這個(gè)概念其實(shí)也是整個(gè)記憶序列和預(yù)測(cè)中在實(shí)際人們工作生活中重復(fù)使用的概念。預(yù)測(cè)序列潛意識(shí)不自覺自動(dòng)工作,這是人類智慧包括動(dòng)物智慧很重要的一種模式。腦科學(xué)研究者認(rèn)為,學(xué)習(xí)和記憶是大腦工作的基本機(jī)理。我們也認(rèn)為,序列的預(yù)測(cè)和相應(yīng)預(yù)測(cè)能力也是人類大腦工作很重要的模式。
未來(lái)展望:訓(xùn)練AI機(jī)器的建模和預(yù)測(cè)能力,從而獲取智慧本質(zhì)的通式
我們有一個(gè)猜想:最復(fù)雜的人類大腦本身的智慧也存在大道至簡(jiǎn)的通式,多模態(tài)序列的記憶建模和預(yù)測(cè)的能力。這是有很大的可能性,雖然人類大腦中有很多能力或者功能包括多巴胺、邏輯思考等,但生活中很多的能力其實(shí)是靠多模態(tài)序列記憶和預(yù)測(cè)來(lái)實(shí)現(xiàn)知識(shí)的積累和智慧的應(yīng)用。
我們也在想一件事情,如果讓我們的AI看了一億個(gè)比如車水馬龍道路的視頻之后,它到底能不能預(yù)測(cè)下一秒的路面會(huì)是什么樣?事實(shí)上,我并不清楚。這是驗(yàn)證剛才所說(shuō)的通式的比較理想的任務(wù)。我們希望這樣一個(gè)機(jī)器看了很多的視頻之后,在深度學(xué)習(xí)的方式下去做,這個(gè)任務(wù)的好處是什么?它解決了有監(jiān)督訓(xùn)練數(shù)據(jù)的問題,在所有的序列預(yù)測(cè)里面,它的答案一定程度上是在那里的,基于前面所有的路況去預(yù)測(cè)下一秒的路面情況的話,其實(shí)它的標(biāo)注答案在那里,過了一秒之后答案還在那里。也許可以利用這次人工智能熱起來(lái)的深度學(xué)習(xí)端到端的模式,包括用抽象的能力去實(shí)現(xiàn)這樣一個(gè)任務(wù)上的建模和預(yù)測(cè)。
在未來(lái)科大訊飛希望用更有效的方法去訓(xùn)練機(jī)器的建模和預(yù)測(cè)能力,探尋智慧的本質(zhì),從而獲取智慧本質(zhì)的通式。例如,讓機(jī)器擁有路況的預(yù)測(cè)能力,把攝像頭換成駕駛員視角的高拍儀或者行車記錄儀,那么也許我們?cè)?a target="_blank">無(wú)人駕駛或者很多其它場(chǎng)合下的應(yīng)用上可以不止基于當(dāng)前的路況來(lái)做預(yù)測(cè),而是基于一秒鐘甚至更長(zhǎng)時(shí)間之后路況進(jìn)行準(zhǔn)確預(yù)測(cè),無(wú)人駕駛會(huì)因此變得更智能更安全。
當(dāng)“Thanks”出現(xiàn)在演講屏幕的時(shí)候,其實(shí)你的序列預(yù)測(cè)能夠判斷出來(lái)我已經(jīng)講完了,我會(huì)說(shuō)謝謝,我會(huì)說(shuō)下臺(tái),序列預(yù)測(cè)中你們應(yīng)該會(huì)鼓掌。
-
AI
+關(guān)注
關(guān)注
87文章
31054瀏覽量
269407 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112708 -
科大訊飛
+關(guān)注
關(guān)注
19文章
804瀏覽量
61325
原文標(biāo)題:科大訊飛胡國(guó)平:如果AI企業(yè)的研發(fā)只停留在文字層面,可能會(huì)有著極矮的天花板
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論