人機交互這件事,看起來簡單,卻是人工智能王冠上最耀眼的一顆明珠。目前看來,嚴格意義上的圖靈測試離我們還相當遙遠,不過通過交互方式和產品上的創(chuàng)新,一個在特定領域內可用的合格助手,或許已經在向我們招手了。
十年前,我在微軟研究院語音組混日子?;欤皇俏业闹饔^意愿,卻是客觀事實:當時,我們做的“人機交互”離實用太遠,別人都認為我們是編了個故事來騙工資的。有一回,跟同學聊起我們的愿景:“將來,您對著電腦,樂意怎么說怎么說,那邊不光嗯啊嗻是,有來言就有去語,回答的還得像話…”正說著,他樂成桃狀打斷了我:“你說的這不是跳大神,讓狐仙附了體了么?”
這當然是戲言,因為建國以后就不許成精了。覺得這事兒扯的,要怨您就怨一位前輩的老先生——圖靈。是怹在人工智能八字還沒一撇的時候,提出了這個終極測試方案:將人與機器隔開,前者通過一些裝置(如鍵盤)向后者隨意提問。多次問答后,如果有超過30%的人不能確定出被測試者是人還是機器,那么這臺機器就通過了測試,并被認為具有人類智能。
于是,通過圖靈測試,就成了所有人工智能科學家和偽科學家的最高目標。這兩年人工智能大火,號稱通過了圖靈測試的產品,也如雨后春筍般一抬腳踩死一片。最近的一次,是谷歌在I/O大會上演示的Deplux,據(jù)說“部分通過圖靈測試”,這倒還算中肯。
看起來,圖靈的棺材板快壓不住了,我們是否已經到了突破圖靈測試的奇點了呢?我正在一頭霧水之際,突然有天晚上,黑暗暗霧沉沉,圖爺托兆給我,對我言道:“這事兒,還離著六扔(見注1)多遠吶!現(xiàn)傳爾秘籍一部,望爾潛心習學,授眾生以三法門!”你道哪三個法門?且看下文分解。
圖靈測試是不是人機“對話”?
理解概念,要把握其內涵和外延。圖靈測試的內涵很清楚,就是用機器替代人,進行信息交互;不過其外延有些不清,頗多可變通之處,比如那個“一些裝置”。時下的相關產品,交互或用文字,或用語音,對于信息溝通來說,這樣的裝置夠用么?
我們知道,對人類來說,文字僅僅承載著內容的溝通。而人人信息交互,內容溝通大概只占20%,情感溝通要占到80%
。計算廣告群里的九千歲講了個生動的例子:當年他給女朋友打電話,信息量最大的,就是對方拿起電話那一聲“喂”,這個“喂”就為今天幾個鐘頭的會談定下了基調。
情感溝通,要理解的就不僅僅是文字,還包括語音、表情、肢體語言等等。所以,兩個在知乎上吵得不可開交的人,打個電話沒準就成了基友;而真正重要的面試、會議,還是必須面對面進行。沒有對這些副語言現(xiàn)象深入的研究建模,即使完美地解決了文字和內容溝通的問題,也離真正有效的人機交互相去甚遠。
因此,人機“交互”絕非人機“對話”,我認為真正理想的圖靈測試,就算不能聲情并茂地反饋用戶,也至少應該能察言觀色,有效解讀用戶的副語言。將來用上機器女友了,人家“喂”了一聲,你還不知道怎么接下碴兒,那還不等著回家跪電路板?
顯然,這樣去限定圖靈測試的話,我們現(xiàn)在仍然束手無策。飯要一口口吃,先降低下難度,僅僅考慮利用文本或語音跟機器聊天的場景,我們今天看到的Siri、小冰、Alexa、叮咚音箱等,都是這樣的人機對話系統(tǒng)。那么,是否在人機“對話”的情形下,通過圖靈測試已經指日可待了呢?
既然不用理解副語言現(xiàn)象,人機對話的關鍵,當然就是理解自然語言了。自然語言理解和人機對話,是認知智能領域的核心問題,要了解它遇到的困難,要先從目前人工智能的實用方法說起。
人機對話,到底難在哪里?
今天所有實用的人工智能產品,都是用的“弱智”(見注2)方法。簡單來說,就是湊答案:準備一大坨標注好的數(shù)據(jù),然后用大量機器堆上去狂撩,直到把答案湊個八九不離十。至于問題的內在邏輯和簡約規(guī)律,今天的AI既無心顧及,也無力解讀。
“弱智”方法在數(shù)據(jù)充沛的領域,可謂所向披靡:無論是語音識別、人臉識別,還是機器翻譯、各種棋類,機器都已經接近乃至碾壓真人了。且慢!機器翻譯都快解決了么?翻譯可比聊天要難吧?不然,機器翻譯這個問題,答案是比較好湊的:找到足夠多的語言對數(shù)據(jù),把詞譯過去跟麻將牌一樣碼好了,再調整一下順序即可。人機對話則不然,我們要找到對方語言里的關鍵信息,把它轉化為動作,再把動作的結果反饋回去。這些關鍵信息處理的過程,是要經過統(tǒng)計意義上的推理過程的。
說到推理,當然離不開句子表達內容以外的背景知識。比如你問機器:“直徑為10的球體積是多少?”機器就得會球的體積公式才算得出來。當然,微積分、背古詩、查法典這樣的知識,對機器來說總是可以解決,因為有大量書本上的語料可供學習,按照弱智大法湊答案即可。難就難在,這世界上還有大量的知識,根本沒地方學去。
直覺上,人的知識來自于六歲以后的學習。實際上,絕大部分知識都來自于六歲前神奇的積累過程。只不過,這些知識太普通了,連半傻子都知道,所以被大家都選擇性地遺忘了。這種人人皆知的事情,姑且把它叫做“常識”,舉兩個例子您就明白了:
小明面對著你 =>
你瞧不見小明的后腦勺
一瓶礦泉水被我喝完了 =>
瓶子變輕了
就這個呀?這玩意也算知識?您別拿村長不當干部,沒有這些常識的支撐,自然語言推理是進行不下去的,不信您看看下面這兩句:
爸爸快抱不動兒子了,因為他太胖了
爸爸快抱不動兒子了,因為他太虛弱了
后半句的這個“他”,在上下兩句指代的對象是不同的。顯然,沒有常識的支撐,這兩句不好理解。悲催之處在于,這些常識,在所有人類積累的語料當中,是不存在的。您想想,有人要編纂一本專著,里面寫的全是這樣的“深奧”知識:
有孤王坐金殿脊背朝后
頭沖上腳沖下臉沖前頭
走三步退三步如同沒走
兩只手伸出來十個指頭
那讀者還不得罵著街把作者押送到精神病院啊?對此,郭德綱老師和其它曲藝界同仁給了個專業(yè)術語,叫“大實話”。
沒有了語料、也就是數(shù)據(jù)的支撐,“弱智”方法是沒辦法獲取這些常識的。所以,甭管誰說他的對話系統(tǒng)通過了圖靈測試,你也別問它化學方程,也別讓它背誦古文,就找?guī)讉€這樣的真?弱智問題問上一問,它要能答出來我是茄子。
那么人類的常識在六歲前是怎么獲得的呢?對于這樣的學術問題,我只能嚴肅地回答你:問村長去!
人機交互要不要模仿人人交互?
看起來,我們離通過圖靈測試,還真有六扔多遠。那么,從應用的角度看,人機交互這件事真的遙不可及么?這倒也未必。
從開始探索人機交互,我們就想當然地認為,把人人交互的那一端由人變成機器,就是人機交互的理想模式了。于是,我們設計出來的機器人,也都是倆肩膀扛個腦袋,四肢五官齊備,用語言的方式跟對面的人類交流,再加上對常識一竅不通,怎么看怎么像個二傻子。
問題出在哪兒了呢?人類的信息交互,最高效的輸出方式是“說”,也就是音頻通道;最高效的輸入方式是“看”,也就是視頻通道。如果你對面是個真人,那沒辦法,雙方都只能靠說輸出信息,這就形成了語音為主的交互方式。而靠語音的人機對話,是這樣的畫風:
我想訂一張明天去上海的機票
為您查到:6:35海南航空HU7611,票價480元;6:50吉祥航空HO252,438元;6:50廈門航空MF8178,票價…
我去你大爺?shù)陌桑?/p>
別樂,就算對面不是機器是個真人客服,這種交互也同樣令人抓狂,有過電話訂票經歷的朋友都有體會,只不過對著活人您不好意思罵街罷了。
既然對面是個機器人,就沒必要如此拘泥了。實際上,機器的交互方式,應該跟我們“相反”而不是“相同”:你輸出信息靠說,機器人接受信息就得靠聽,這沒錯;你輸入信息靠看,那機器人輸出就別靠說了,何不在一塊屏上展示出來呢?這樣,不但信息輸出效率提高了很多,而且用戶只要在展示的信息底板上做選擇題,就算用語音輸入也大為便捷。
所以,真正適合人機交互的機器人,最好有個視頻輸出的設備,近了靠手機就可以,遠了怎么辦還值得探討。這個概念,就是訊飛的胡郁老師講的“強視覺呈現(xiàn)的語音交互”吧。這種模式下的交互方式,已經跟人人交互有了質的區(qū)別,未知之處很多,需要我們深入探索。當然,可以確定的是,機器人絕對應該拋棄人形,以避免用戶用人的眼光和標準來評價它。
人機交互這件事,看起來簡單,卻是人工智能王冠上最耀眼的一顆明珠。目前看來,嚴格意義上的圖靈測試離我們還相當遙遠,不過通過交互方式和產品上的創(chuàng)新,一個在特定領域內可用的合格助手,或許已經在向我們招手了。
另外,由于計算機對海量信息的檢索和處理能力遠勝人類,或許可以讓機器助手輔助人人交互,這樣既能大大提高內容溝通效率,又能發(fā)揮人的情感溝通優(yōu)勢,這沒準是目前更加可行的產品路線。
-
機器人
+關注
關注
211文章
28578瀏覽量
207795 -
人工智能
+關注
關注
1793文章
47535瀏覽量
239356
原文標題:圖靈測試離我們還有多遠?
文章出處:【微信號:industry4_0club,微信公眾號:工業(yè)4俱樂部】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論