11月17日,第三屆世界互聯(lián)網(wǎng)大會(huì)進(jìn)入第二天。搜狗CEO王小川在會(huì)上分享了以深度學(xué)習(xí)為代表的人工智能技術(shù)目前的瓶頸及希望,并在現(xiàn)場(chǎng)首次公布了搜狗自研的機(jī)器實(shí)時(shí)翻譯技術(shù)。
王小川表示,AlphaGo之后,大家關(guān)注到了人工智能技術(shù)的進(jìn)展,但實(shí)際上,在文字領(lǐng)域,人工智能的進(jìn)展還比較緩慢,今天機(jī)器翻譯方面有了一些突破,但在問(wèn)答及語(yǔ)義理解方面還很不夠。
對(duì)此,王小川指出了兩大挑戰(zhàn):一是多人情景下的語(yǔ)音識(shí)別,目前搜狗的技術(shù)在安靜環(huán)境下已經(jīng)可以達(dá)到95%-97%的識(shí)別準(zhǔn)確率,但一旦出現(xiàn)兩個(gè)人同時(shí)說(shuō)話,機(jī)器就無(wú)法識(shí)別,王小川表示,這個(gè)問(wèn)題在學(xué)術(shù)至今依然無(wú)解。
另外一個(gè)挑戰(zhàn)是語(yǔ)義理解。王小川說(shuō),Google之前采取的解決方法是知識(shí)圖譜,但現(xiàn)在遇到了瓶頸,例如機(jī)器詢問(wèn)用戶需不需要停車,用戶回答要或者不要都沒(méi)問(wèn)題,但如果回答“我沒(méi)車”,機(jī)器就不能理解?!白匀徽Z(yǔ)言的處理是可以做的,但是,語(yǔ)音的理解到現(xiàn)在還是個(gè)不靠譜的階段。”
王小川還提到了無(wú)人駕駛的可靠性,他認(rèn)為,在封閉場(chǎng)景中,無(wú)人駕駛汽車是可以使用的,但在真正開放的環(huán)境中,以目前的技術(shù),仍然不安全。
雖然人工智能技術(shù)還有種種困難,但王小川認(rèn)為,搜索和輸入仍將是該技術(shù)比較有應(yīng)用前景的兩大領(lǐng)域,而這也正是搜狗的兩大核心業(yè)務(wù)。
王小川認(rèn)為搜索的未來(lái)應(yīng)該是問(wèn)答機(jī)器人,而對(duì)于輸入,他表示這項(xiàng)技術(shù)的極致應(yīng)該是能夠開始尋找信息,幫助用戶思考。隨后,王小川還在現(xiàn)場(chǎng)演示視頻中展示了搜狗最新的實(shí)時(shí)機(jī)器翻譯功能。
以下是演講實(shí)錄:
我非常喜歡張一鳴先生剛才的分享,作為一個(gè)創(chuàng)業(yè)時(shí)間不長(zhǎng)的公司,取得今天這樣一個(gè)成績(jī),既有技術(shù),也有情懷。已經(jīng)聽了12場(chǎng)分享了,最后一場(chǎng)是我給大家?guī)?lái)的我們對(duì)人工智能的理解。
前面12場(chǎng)中間有技術(shù)、有產(chǎn)品,我希望我給大家的分享能夠有些不同的內(nèi)容,有自己獨(dú)有的視角。
今天一開始大家都提到了AlphaGo這個(gè)事情,作為今天人工智能引爆的一個(gè)開端,深度學(xué)習(xí)在中間承擔(dān)了最重要的責(zé)任。今天大家開始暢想的時(shí)候,有可能認(rèn)為人工智能未來(lái)真的會(huì)取代人,我希望今天的分享更多地能夠知道人工智能在今天能做什么,不能做什么,未來(lái)終極的理想又是什么。AlphaGo之后,我們看到最重要的領(lǐng)域突破是在語(yǔ)音和圖像上,但事實(shí)上在文字領(lǐng)域的進(jìn)展是緩慢的,今天在機(jī)器翻譯里面會(huì)有一些突破,但是更多的問(wèn)答或者其他的對(duì)語(yǔ)音的理解并不夠。
所以,我們回到AlphaGo之外的圖靈測(cè)試,上個(gè)世紀(jì)50年代圖靈就提出了問(wèn)答機(jī)器和對(duì)話系統(tǒng)這樣一個(gè)概念。開篇來(lái)講,我們今天有一個(gè)直觀的感受就是語(yǔ)音圖像進(jìn)步很快,但是自然語(yǔ)言的處理是慢的。
拋開技術(shù),作為一個(gè)產(chǎn)品經(jīng)理,我會(huì)提到人工智能有三個(gè)產(chǎn)品的方向,今天的會(huì)上我們都談到了,一個(gè)叫識(shí)別,語(yǔ)音識(shí)別、圖像識(shí)別、視覺(jué)的識(shí)別。另外一個(gè)大家提的比較多的是創(chuàng)造,基于一幅圖,我們生成它的文字描述,生成音樂(lè),生成圖像,這些都有。還有一件事情是判斷,就是我們講的做決策。這三件事情里面,我跟一些做投資的人聊過(guò),我告訴他們中間最重要的、有重大商業(yè)意義的在于判斷,今天大家分享的時(shí)候有提到了類似的概念。
大家提到了人工智能往前進(jìn)步的幾個(gè)層次,我想換一個(gè)語(yǔ)言來(lái)描述,就是工程師在今天人工智能時(shí)代會(huì)處于越來(lái)越重要的位置。我們開始提到傳統(tǒng)的方法是把規(guī)則交給機(jī)器,隨著統(tǒng)計(jì)系統(tǒng)的發(fā)展,包括深度學(xué)習(xí),我們開始更容易地將答案交給機(jī)器。剛才湯道生講的監(jiān)督學(xué)習(xí)就是這樣一個(gè)方式,所以,在數(shù)據(jù)足夠的積累下,我們就能讓機(jī)器變得更聰明。
這里面最前沿的方式是將目標(biāo)交給機(jī)器。AlphaGo融合了這樣幾套算法。但是我跟他們工程師溝通的時(shí)候,這樣一個(gè)目標(biāo)交給機(jī)器的強(qiáng)化學(xué)習(xí)還并不成熟。也就是說(shuō),如果沒(méi)有之前三千萬(wàn)局人機(jī)對(duì)戰(zhàn)的棋譜,這樣一個(gè)AlphaGo的機(jī)器是沒(méi)有能力做到只通過(guò)強(qiáng)化學(xué)習(xí)去贏得人類的。我會(huì)感覺(jué)在技術(shù)層面這是往下需要突破的一個(gè)重點(diǎn)。如果將目標(biāo)交給機(jī)器能夠做自我學(xué)習(xí)有新的突破,那我們離新的人工智能時(shí)代的到來(lái)就更近了。
今年6月份我去了英國(guó)倫敦,也跟DeepMind公司的工程師做了交流。我特別好奇的是在下棋的第四局機(jī)器輸?shù)袅?,我遇到他們的第一個(gè)問(wèn)題就是第四局怎么回事?他們跟我說(shuō),不是程序有bug,就是深度學(xué)習(xí)本身有瓶頸。圍棋比賽是3月份,我是6月份去的倫敦,已經(jīng)過(guò)了3個(gè)月。3個(gè)月的時(shí)間。對(duì)不起,這個(gè)問(wèn)題依然沒(méi)有解決掉。但是很好的是在我離開后的第一個(gè)星期,他們的程序能夠正確地面對(duì)之前的第四局棋譜,但是問(wèn)他是否這個(gè)bug修好了?工程師跟我說(shuō)沒(méi)有,只是代表第四局那個(gè)特定的問(wèn)題正好機(jī)器能夠解決,但是,我們依然不知道什么情況下這樣一個(gè)AlphaGo會(huì)繼續(xù)出錯(cuò),所以我們知道深度學(xué)習(xí)這樣一個(gè)體系還是有它的瓶頸所在。所以我今天更多的想跟大家談以深度學(xué)習(xí)為代表的人工智能技術(shù)還有哪些不靠譜的地方是在產(chǎn)品上不適用的。
第一個(gè)問(wèn)題先問(wèn)一下語(yǔ)音識(shí)別靠譜嗎?剛才百度和騰訊都提到了語(yǔ)音識(shí)別這樣一個(gè)能力,今天我跟大家的演示也談到了語(yǔ)音識(shí)別,這是搜狗自己的技術(shù)。安靜的環(huán)境下我們的識(shí)別準(zhǔn)確率到了95%或者97%,但是一旦有噪音迅速下降,這種噪音可能還只是汽車引擎噪音,風(fēng)的噪音,我們把噪音當(dāng)成原始數(shù)據(jù)進(jìn)入到監(jiān)督學(xué)習(xí)系統(tǒng)里面,把這種噪音變成機(jī)器能見過(guò)的問(wèn)題之一。但是假設(shè)同時(shí)兩個(gè)人在說(shuō)話,會(huì)怎么樣?可以告訴大家,在今天的學(xué)術(shù)界依然無(wú)解,同時(shí)兩個(gè)人說(shuō)話,這樣的噪音我們都沒(méi)見過(guò),我也沒(méi)辦法做提前的訓(xùn)練。
今年6月份我也在問(wèn)學(xué)術(shù)界的人,人跟機(jī)器在語(yǔ)音識(shí)別上的區(qū)別究竟怎么解決?我們機(jī)器上能采用立體聲的方式做定向的識(shí)別,我們做個(gè)麥克風(fēng)矩陣,通過(guò)立體方式能夠知道其中一個(gè)人在說(shuō)話,把另一個(gè)人說(shuō)的話去掉,那人是這么干的嗎?如果把我的一只耳朵堵上,我是否沒(méi)辦法從兩個(gè)人中間分別出說(shuō)話的人,或者把兩個(gè)人說(shuō)話的聲音錄到一個(gè)單聲道的錄音帶里,人還能識(shí)別嗎?在座各位怎么看?人是可以的,所以人的方法跟機(jī)器并不一樣。因此,我就跟一些博士在聊,究竟人怎么識(shí)別?是因?yàn)閮蓚€(gè)人的音色不一樣,還是一個(gè)人聲音大,一個(gè)人聲音小,還是因?yàn)樗麄冋f(shuō)不同的語(yǔ)言?那個(gè)博士笑了,他說(shuō),但凡同時(shí)有兩個(gè)人說(shuō)話的時(shí)候,只要能夠找到一個(gè)差別,人就能把其中的一個(gè)聲音識(shí)別出來(lái),所以,人在跟機(jī)器處理的過(guò)程中還有巨大的不同。我在這里先不展開。我們認(rèn)為語(yǔ)音識(shí)別已經(jīng)在機(jī)器智能方面最成熟的領(lǐng)域還是跟人有很大的區(qū)別的。
另外一件事是語(yǔ)義靠譜嗎?就是對(duì)語(yǔ)言的理解。Google之前是用知識(shí)圖譜的方法解決,現(xiàn)在開始遇到了瓶頸。今年6月,我在一個(gè)實(shí)驗(yàn)室看到他們最先進(jìn)的人機(jī)對(duì)話系統(tǒng),這個(gè)系統(tǒng)能幫你訂餐和訂酒店。在對(duì)話過(guò)程中,機(jī)器的表現(xiàn)是非常驚艷的,讓我們上去試,中間有個(gè)環(huán)節(jié)請(qǐng)大家注意,機(jī)器開始問(wèn)你,你是需要停車位,還是不要停車位?如果這個(gè)時(shí)候,我們回答說(shuō)要或者不要,都沒(méi)問(wèn)題。我們就說(shuō),我沒(méi)車。大家知道機(jī)器怎樣的?它完全不理解我沒(méi)車就代表著我不需要停車位,這是因?yàn)榻裉斓臋C(jī)器在自然語(yǔ)言概念的理解里面還是遠(yuǎn)遠(yuǎn)不夠的。所以,自然語(yǔ)言的處理是可以做的,但是,語(yǔ)音的理解到現(xiàn)在還是個(gè)不靠譜的階段。
Google今年也發(fā)布了一套對(duì)于自然語(yǔ)言能夠做句子分析的一個(gè)引擎,把主語(yǔ)、謂語(yǔ)、賓語(yǔ)都能提出來(lái),但是準(zhǔn)確度可能就在90%,就提不上去了,它自己也說(shuō),為什么呢?是因?yàn)檫@個(gè)時(shí)候光靠統(tǒng)計(jì)、靠語(yǔ)法已經(jīng)不足夠支撐了,往下需要對(duì)句子中具體的概念有理解才能消除歧義,就像我們知道不可能把一條馬路放在一個(gè)冰箱上面,對(duì)人來(lái)講是特別簡(jiǎn)單的事情,但是對(duì)計(jì)算機(jī)的挑戰(zhàn)就非常大,所以這是深度學(xué)習(xí)為代表的人工智能還不夠的地方。
很敏感的問(wèn)題是,無(wú)人駕駛靠譜嗎?今天百度在現(xiàn)場(chǎng)也提出了發(fā)布無(wú)人駕駛的汽車,但是從我的了解來(lái)看,如果以今天人類的技術(shù),對(duì)于見過(guò)的場(chǎng)景、對(duì)于封閉場(chǎng)景的無(wú)人駕駛汽車確實(shí)是可以使用的,但是對(duì)于真正開放的環(huán)境,不只是跑在高速上或者是五環(huán)路上的汽車,對(duì)不起,以現(xiàn)在人類的技術(shù),是不安全的。因?yàn)檫@個(gè)場(chǎng)景只要它沒(méi)見過(guò),它可能會(huì)犯嚴(yán)重的錯(cuò)誤,就像AlphaGo下棋一樣,它會(huì)突然發(fā)瘋,所以我們可能叫輔助駕駛是可行的,無(wú)人駕駛在有新的技術(shù)突破前,我認(rèn)為還做不到。
所以今天深度學(xué)習(xí)的弱點(diǎn)大家提得比較多了,本身不透明,所以它的可靠性有限,缺乏推理能力,特別缺乏對(duì)符號(hào)的理解。如果不能理解符號(hào),自然語(yǔ)言的理解就會(huì)成為瓶頸。即便是這樣,我們也提到它能夠取代一些行業(yè),比如說(shuō)棋手、醫(yī)生、司機(jī),機(jī)器在里面都能做到很好的輔助,但是對(duì)于一些大家沒(méi)見過(guò)的創(chuàng)造性的事情、規(guī)劃、科研,其實(shí)是很難的。我們今天在媒體上看到的機(jī)器能夠自動(dòng)寫文章、自動(dòng)畫圖,我覺(jué)得更多的是在科研層面給我們展示出來(lái)它的一些例子,但是并不是能達(dá)到取代人真正使用的階段。
所以在這里面我先把大家對(duì)人工智能的預(yù)期降低下來(lái),也有人在問(wèn)是否會(huì)出現(xiàn)第三次的退潮?前兩次我們都認(rèn)為人工智能到來(lái)了,但這一次可能會(huì)比之前好。在之前兩次的人工智能退潮前,我們問(wèn)一個(gè)老師,你是研究人工智能的嗎?這是罵他的話,因?yàn)槿斯ぶ悄懿豢孔V。這一次是第一次真正進(jìn)入到了使用,確實(shí)在語(yǔ)言處理、聲音處理、圖像處理和一些高維數(shù)據(jù)空間上,它能比人做得更好。因此,這次的區(qū)別就是大量的資金、資本投入到了人工智能,也有大量的研究人員在畢業(yè)后從事人工智能的工作,這是跟之前的工作不一樣的,所以一方面開始使用,另一方面我們開始期待不斷的產(chǎn)生新的突破。
我個(gè)人對(duì)這次是樂(lè)觀的,但是我也會(huì)很緊張,也許我們自己做的搜索引擎就是會(huì)被顛覆的一部分。
在這里面,我要開始暢想未來(lái)的路在什么地方?從我自己的描述來(lái)看,搜索的未來(lái)就是人工智能時(shí)代的皇冠。為什么這么說(shuō)呢?搜索的未來(lái)是什么?人工智能的未來(lái)又是什么?為什么是皇冠?簡(jiǎn)單來(lái)講,我會(huì)認(rèn)為搜索的未來(lái)就是問(wèn)答機(jī)器人,因?yàn)槲覀円呀?jīng)習(xí)慣了一件事情,是做搜索的時(shí)候我們先輸入關(guān)健詞,然后給你10條結(jié)果或者是10條鏈接,但是這真的是最好的方法嗎?肯定是不夠的。我們也會(huì)提到是否我們用個(gè)性化的方法能夠使得搜索的結(jié)果更準(zhǔn),但其實(shí)個(gè)性化能夠提供的信息非常有限。真正能夠使得這個(gè)系統(tǒng)變得有用的辦法是用問(wèn)句。以前不用問(wèn)句的一個(gè)原因是因?yàn)闄C(jī)器聽不懂你在說(shuō)什么。真的到了問(wèn)句之后,它能夠從給你10條鏈接變成給你一個(gè)答案,就會(huì)好很多。
我們可以想像,如果你問(wèn)機(jī)器四個(gè)字,“烏鎮(zhèn)大會(huì)”,這個(gè)信息不可能給你想要的內(nèi)容,最多是只能把新聞,烏鎮(zhèn)的百科或者官網(wǎng)介紹給你,但是如果你問(wèn)到烏鎮(zhèn)大會(huì)哪一天開?這個(gè)時(shí)候機(jī)器才有機(jī)會(huì)給你更好的答案。所以我相信隨著技術(shù)往下突破,搜索引擎會(huì)自然而然轉(zhuǎn)化成一個(gè)問(wèn)答引擎。
在這個(gè)道路里面,很多公司都在做,包括蘋果、微軟、亞馬遜、Google,這里面起步最早做對(duì)話系統(tǒng)的大家知道是蘋果的Siri,這個(gè)系統(tǒng)并不成功,在中國(guó)用的人很少,不知道對(duì)英語(yǔ)現(xiàn)在的使用會(huì)怎樣?為什么不成功?簡(jiǎn)單的原因是因?yàn)楝F(xiàn)在的技術(shù)還沒(méi)有到來(lái),現(xiàn)在我們對(duì)于自然語(yǔ)言的處理能力和自然語(yǔ)言的理解能力還非常有限,我就在想,為什么蘋果這樣一個(gè)追求極致的公司會(huì)把這個(gè)系統(tǒng)發(fā)布出來(lái)?一種可能性是蘋果對(duì)技術(shù)了解不夠,另一種可能性我認(rèn)為是喬布斯的一個(gè)意愿,咱們知道在發(fā)布iPhone手機(jī)的時(shí)候,他已經(jīng)躺在病床上看發(fā)布會(huì)了,發(fā)布會(huì)完成之后,他很快就離開人世了。所以這像一個(gè)早產(chǎn)的嬰兒在iPhone 4S里面發(fā)布出來(lái),所以我認(rèn)為這樣一個(gè)系統(tǒng)代表了喬布斯對(duì)于人類蠻終極的一種人機(jī)交互的暢想。
事實(shí)上在我們大量的文學(xué)作品、電影、科幻里面都會(huì)提到問(wèn)答的機(jī)器,不管是《星球大戰(zhàn)》、《超能陸戰(zhàn)隊(duì)》、《星際穿越》都會(huì)提到。一個(gè)最偉大的科幻作家阿西莫夫也在他的小說(shuō)里面有一個(gè)短片,叫做《最后的問(wèn)題》,他描繪的就是人類造出一臺(tái)機(jī)器把整個(gè)地球、整個(gè)宇宙的能源都用上去。這個(gè)機(jī)器回答不了一個(gè)終極的問(wèn)題,就是這個(gè)宇宙是怎么誕生的,但是其他的問(wèn)題它都能回答。所以文學(xué)作品,其實(shí)是代表了我們對(duì)問(wèn)答機(jī)器的一個(gè)思考。
除了搜索引擎做問(wèn)答以外,咱們知道在中國(guó)搜狗的輸入法擁有3億的用戶,輸入法的未來(lái)是什么?我也會(huì)提到跟自動(dòng)問(wèn)答有關(guān)系。給大家看一個(gè)視頻。(播放視頻)
之前我們討論輸入法的時(shí)候很多朋友跟我說(shuō)語(yǔ)音是最重要的,搜狗有完整的語(yǔ)音識(shí)別的技術(shù)和語(yǔ)音合成的技術(shù),但是在我內(nèi)心,這個(gè)遠(yuǎn)不是輸入法的極致,它真正的極致是能夠開始尋找信息,幫你去思考。剛才大家演示的是一個(gè)分享的能力,真正的回答能力可以在后面給大家做一個(gè)新的演示。(播放視頻)
在我們討論問(wèn)答技術(shù)和討論人機(jī)對(duì)話的時(shí)候,輸入法也許是一個(gè)最好的切入場(chǎng)景。我們之前提到了百度的度秘或者是Google的Assistant,它都是一個(gè)獨(dú)立的引擎,但是輸入法作為人的一個(gè)分身,剛才余承東提到的這個(gè)概念,更容易幫助你建立人的思考,輸入法也會(huì)從一個(gè)拼音工具開始走向一個(gè)對(duì)話和問(wèn)答的系統(tǒng)。
搜狗我們有兩個(gè)核心產(chǎn)品,一個(gè)是輸入法,一個(gè)是搜索,就提到了表達(dá)信息和獲取信息,讓表達(dá)和獲取更簡(jiǎn)單。隨著AI技術(shù)的發(fā)展,我們也真正能夠去更好地解放人的思考。所以我們會(huì)有一個(gè)理念,兩件事情,一個(gè)是做自然的交互,不只是語(yǔ)音,而是語(yǔ)言。另外,就是做知識(shí)的計(jì)算,能讓機(jī)器逐步建立推理的能力。搜狗輸入法擁有最大的語(yǔ)言數(shù)據(jù)的積累,我們最有機(jī)會(huì)在這個(gè)領(lǐng)域里面取得突破。
評(píng)論
查看更多