一把名叫AI的鑰匙
當(dāng)下人工智能熱潮席卷全球工業(yè)界,語音識別是其中最有可能成為第一個(gè)誕生大眾級應(yīng)用的技術(shù),這離不開語音識別在基礎(chǔ)研究上取得的進(jìn)步,而俞棟是相關(guān)研究能夠獲得突破性進(jìn)展的關(guān)鍵人物。
2011年夏末秋初的8月28號,來自世界各地的專家學(xué)者齊聚意大利佛羅倫薩,接下來三天,由國際語音通信協(xié)會(huì)(ISCA)組織的第12次年會(huì)(Interspeech 2011)將在這個(gè)文藝復(fù)興發(fā)祥地舉行。
作為語音領(lǐng)域最重要的兩個(gè)國際會(huì)議之一(另一個(gè)為ICASSP),每年的Interspeech都會(huì)吸引來自學(xué)術(shù)界和工業(yè)界的從業(yè)人員參加,在大會(huì)上圍繞語音領(lǐng)域的最新技術(shù)和研究方向進(jìn)行交流。
大會(huì)進(jìn)行到第二天,一篇名為《Conversational Speech Transcription Using Context-Dependent Deep Neural Networks》(使用上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò)進(jìn)行交談?wù)Z音轉(zhuǎn)寫)的論文發(fā)表,并迅速引起了科研界的高度重視。
論文提出了基于人工神經(jīng)網(wǎng)絡(luò)的語音識別新方法,實(shí)驗(yàn)結(jié)果顯示,新方法大幅降低了語音識別的錯(cuò)誤率。這意味著,曾于20世紀(jì)80年代末掀起熱潮并最終沉寂下去的人工神經(jīng)網(wǎng)絡(luò)被再次引入語音識別研究領(lǐng)域,開啟了語音識別的深度學(xué)習(xí)時(shí)代。
俞棟正是這一成果的主要研究人員。
2011年距今日人工智能熱潮第三次興起尚有六年,人工神經(jīng)網(wǎng)絡(luò)在學(xué)術(shù)界幾經(jīng)起落,彼時(shí)并不被看好。
俞棟對騰訊科技回想起當(dāng)時(shí)的情景,仍頗有感慨:“這項(xiàng)工作(將深度學(xué)習(xí)的方法引入語音識別領(lǐng)域)一開始受到很多懷疑,很多同事或者朋友都經(jīng)歷過80年代末90年代初,神經(jīng)網(wǎng)絡(luò)從高潮跌落到低潮的過程,所以他們都對此有一定的懷疑?!?/p>
但俞棟及其團(tuán)隊(duì)開辟的新方法用實(shí)際成果回應(yīng)了質(zhì)疑,“基本上兩年之內(nèi),很多公司重復(fù)了我們的工作,發(fā)現(xiàn)確實(shí)對識別率有很大幫助,很快變成行業(yè)標(biāo)準(zhǔn)。但在我們這項(xiàng)工作之前,這類論文發(fā)表其實(shí)有一定困難,但是兩年之后,變成沒用深度學(xué)習(xí)技術(shù)就很難發(fā)文章了,反過來了。”
深度學(xué)習(xí)的鑰匙打開了語音識別研究的新大門,進(jìn)入深度學(xué)習(xí)時(shí)代后,語音識別也在不斷取得突破。
2016年9 月中旬,微軟報(bào)告了在語音識別方面取得的新里程碑:在Switchboard這一電話交談基準(zhǔn)測試集上新系統(tǒng)的識別詞錯(cuò)率降至 6.3%;一個(gè)月后,微軟又公布了在這一基準(zhǔn)測試集上成功實(shí)現(xiàn)了歷史性突破:他們的語音識別系統(tǒng)詞錯(cuò)率(WER)和專業(yè)轉(zhuǎn)錄員相當(dāng)甚至更低,達(dá)到5.9%。
數(shù)據(jù)背后的意義是,語音識別的識別率在近場上已經(jīng)可以做到超過實(shí)用的門檻,在很多應(yīng)用場景里可以應(yīng)用。比如微信里面的語音轉(zhuǎn)文字、語音輸入法以及各類APP的語音輸入框等。
在實(shí)際應(yīng)用層面,語音輸入已經(jīng)成為許多APP必備的一項(xiàng)功能;但在研究層面,語音識別仍有許多留待攻克的難點(diǎn)。
俞棟介紹,當(dāng)下更困難環(huán)境下比如遠(yuǎn)場、高噪音、或帶口音的語音識別是仍需解決的問題;自適應(yīng)方法(adaptation)也是重要的研究方向。
身處語音領(lǐng)域最前沿,俞棟的研究重點(diǎn)在往更深的層次走。而在加入騰訊AI Lab之后,俞棟也將帶領(lǐng)團(tuán)隊(duì)主攻遠(yuǎn)場語音識別以及自然語言理解兩個(gè)方向。在騰訊AI Lab的人工智能布局中,由俞棟帶領(lǐng)的AI Lab西雅圖實(shí)驗(yàn)室,將是另一個(gè)主場。
來自騰訊的邀約
作為最早把深度學(xué)習(xí)技術(shù)應(yīng)用于語音識別領(lǐng)域的研究者之一,俞棟已經(jīng)是語音識別和深度學(xué)習(xí)方向的頂級專家,出版了兩本專著,發(fā)表了160多篇論文,是60項(xiàng)專利的發(fā)明人及深度學(xué)習(xí)開源軟件CNTK的發(fā)起人和主要作者之一。曾獲2013年和2016年IEEE信號處理協(xié)會(huì)最佳論文獎(jiǎng)?,F(xiàn)擔(dān)任IEEE語音語言處理專業(yè)委員會(huì)委員,曾擔(dān)任IEEE/ACM音頻、語音及語言處理匯刊、IEEE信號處理雜志等期刊的編委。
2016年,俞棟與微軟研究院同事鄧力合著的《解析深度學(xué)習(xí)——語音識別實(shí)踐》在國內(nèi)出版,首次專門講述了如何將深度學(xué)習(xí)方法,特別是深層神經(jīng)網(wǎng)絡(luò)(DNN)技術(shù)應(yīng)用于語音識別(ASR)領(lǐng)域。
1998年即加入微軟公司的俞棟,見證了翡翠之城如何在硅谷之外崛起成為美國人工智能研究集聚地的過程。
總部位于西雅圖的老牌IT巨頭微軟從早期就開始對人工智能有比較大的投入,培養(yǎng)了眾多在人工智能方面比較有經(jīng)驗(yàn)的人才,如今微軟旗下的人工智能及研究院事業(yè)群已經(jīng)擁有五六千人,這是一個(gè)巨大的人才庫。
微軟的投入在幾年前逐漸吸引了包括谷歌、Facebook、蘋果在內(nèi)的科技巨頭到西雅圖設(shè)立大規(guī)模的研發(fā)中心。如今,總部同樣位于西雅圖的亞馬遜也建立了超過一千人的人工智能團(tuán)隊(duì)。
眾多科技巨頭扎堆下,西雅圖對人才的吸引力越來越強(qiáng),人才集聚效應(yīng)使得很多專業(yè)人才都從硅谷或其他的地方轉(zhuǎn)到西雅圖,如今西雅圖每年的流入人口非常大。
身為國際頂級語音研究專家,向俞棟伸去的橄欖枝為數(shù)眾多,選擇加入騰訊之前已經(jīng)有很多公司找過來,卻并未打動(dòng)他。
俞棟最終選擇騰訊,是因?yàn)轵v訊具備開展語音識別研究的有利條件。俞棟對騰訊科技介紹,選擇加入騰訊有幾個(gè)原因,第一,語音識別必須有大數(shù)據(jù)來源,必須有大運(yùn)算能力,必須有出口形成反饋機(jī)制進(jìn)而優(yōu)化產(chǎn)品,即一定要有落地的場景。第二自己偏好研究,喜歡解決一些有挑戰(zhàn)性的問題,其他的一些公司各有利弊,比如有產(chǎn)品但是缺研究。而俞棟看重的這些條件,“騰訊都能夠滿足?!?/p>
不設(shè)KPI的西雅圖實(shí)驗(yàn)室
騰訊打造一流AI實(shí)驗(yàn)室的決心,西雅圖在人工智能上的人才儲(chǔ)備,及俞棟的最終加入,讓西雅圖AI實(shí)驗(yàn)室的建立變得水到渠成,而這個(gè)實(shí)驗(yàn)室沒有KPI。
沒有KPI的原因與西雅圖實(shí)驗(yàn)室的定位有關(guān)。
2016年4月,騰訊成立AI Lab(騰訊人工智能實(shí)驗(yàn)室),致力于人工智能基礎(chǔ)科學(xué)的開放研究,以及應(yīng)用領(lǐng)域的深入探索,做到“學(xué)術(shù)有影響,工業(yè)有產(chǎn)出”。
目前實(shí)驗(yàn)室有50余位世界知名學(xué)院的AI科學(xué)家(90%為博士)、及200多位經(jīng)驗(yàn)豐富的工程師進(jìn)行基礎(chǔ)研究與應(yīng)用探索。
AI Lab聚焦四大領(lǐng)域的基礎(chǔ)研究,包括:計(jì)算機(jī)視覺、語音識別、自然語言處理與機(jī)器學(xué)習(xí),力求全面覆蓋,并深層次拓展AI的前沿技術(shù)能力。同時(shí)發(fā)展AI在具有騰訊特色的四大業(yè)務(wù)場景中的應(yīng)用能力:內(nèi)容 AI、社交AI、游戲AI和平臺工具AI。
俞棟介紹,在騰訊AI Lab的研究體系中,美國西雅圖AI實(shí)驗(yàn)室將承擔(dān)一些語音識別和NLP的基礎(chǔ)和前沿研究工作,并試圖解決這些領(lǐng)域更困難的問題,位于深圳的AI Lab則將繼續(xù)基礎(chǔ)研究+快速應(yīng)用的結(jié)合,把在四大領(lǐng)域的研究和技術(shù)比較快的應(yīng)用到實(shí)際場景中。
簡單來說可以概括為,西雅圖實(shí)驗(yàn)室專注于基礎(chǔ)研究,深圳總部的團(tuán)隊(duì)還需兼顧應(yīng)用研究。但實(shí)際上在基礎(chǔ)研究和應(yīng)用研究之間沒有非常嚴(yán)格的界限,有時(shí)很難說清楚一個(gè)東西是屬于基礎(chǔ)還是應(yīng)用,比如基礎(chǔ)研究團(tuán)隊(duì)如果把某一項(xiàng)技術(shù)里的關(guān)鍵問題直接解決,那么它就可以立刻應(yīng)用到產(chǎn)品里面,但這些問題一般來說會(huì)比較難,因此很難預(yù)測它什么時(shí)候能解決。
由此,西雅圖實(shí)驗(yàn)室進(jìn)展的確定性沒有那么強(qiáng),這意味著需要投入更多耐心,需要激發(fā)更多新穎的想法和算法。
在語音識別做了二十多年研究的俞棟深刻了解做基礎(chǔ)研究需要的耐心和投入,而在與騰訊方面進(jìn)行了多次溝通后,在長期耐心投入研究上內(nèi)部也形成了共識。
“如果要在技術(shù)研究上取得突破,確實(shí)需要有一定耐心,相對來說長期穩(wěn)定的投入,西雅圖這邊基本上秉持這樣的理念。我們希望長遠(yuǎn)來講,能夠創(chuàng)新性地攻克關(guān)鍵的、主要的技術(shù)難題,在真實(shí)應(yīng)用場景里有很大的性能提升。但是因?yàn)槲覀儧]有辦法預(yù)測到底哪天能成功,我們希望在每一個(gè)階段都會(huì)有一些進(jìn)步,這是我們唯一可以定義的一些進(jìn)步,但是這個(gè)進(jìn)步會(huì)有多大,也是沒有辦法比較明確說出來的。”
多年的研究生涯讓俞棟養(yǎng)成了縝密的說話風(fēng)格,采訪中,對于人工智能相關(guān)技術(shù)的問題,俞棟的回答都非常嚴(yán)謹(jǐn),在給出結(jié)論前,會(huì)將原因及各類影響因素闡述清楚。
但在語音識別研究與騰訊業(yè)務(wù)可能的結(jié)合點(diǎn)上,俞棟的判斷非常樂觀:物聯(lián)網(wǎng)、游戲、微信、QQ等,都有很多業(yè)務(wù)場景用到語音識別,而語義理解與騰訊社交應(yīng)用的關(guān)系會(huì)更大。
如今西雅圖實(shí)驗(yàn)室剛剛成立,作為實(shí)驗(yàn)室負(fù)責(zé)人,俞棟當(dāng)前的主要工作是招攬人才搭建團(tuán)隊(duì)。
俞棟希望能建立一個(gè)20人左右的團(tuán)隊(duì),招徠有一定研究能力的人才,“研究人員能力和潛力兩個(gè)部分我們都會(huì)注意,現(xiàn)在在通過各種渠道去發(fā)現(xiàn)合適的人才來加入。”
接下來,俞棟就要帶領(lǐng)更偏向于研究、更接近于美國大公司研究院性質(zhì)的西雅圖實(shí)驗(yàn)室在語音識別和語義理解研究上繼續(xù)探索了。這是一項(xiàng)需要長期堅(jiān)定投入的工作,但已經(jīng)做了二十多年研究的俞棟以及騰訊已經(jīng)有了充分準(zhǔn)備。
“我們有耐心。”
?
評論
查看更多