2017年5月2日,騰訊宣布任命語音識別技術(shù)頂級專家俞棟博士為AI Lab(人工智能實驗室)副主任,并成立美國西雅圖AI實驗室。
俞棟博士將負責(zé)西雅圖AI實驗室的運營及管理,推動騰訊在語音識別及自然語言理解等AI領(lǐng)域的基礎(chǔ)研究。
這是近段時間以來,騰訊在人工智能領(lǐng)域的第三個大動作。
一個多月前的3月19日,由騰訊AI Lab研發(fā)的圍棋AI絕藝,在日本UEC杯圍棋大賽中奪得冠軍。這是低調(diào)運行近一年后,騰訊AI Lab首次對外展示研究成果。
就在絕藝奪冠后不久,3月23日,騰訊宣布任命人工智能領(lǐng)域頂尖科學(xué)家張潼博士擔(dān)任騰訊AI Lab(騰訊人工智能實驗室)主任。
而今天,又一位大將加入了騰訊人工智能的陣營。
對于俞棟的加入,騰訊AI Lab主任張潼博士表示,“俞棟博士是語音識別與深度學(xué)習(xí)領(lǐng)域的專家。我們很高興能邀請到俞博士加入騰訊AI Lab,相信他的到來將極大提升騰訊AI的技術(shù)實力。我們希望騰訊AI Lab不僅是一個實驗室,還是一個連接器,通過將全球的優(yōu)秀人才連接在一起,不斷推動AI的基礎(chǔ)研究及在更多場景的應(yīng)用落地,讓AI無處不在。”
俞棟博士
騰訊AI Lab副主任俞棟博士表示:“我很高興能加入騰訊AI Lab。在過去十多年里,騰訊積累了豐富的應(yīng)用場景、海量數(shù)據(jù)、強大的計算能力和一流的科技人才,這些都是開展AI深度研究與應(yīng)用的重要基礎(chǔ),也是吸引全球人才的重要原因。我相信,隨著西雅圖AI實驗室的成立,未來將會有更多的一流人才加入騰訊AI Lab,共同推動全球AI技術(shù)的發(fā)展?!?/p>
在國際語音識別研究界,俞棟是一個無法忽視的名字。
加入騰訊前,俞棟擔(dān)任美國微軟研究院語音和對話組(Speech and Dialog Group)首席研究員,并兼任浙江大學(xué)兼職教授、中科大客座教授、及上海交通大學(xué)客座研究員。
俞棟博士與George Dahl 博士、鄧力博士等共同研發(fā)的上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型(CD-DNN-HMM)是深度學(xué)習(xí)技術(shù)在大詞匯量語音識別任務(wù)上的首次成功應(yīng)用,他們的這項突破性工作,曾獲 2013年IEEE信號處理協(xié)會(IEEE SPS)最佳論文獎,引起了大詞匯量語音識別研究方向的轉(zhuǎn)變,極大地推動了語音識別技術(shù)的發(fā)展。
同時,近年來騰訊也在不斷加大對人工智能領(lǐng)域的投入。2016年4月,騰訊AI Lab成立,總部位于深圳。作為騰訊公司級AI實驗室,AI Lab專注于基礎(chǔ)研究和應(yīng)用探索的結(jié)合,致力于提升AI決策、理解及創(chuàng)造能力,并為騰訊各個產(chǎn)品及業(yè)務(wù)提供AI技術(shù)支持。
騰訊AI Lab由機器學(xué)習(xí)和大數(shù)據(jù)領(lǐng)域?qū)<覐堜┦款I(lǐng)導(dǎo),現(xiàn)有50多位世界知名院校的AI科學(xué)家(90%為博士)與200多位應(yīng)用工程師。作為語音識別技術(shù)方向的頂級專家,俞棟的加入意味著騰訊在人工智能上的布局將進一步向基礎(chǔ)研究方向延伸。
在俞棟加入騰訊之際,我們對他進行了專訪,在了解這位騰訊美國西雅圖AI實驗負責(zé)人的同時,也期一窺騰訊在人工智能布局上的更多拼圖。
一把名叫AI的鑰匙
當(dāng)下人工智能熱潮席卷全球工業(yè)界,語音識別是其中最有可能成為第一個誕生大眾級應(yīng)用的技術(shù),這離不開語音識別在基礎(chǔ)研究上取得的進步,而俞棟是相關(guān)研究能夠獲得突破性進展的關(guān)鍵人物。
2011年夏末秋初的8月28號,來自世界各地的專家學(xué)者齊聚意大利佛羅倫薩,接下來三天,由國際語音通信協(xié)會(ISCA)組織的第12次年會(Interspeech 2011)將在這個文藝復(fù)興發(fā)祥地舉行。
作為語音領(lǐng)域最重要的兩個國際會議之一(另一個為ICASSP),每年的Interspeech都會吸引來自學(xué)術(shù)界和工業(yè)界的從業(yè)人員參加,在大會上圍繞語音領(lǐng)域的最新技術(shù)和研究方向進行交流。
大會進行到第二天,一篇名為《Conversational Speech Transcription Using Context-Dependent Deep Neural Networks》(使用上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò)進行交談?wù)Z音轉(zhuǎn)寫)的論文發(fā)表,并迅速引起了科研界的高度重視。
論文提出了基于人工神經(jīng)網(wǎng)絡(luò)的語音識別新方法,實驗結(jié)果顯示,新方法大幅降低了語音識別的錯誤率。這意味著,曾于20世紀80年代末掀起熱潮并最終沉寂下去的人工神經(jīng)網(wǎng)絡(luò)被再次引入語音識別研究領(lǐng)域,開啟了語音識別的深度學(xué)習(xí)時代。
俞棟正是這一成果的主要研究人員。
2011年距今日人工智能熱潮第三次興起尚有六年,人工神經(jīng)網(wǎng)絡(luò)在學(xué)術(shù)界幾經(jīng)起落,彼時并不被看好。
俞棟對騰訊科技回想起當(dāng)時的情景,仍頗有感慨:“這項工作(將深度學(xué)習(xí)的方法引入語音識別領(lǐng)域)一開始受到很多懷疑,很多同事或者朋友都經(jīng)歷過80年代末90年代初,神經(jīng)網(wǎng)絡(luò)從高潮跌落到低潮的過程,所以他們都對此有一定的懷疑?!?/p>
但俞棟及其團隊開辟的新方法用實際成果回應(yīng)了質(zhì)疑,“基本上兩年之內(nèi),很多公司重復(fù)了我們的工作,發(fā)現(xiàn)確實對識別率有很大幫助,很快變成行業(yè)標(biāo)準。但在我們這項工作之前,這類論文發(fā)表其實有一定困難,但是兩年之后,變成沒用深度學(xué)習(xí)技術(shù)就很難發(fā)文章了,反過來了。”
深度學(xué)習(xí)的鑰匙打開了語音識別研究的新大門,進入深度學(xué)習(xí)時代后,語音識別也在不斷取得突破。
2016年9 月中旬,微軟報告了在語音識別方面取得的新里程碑:在Switchboard這一電話交談基準測試集上新系統(tǒng)的識別詞錯率降至 6.3%;一個月后,微軟又公布了在這一基準測試集上成功實現(xiàn)了歷史性突破:他們的語音識別系統(tǒng)詞錯率(WER)和專業(yè)轉(zhuǎn)錄員相當(dāng)甚至更低,達到5.9%。
數(shù)據(jù)背后的意義是,語音識別的識別率在近場上已經(jīng)可以做到超過實用的門檻,在很多應(yīng)用場景里可以應(yīng)用。比如微信里面的語音轉(zhuǎn)文字、語音輸入法以及各類APP的語音輸入框等。
在實際應(yīng)用層面,語音輸入已經(jīng)成為許多APP必備的一項功能;但在研究層面,語音識別仍有許多留待攻克的難點。
俞棟介紹,當(dāng)下更困難環(huán)境下比如遠場、高噪音、或帶口音的語音識別是仍需解決的問題;自適應(yīng)方法(adaptation)也是重要的研究方向。
身處語音領(lǐng)域最前沿,俞棟的研究重點在往更深的層次走。而在加入騰訊AI Lab之后,俞棟也將帶領(lǐng)團隊主攻遠場語音識別以及自然語言理解兩個方向。在騰訊AI Lab的人工智能布局中,由俞棟帶領(lǐng)的AI Lab西雅圖實驗室,將是另一個主場。
來自騰訊的邀約
作為最早把深度學(xué)習(xí)技術(shù)應(yīng)用于語音識別領(lǐng)域的研究者之一,俞棟已經(jīng)是語音識別和深度學(xué)習(xí)方向的頂級專家,出版了兩本專著,發(fā)表了160多篇論文,是60項專利的發(fā)明人及深度學(xué)習(xí)開源軟件CNTK的發(fā)起人和主要作者之一。曾獲2013年和2016年IEEE信號處理協(xié)會最佳論文獎?,F(xiàn)擔(dān)任IEEE語音語言處理專業(yè)委員會委員,曾擔(dān)任IEEE/ACM音頻、語音及語言處理匯刊、IEEE信號處理雜志等期刊的編委。
2016年,俞棟與微軟研究院同事鄧力合著的《解析深度學(xué)習(xí)——語音識別實踐》在國內(nèi)出版,首次專門講述了如何將深度學(xué)習(xí)方法,特別是深層神經(jīng)網(wǎng)絡(luò)(DNN)技術(shù)應(yīng)用于語音識別(ASR)領(lǐng)域。
1998年即加入微軟公司的俞棟,見證了翡翠之城如何在硅谷之外崛起成為美國人工智能研究集聚地的過程。
總部位于西雅圖的老牌IT巨頭微軟從早期就開始對人工智能有比較大的投入,培養(yǎng)了眾多在人工智能方面比較有經(jīng)驗的人才,如今微軟旗下的人工智能及研究院事業(yè)群已經(jīng)擁有五六千人,這是一個巨大的人才庫。
微軟的投入在幾年前逐漸吸引了包括谷歌、Facebook、蘋果在內(nèi)的科技巨頭到西雅圖設(shè)立大規(guī)模的研發(fā)中心。如今,總部同樣位于西雅圖的亞馬遜也建立了超過一千人的人工智能團隊。
眾多科技巨頭扎堆下,西雅圖對人才的吸引力越來越強,人才集聚效應(yīng)使得很多專業(yè)人才都從硅谷或其他的地方轉(zhuǎn)到西雅圖,如今西雅圖每年的流入人口非常大。
身為國際頂級語音研究專家,向俞棟伸去的橄欖枝為數(shù)眾多,選擇加入騰訊之前已經(jīng)有很多公司找過來,卻并未打動他。
俞棟最終選擇騰訊,是因為騰訊具備開展語音識別研究的有利條件。俞棟對騰訊科技介紹,選擇加入騰訊有幾個原因,第一,語音識別必須有大數(shù)據(jù)來源,必須有大運算能力,必須有出口形成反饋機制進而優(yōu)化產(chǎn)品,即一定要有落地的場景。第二自己偏好研究,喜歡解決一些有挑戰(zhàn)性的問題,其他的一些公司各有利弊,比如有產(chǎn)品但是缺研究。而俞棟看重的這些條件,“騰訊都能夠滿足?!?/p>
不設(shè)KPI的西雅圖實驗室
騰訊打造一流AI實驗室的決心,西雅圖在人工智能上的人才儲備,及俞棟的最終加入,讓西雅圖AI實驗室的建立變得水到渠成,而這個實驗室沒有KPI。
沒有KPI的原因與西雅圖實驗室的定位有關(guān)。
2016年4月,騰訊成立AI Lab(騰訊人工智能實驗室),致力于人工智能基礎(chǔ)科學(xué)的開放研究,以及應(yīng)用領(lǐng)域的深入探索,做到“學(xué)術(shù)有影響,工業(yè)有產(chǎn)出”。
目前實驗室有50余位世界知名學(xué)院的AI科學(xué)家(90%為博士)、及200多位經(jīng)驗豐富的工程師進行基礎(chǔ)研究與應(yīng)用探索。
AI Lab聚焦四大領(lǐng)域的基礎(chǔ)研究,包括:計算機視覺、語音識別、自然語言處理與機器學(xué)習(xí),力求全面覆蓋,并深層次拓展AI的前沿技術(shù)能力。同時發(fā)展AI在具有騰訊特色的四大業(yè)務(wù)場景中的應(yīng)用能力:內(nèi)容 AI、社交AI、游戲AI和平臺工具AI。
俞棟介紹,在騰訊AI Lab的研究體系中,美國西雅圖AI實驗室將承擔(dān)一些語音識別和NLP的基礎(chǔ)和前沿研究工作,并試圖解決這些領(lǐng)域更困難的問題,位于深圳的AI Lab則將繼續(xù)基礎(chǔ)研究+快速應(yīng)用的結(jié)合,把在四大領(lǐng)域的研究和技術(shù)比較快的應(yīng)用到實際場景中。
簡單來說可以概括為,西雅圖實驗室專注于基礎(chǔ)研究,深圳總部的團隊還需兼顧應(yīng)用研究。但實際上在基礎(chǔ)研究和應(yīng)用研究之間沒有非常嚴格的界限,有時很難說清楚一個東西是屬于基礎(chǔ)還是應(yīng)用,比如基礎(chǔ)研究團隊如果把某一項技術(shù)里的關(guān)鍵問題直接解決,那么它就可以立刻應(yīng)用到產(chǎn)品里面,但這些問題一般來說會比較難,因此很難預(yù)測它什么時候能解決。
由此,西雅圖實驗室進展的確定性沒有那么強,這意味著需要投入更多耐心,需要激發(fā)更多新穎的想法和算法。
在語音識別做了二十多年研究的俞棟深刻了解做基礎(chǔ)研究需要的耐心和投入,而在與騰訊方面進行了多次溝通后,在長期耐心投入研究上內(nèi)部也形成了共識。
“如果要在技術(shù)研究上取得突破,確實需要有一定耐心,相對來說長期穩(wěn)定的投入,西雅圖這邊基本上秉持這樣的理念。我們希望長遠來講,能夠創(chuàng)新性地攻克關(guān)鍵的、主要的技術(shù)難題,在真實應(yīng)用場景里有很大的性能提升。但是因為我們沒有辦法預(yù)測到底哪天能成功,我們希望在每一個階段都會有一些進步,這是我們唯一可以定義的一些進步,但是這個進步會有多大,也是沒有辦法比較明確說出來的。”
多年的研究生涯讓俞棟養(yǎng)成了縝密的說話風(fēng)格,采訪中,對于人工智能相關(guān)技術(shù)的問題,俞棟的回答都非常嚴謹,在給出結(jié)論前,會將原因及各類影響因素闡述清楚。
但在語音識別研究與騰訊業(yè)務(wù)可能的結(jié)合點上,俞棟的判斷非常樂觀:物聯(lián)網(wǎng)、游戲、微信、QQ等,都有很多業(yè)務(wù)場景用到語音識別,而語義理解與騰訊社交應(yīng)用的關(guān)系會更大。
如今西雅圖實驗室剛剛成立,作為實驗室負責(zé)人,俞棟當(dāng)前的主要工作是招攬人才搭建團隊。
俞棟希望能建立一個20人左右的團隊,招徠有一定研究能力的人才,“研究人員能力和潛力兩個部分我們都會注意,現(xiàn)在在通過各種渠道去發(fā)現(xiàn)合適的人才來加入。”
接下來,俞棟就要帶領(lǐng)更偏向于研究、更接近于美國大公司研究院性質(zhì)的西雅圖實驗室在語音識別和語義理解研究上繼續(xù)探索了。這是一項需要長期堅定投入的工作,但已經(jīng)做了二十多年研究的俞棟以及騰訊已經(jīng)有了充分準備。
“我們有耐心?!?/p>
?
評論
查看更多