0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

人類進(jìn)化的歷程當(dāng)中語音起到了多大的作用

人工智能和機(jī)器人研究院 ? 來源:未知 ? 作者:李倩 ? 2018-04-15 10:24 ? 次閱讀

黃學(xué)東:大家好!今天我主要想和大家分享一下微軟的故事,相信一定會很激動人心。但在正式分享之前,我想介紹一下人類進(jìn)化的歷程當(dāng)中語音起到了多大的作用。

達(dá)爾文的進(jìn)化論已經(jīng)說明,最新的科學(xué)驗(yàn)證也再次證明,我們?nèi)撕痛笮尚蒁NA的相似度接近99%,就那1%的區(qū)別造就了我們是這個地球的主宰。為什么呢?因?yàn)槲覀兏斆鲉幔窟€是漫長的進(jìn)化過程當(dāng)中有什么其他因素?計(jì)算機(jī)視覺非常重要,但動物的視力其實(shí)比人還厲害,晚上的夜貓子看得比人更厲害,但我們?nèi)匀皇沁@個地球的主宰。最重要的原因之一是我們的語音和語言,所以大家可以在今天準(zhǔn)時地來到這個地方和我們一起討論人工智能激動人心的進(jìn)展。語音和語言對人類的進(jìn)化是起到?jīng)Q定性作用的,當(dāng)然對人工智能的進(jìn)化也有同等的重要性。

微軟在過去的幾年當(dāng)中多次創(chuàng)造了接近人類水平的人工智能進(jìn)展。以今天的ImageNet作為圖像識別的標(biāo)準(zhǔn),微軟兩年前就第一次在圖像識別斯坦福大學(xué)的ImageNet達(dá)到了超越人的水平。去年微軟又宣布公開測試級對話系統(tǒng)Switchboard的最新成果最新成果。這是語音領(lǐng)域大家都很熟悉的一個很重要的任務(wù),就是識別兩個人在電話上的交談,微軟第一次在業(yè)界達(dá)到了超過普通人的專業(yè)水平。今年在斯坦福大學(xué)的SQuAD閱讀理解挑戰(zhàn)賽,微軟再次達(dá)到了媲美人類的水平。上個月微軟再次創(chuàng)造了在中文和英文翻譯上達(dá)到了超過專業(yè)人員翻譯質(zhì)量的水平,這是前所未有的。所以這確實(shí)是一個激動人心的時刻,人類進(jìn)化的長河當(dāng)中語音起了決定性的作用,今天在人工智能的進(jìn)化當(dāng)中語音和語言會起到同樣的作用。

去年《經(jīng)濟(jì)學(xué)人》有一篇封面文章,總結(jié)了過去的四十年語音和語言的重要進(jìn)展,早在五十年代IBM就開始了機(jī)器翻譯的工作,那個時候我還沒有出生。過去的幾年當(dāng)中有三個很重大的歷史事件:蘋果第一次推出Siri,也就是手機(jī)上的個人助理。Google推出了基于神經(jīng)翻譯的產(chǎn)品,大大推動了機(jī)器翻譯的進(jìn)步。微軟第一次在業(yè)界歷史性地創(chuàng)造了超越人的自然對話系統(tǒng)——語音識別系統(tǒng)。

這張圖顯示了過去的二十年當(dāng)中語音識別的同行們通過不懈的努力,創(chuàng)造出了很多輝煌的成果,但有一條紅線,就是Switchboard錯誤率一直在10%以上,直到最近幾年因?yàn)?a href="http://www.wenjunhu.com/v/tag/448/" target="_blank">深度學(xué)習(xí)的進(jìn)展,微軟和IBM的公開評測當(dāng)中一直起到了領(lǐng)頭羊的作用。

去年微軟是第一次達(dá)到了5.1%的水平,超過了普通轉(zhuǎn)錄人員的標(biāo)準(zhǔn),也是非常激動人心的進(jìn)展。采用的方法是組合了多種不同的深度神經(jīng)網(wǎng)絡(luò),包括ResNet、LACE和BLSTM,通過并行的處理組合成了一個工程上完美的語音識別系統(tǒng),其實(shí)在云上是不費(fèi)吹灰之力的,只是計(jì)算機(jī)的資源會比較多。

微軟在語音合成領(lǐng)域也有很多進(jìn)展。我們支持將近包括50種語言的語音合成系統(tǒng),而且它的質(zhì)量也達(dá)到了4.3 MOS, 這是非常振奮人心的。

這是微軟和哈曼音箱聯(lián)合推出的聯(lián)想語音識別系統(tǒng),喚醒智能音箱的時候不是非常自然,微軟最近和小米聯(lián)合推出了全雙工的語音對話系統(tǒng),就是喚醒以后可以連續(xù)講,不需要每次都說喚醒詞“小娜”再說語音指令。這是微軟核心的語音技術(shù)在中國落地的一個非常好的案例,它的基本思想非常簡單,就是我跟你講話,比如我見到鄧院士每次都說“鄧院士,今天你好嗎?”“鄧院士,你今天吃飯了沒有?”所以大家會覺得很煩,全雙工的系統(tǒng)只要喚醒一次,接下來就可以很自然地跟它交互。

大家可以看出,全雙工的語音交互在中國已經(jīng)落地,和小米的合作產(chǎn)品今天可以很便宜地買到一臺,讓它幫你掃地、開燈、看股票,這些都沒問題,如果實(shí)在閑得慌的話可以和小冰聊天斗嘴,這是已經(jīng)落地的產(chǎn)品。

和大家介紹一下最近微軟在機(jī)器翻譯上的重大突破。就像《經(jīng)濟(jì)學(xué)人》說過的,1954年開始IBM Wason就開始了機(jī)器翻譯的研發(fā)工作,那個時候是傳統(tǒng)的機(jī)器翻譯,根據(jù)自然語言的處理方法。后來IBM再次引導(dǎo)了新潮流,將語音識別的核心技術(shù)統(tǒng)計(jì)方法使用在機(jī)器翻譯上,Peter Brown這些人把語音翻譯的質(zhì)量推向了新高度。過去的幾年因?yàn)樯窠?jīng)網(wǎng)絡(luò)學(xué)習(xí)的進(jìn)步,我們再次把機(jī)器翻譯推向了新的高度,但還沒有達(dá)到人的水平。

非常振奮人心的是,今年微軟公司首次在公開測試當(dāng)中中英新聞翻譯當(dāng)中第一次達(dá)到了類人的水平,這是非常了不起的歷史性里程碑,這樣對幫助中國的聲音走向世界是毫無疑問的,因?yàn)榉g的水平和專業(yè)人員是同等可比的。

微軟不僅是在研發(fā)上進(jìn)行推廣,實(shí)際上很多產(chǎn)品已經(jīng)落地。比如PPT,你們只要下載一個Presentation Translator的插件,所有的講話可以同聲翻譯、同聲傳錄,而且是免費(fèi)的。下載以后可以支持60種語言、100個人在課堂上同步交流。演講之前可以讓大家掃描二維碼,通過微軟翻譯的手機(jī)應(yīng)用可以加入對話。大家知道,字幕當(dāng)中只能顯示一種語言,如果是60種語言怎么辦?沒關(guān)系,也可以顯示在你的手機(jī)上面。

分享一下我個人的經(jīng)歷,我在八十年代離開清華,當(dāng)時在清華學(xué)的都是美式英語,然后到蘇格蘭愛丁堡大學(xué)留學(xué),當(dāng)時我就懵了,因?yàn)樘K格蘭教授的口音非常嚴(yán)重,當(dāng)時我就想要是有一個字幕機(jī)多好?那是三十年前的痛點(diǎn),今天可以很驕傲地告訴大家,這個痛點(diǎn)早就可以由微軟Office免費(fèi)為大家提供同聲翻譯服務(wù)。大家可以讓教授在臺上講蘇格蘭英語,臺下可以在你的手機(jī)上看到從希臘文到廣東話的近60種語言的實(shí)時字幕翻譯。這是非常振奮人心的時刻,如果今天還有哪位同學(xué)要去蘇格蘭留學(xué),我想大家不會再為蘇格蘭英語而苦惱了。

所謂的中英翻譯達(dá)到人的水平是怎么回事?這是一個標(biāo)準(zhǔn)的新聞翻譯任務(wù),也是在業(yè)界廣泛使用的。在這之前,中國的搜狗在這個測試集上做到了最優(yōu)秀,可以看出如果要人來評估,第三行的搜狗基本上是62分,就像老師打分一樣,把這個東西翻譯過來以后如果是十全十美的學(xué)生可以拿100分,如果出了很多錯誤的話這個老師非常嚴(yán)厲,可能會給零分。在微軟技術(shù)突破之前,業(yè)界在這個測試任務(wù)上最先進(jìn)的機(jī)器翻譯系統(tǒng)是中國搜狗,達(dá)到了62.3分,現(xiàn)有的產(chǎn)品我也不說是誰的產(chǎn)品了,以免大家覺得我們對同行有不誠之意,只有54分左右。如果今天用微軟的Microsoft Translator也只有56分,勉強(qiáng)及格。微軟最新的機(jī)器翻譯突破分?jǐn)?shù)達(dá)到69分,拿到中英翻譯執(zhí)照的專業(yè)翻譯人員得出的結(jié)果是68.5分,所以如果大家是翻譯人員水平是67.3分。這是最新的機(jī)器中英翻譯第一次取得歷史性突破,對中國走向世界是非常有積極意義的。

下面簡單介紹一下這個突破是怎么回事,它的主要核心技術(shù)用的是Transformer的機(jī)器翻譯模型。

微軟亞洲研究院自主研發(fā)的Dual Translation Learning,就是大家在中英翻譯的時候,翻譯成英文后再用一下反向翻譯,就是英翻中,保證這兩種翻譯的一致性比較好,可以得到一個最高、最優(yōu)的聯(lián)合優(yōu)化目標(biāo)函數(shù)。通過這樣一個正向和反向的翻譯,我們可以大大提高現(xiàn)有機(jī)器翻譯的質(zhì)量,這是和人進(jìn)行翻譯的過程類似的機(jī)器學(xué)習(xí)的新算法,機(jī)器翻譯上取得了長足的進(jìn)步。

大家在做翻譯作業(yè)的時候翻完了一遍是不是想再翻一遍把它優(yōu)化?所以我們還有一個Deliberation,就是可以在第一次翻譯的基礎(chǔ)上同步優(yōu)化,這樣也更進(jìn)一步提高了機(jī)器翻譯的質(zhì)量。

我們還有從左到右、從右到左的聯(lián)合優(yōu)化函數(shù),再一次提高了機(jī)器翻譯的質(zhì)量,就是因?yàn)檫@些聯(lián)合系統(tǒng)的組合造就了我們歷史性地第一次達(dá)到了中翻英超人的水平。要做其它語言同樣是沒有問題的,我們希望其他語言和中英翻譯的落地很快就會產(chǎn)業(yè)化,再再過一些時候你們再用Microsoft Translator的時候會享受到與真人相似的機(jī)器翻譯質(zhì)量。

這是微軟公司在斯坦福大學(xué)對話文本理解上的進(jìn)步,過去的幾年當(dāng)中斯坦福大學(xué)建立了圖像認(rèn)識的標(biāo)準(zhǔn),現(xiàn)在自然語言處理方面也有一個華人教授和他的團(tuán)隊(duì)建立了閱讀理解系統(tǒng),微軟亞洲研究院和微軟的同事們又一次達(dá)到了超人的水平。

特定的認(rèn)識對話方面的水平確實(shí)是相當(dāng)高的,用的方法也像機(jī)器學(xué)習(xí)、機(jī)器翻譯的系統(tǒng)一樣有一個Embedding,通過不斷的深度優(yōu)化達(dá)到最優(yōu)的結(jié)果,就像現(xiàn)在的機(jī)器翻譯一樣。

剛才我講的過程是從認(rèn)知到感知的循環(huán)系統(tǒng),大家在對話的時候閉著眼睛也能聽懂,但聽懂的效果不是很好,睜開眼睛的話一定會幫助你理解語義,所以在人的交互過程當(dāng)中一定是Congnitive Intelligence和Perceptive Intelligience的共同進(jìn)展,現(xiàn)在自主學(xué)習(xí)、知識積累和長遠(yuǎn)規(guī)劃方面沒有多大進(jìn)展,所以大家不要聽人工智能的忽悠,現(xiàn)在我們基本上還早得很。機(jī)器翻譯現(xiàn)在是基于這兩種智能過渡的一個小成果。我們非常高興,也非常激動人心,因?yàn)閺母兄秸J(rèn)知的過程當(dāng)中人工智能深度學(xué)習(xí)終于有了一個長足的進(jìn)步。

微軟AI的平臺把所有的認(rèn)知服務(wù)都打包到了Azure這個云上,從最底層的核心架構(gòu)到最高層的算法都有,大家可以去微軟的平臺選用、享受、分享微軟的最新人工智能研發(fā)進(jìn)展和工程化的結(jié)果。

這是第三方對微軟、Google和亞馬遜在語音和語言API方面的評估,可以看出微軟中間綠顏色的比較多,這當(dāng)然是符合大家預(yù)期的。另外想介紹一下幾個簡單的例子:極易中文學(xué)校是在西雅圖的一個創(chuàng)新。海外的很多華人學(xué)習(xí)中文非常困難,他們用微軟的語音認(rèn)知服務(wù),小孩學(xué)中文的興趣大大進(jìn)步了,不僅是興趣進(jìn)步,而且做家庭作業(yè)和掌握中文的速度也有一個長足的進(jìn)步。所以用人工智能服務(wù)于教育,幫助小孩擴(kuò)展中文文化,這在西雅圖極易中文學(xué)校已經(jīng)得到了非常高度的認(rèn)可。我們知道中國的華為公司包括Mate10都預(yù)裝了微軟認(rèn)知服務(wù)的機(jī)器翻譯系統(tǒng)。我們最近跟小米生態(tài)系統(tǒng)中要推出的魔芋翻譯機(jī),更是人工智能翻譯的一大杰出代表。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31133

    瀏覽量

    269466
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47425

    瀏覽量

    238960

原文標(biāo)題:AI 翻譯能夠取代人類?微軟黃學(xué)東:我們?nèi)栽诟兄悄芎驼J(rèn)知智能的過渡期

文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機(jī)器人研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    導(dǎo)磁材料的磁通為什么起到傳遞能量的作用

    導(dǎo)磁材料的磁通之所以起到傳遞能量的作用,主要基于以下幾個方面的原理: 一、磁通的基本概念 磁通是描述磁場強(qiáng)弱和方向的物理量,它表示磁場線穿過某一面積的總量。在磁路中,磁通相當(dāng)于電流在電路中的作用
    的頭像 發(fā)表于 09-30 11:08 ?406次閱讀

    智能玩具用離線語音識別芯片有什么優(yōu)勢

    隨著科技的發(fā)展,很多智能電子產(chǎn)品和兒童玩具實(shí)現(xiàn)了與人類的交互,語音芯片在這些人機(jī)交互中起到了不可替代的作用語音識別芯片在智能玩具中的應(yīng)用就
    的頭像 發(fā)表于 09-20 10:00 ?297次閱讀
    智能玩具用離線<b class='flag-5'>語音</b>識別芯片有什么優(yōu)勢

    LMH6554放大200MHz的周期單脈沖信號,沒有起到放大的作用,反而縮小了,為什么?

    放大200MHz的周期單脈沖信號,沒有起到放大的作用,反而縮小了!
    發(fā)表于 09-14 07:57

    人類信息存儲進(jìn)化

    人類有智慧之后,就窮盡辦法來存儲和傳遞信息。
    的頭像 發(fā)表于 08-30 10:14 ?476次閱讀

    在運(yùn)算放大器的輸出端接一個電阻到地是起到什么作用?

    請問一般在運(yùn)算放大器的輸出端接一個電阻到地是起到什么作用
    發(fā)表于 08-19 07:31

    XTR111中的D6是二極管嗎?能起到什么作用?

    XTR111中的D6是二極管嗎?他能起到什么作用?
    發(fā)表于 08-19 06:09

    智慧用電對學(xué)校起到至關(guān)重要的作用

    ? ? ?智慧用電對學(xué)校起到了多方面的重要作用: 1. 保障用電安全 : · 實(shí)時監(jiān)測電氣線路的運(yùn)行狀況,如電流、電壓、漏電等,及時發(fā)現(xiàn)潛在的電氣故障和安全隱患,例如線路老化、短路等問題,預(yù)防電氣
    的頭像 發(fā)表于 08-14 17:07 ?247次閱讀
    智慧用電對學(xué)校<b class='flag-5'>起到</b>至關(guān)重要的<b class='flag-5'>作用</b>?

    LM3311腳在該電路中具體起到什么作用?CF電容怎樣放電的?

    LM3311腳在該電路中具體起到什么作用CF電容怎樣放電的
    發(fā)表于 08-13 07:51

    KT142C語音芯片工作電壓多少?電流是多少?串口波特率多少?多大的喇叭?

    KT142C-sop16語音芯片ic工作電壓多少?電流是多少?串口波特率是多少?支持多大的喇叭?
    的頭像 發(fā)表于 05-23 09:45 ?491次閱讀
    KT142C<b class='flag-5'>語音</b>芯片工作電壓多少?電流是多少?串口波特率多少?<b class='flag-5'>多大</b>的喇叭?

    語音識別的技術(shù)歷程及工作原理

    語音識別的本質(zhì)是一種基于語音特征參數(shù)的模式識別,即通過學(xué)習(xí),系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。
    的頭像 發(fā)表于 03-22 16:58 ?3376次閱讀
    <b class='flag-5'>語音</b>識別的技術(shù)<b class='flag-5'>歷程</b>及工作原理

    蘇錫通園區(qū)通富微電子三期項(xiàng)目啟動暨2.5D/3D首臺設(shè)備落成典禮

    根據(jù)蘇錫通科技產(chǎn)業(yè)園區(qū)信息透露,通富微電子三期項(xiàng)目的啟動是其發(fā)展歷程中的重要里程碑,對突破先進(jìn)封裝測試的關(guān)鍵技術(shù)瓶頸起到了關(guān)鍵作用
    的頭像 發(fā)表于 02-22 13:43 ?485次閱讀

    全新工業(yè)制造時代當(dāng)中,EM-I12U加固平板終端起到了哪些決定性作用

    傳統(tǒng)的工業(yè)生產(chǎn)、流水線操作都進(jìn)入了智能化模式當(dāng)中,可見效率、質(zhì)量、價格、數(shù)據(jù)化已經(jīng)擺到了每個行業(yè)的面前。
    的頭像 發(fā)表于 02-18 09:58 ?263次閱讀

    語音數(shù)據(jù)集在智能駕駛中的關(guān)鍵作用與應(yīng)用

    一、引言 隨著智能駕駛技術(shù)的快速發(fā)展,語音識別技術(shù)在其中扮演著越來越重要的角色。而語音數(shù)據(jù)集作為語音識別技術(shù)的基石,其質(zhì)量和規(guī)模對整個系統(tǒng)的性能起著至關(guān)重要的作用。本文將深入探討
    的頭像 發(fā)表于 01-31 16:22 ?509次閱讀

    語音通信線路板有哪些類型的功能和作用?

    語音通信線路板有哪些類型的功能和作用語音通信線路板是一種用于通信設(shè)備的重要組成部分,它具有多種功能和作用。下面將詳細(xì)介紹語音通信線路板的
    的頭像 發(fā)表于 01-17 16:26 ?901次閱讀

    電阻電容并聯(lián)后在電路中起到什么作用

    電阻和電容并聯(lián),運(yùn)放輸出腳和地之間并聯(lián)電阻電容,這個電阻容并聯(lián)起到了一個什么作用,原理是什么?不太像是低通或高通濾波器,那樣的話電阻和電容是串聯(lián)的
    發(fā)表于 01-14 15:10