0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟深度神經(jīng)網(wǎng)絡(luò):基于Azure云的端到端語音合成系統(tǒng)

ss ? 來源:智能相對(duì)論 ? 作者:智能相對(duì)論 ? 2020-12-01 11:05 ? 次閱讀

以往,談及對(duì)合成語音的刻板印象,很多人會(huì)聯(lián)想到《星球大戰(zhàn)》中的C-3PO——那個(gè)有著近似人類外形金光閃閃的家伙,它是整個(gè)系列影片中毫無爭(zhēng)議的搞笑擔(dān)當(dāng),其動(dòng)作僵硬而滑稽,說起話來喋喋不休,聲音中混雜著輕微的交流聲和金屬質(zhì)感的回聲。直到今天,它那獨(dú)特的嗓音,仍然是很多科幻片中人工智能發(fā)聲的模板。

第一部《星球大戰(zhàn)》公映于1977年,彼時(shí),個(gè)人電腦才剛剛走出實(shí)驗(yàn)室,人們對(duì)于人工智能的想象力仍受限于時(shí)代。去年,該系列推出了最后一部作品《星球大戰(zhàn):天行者崛起》,C-3PO的聲音還是人們熟悉的老樣子。而現(xiàn)實(shí)中,智能語音技術(shù)飛速發(fā)展,取而代之的是聽感越來越趨于自然、逼真的“合成人聲”,讓越來越多的企業(yè)于實(shí)現(xiàn)了與客戶的多模態(tài)互動(dòng)。

合成人聲的用途相當(dāng)廣泛,我們熟知的便是手機(jī)中的語音助手,用戶可通過簡(jiǎn)單的人機(jī)對(duì)話,獲知天氣、路況等實(shí)時(shí)信息,也可命令手機(jī)完成撥號(hào)、查詢等任務(wù)。這一類應(yīng)用被稱作實(shí)時(shí)語音合成,它對(duì)基于云的計(jì)算力提出了很高的要求,除了需要對(duì)聲音的自然度不斷地進(jìn)行優(yōu)化外,實(shí)時(shí)合成對(duì)于語音合成引擎和平臺(tái)架構(gòu)也都有著極高的要求,必須保障在極低的延遲下,提供準(zhǔn)確、穩(wěn)定、自然的聲音內(nèi)容。另一類常見的應(yīng)用是利用人工智能語音合成有聲內(nèi)容,這類應(yīng)用通常會(huì)在語音服務(wù)端進(jìn)行非實(shí)時(shí)的批量合成,然后再將有聲內(nèi)容文件提供給用戶。有聲內(nèi)容合成的主要挑戰(zhàn)在于如何通過多種角色扮演和豐富情感表達(dá),降低聽眾單向接收有聲內(nèi)容的聽覺疲勞。

以往,有聲書需要由專業(yè)朗誦者來錄制,制作周期長(zhǎng)達(dá)數(shù)月且成本高昂。如今,通過智能合成語音錄制有聲書,制作周期可縮短至幾小時(shí),甚至是幾分鐘。即便在需要人工干預(yù)校對(duì)和聲音編輯的情況下,制作周期也可縮短至數(shù)周,節(jié)省了大量的人力、物力及時(shí)間成本,且得到的效果幾乎與真人朗誦別無二致。今年的“世界讀書日”,由周迅與公益組織紅丹丹聯(lián)合發(fā)起的為視障人士讀書活動(dòng),向我們展示了語音合成技術(shù)的新高度。在此之前,創(chuàng)建一個(gè)高質(zhì)量的語音合成模型需要以大量真人原聲為樣本進(jìn)行機(jī)器學(xué)習(xí),樣本量通常會(huì)超過10小時(shí)或10000句。而這次公益活動(dòng)的主辦方采用了由微軟最新開發(fā)的深度神經(jīng)網(wǎng)絡(luò)語音合成定制系統(tǒng),只采集了半小時(shí)大約500句的周迅原聲錄音,便通過深度定制的語音模型,惟妙惟肖地復(fù)原了周迅的聲音。

這里所說的“復(fù)原”不只是周迅頗具特色的聲線,也包括周迅在朗讀時(shí)的語氣、情緒、語調(diào)、抑揚(yáng)頓挫等。可以想象,隨著這一技術(shù)的普及,有聲書行業(yè)也將隨之發(fā)生巨大的改變。微軟將在國(guó)際殘疾人日捐贈(zèng)的100小時(shí)有聲書籍正昭示著這種改變的開始。

微軟深度神經(jīng)網(wǎng)絡(luò)是基于Azure云的端到端語音合成系統(tǒng),由前端、聲學(xué)模型和聲碼器三部分組成。前端主要解決基于語義理解的文本發(fā)音問題,比如“2020”在表示年份和數(shù)字時(shí)的讀法不一樣,這是上下文關(guān)聯(lián)問題;再比如“堡”字,用于地名時(shí)應(yīng)讀作“鋪”,“解”用在姓氏上應(yīng)讀作“謝”,這都是多音字問題;還有“一會(huì)兒”這類詞,不能讀成三個(gè)字,后兩個(gè)字應(yīng)合并為兒化音,這是語言習(xí)慣問題。聲學(xué)模型負(fù)責(zé)為語音賦予韻律,比如語速、語調(diào)、停頓、重音和情緒變化等。最后一部分聲碼器負(fù)責(zé)還原語音的聲學(xué)特征,也就是一般所說的嗓音或聲線,如振幅、頻率、波長(zhǎng)等。

深度神經(jīng)網(wǎng)絡(luò)模型是當(dāng)前最先進(jìn)的語音合成技術(shù),但相應(yīng)的主流產(chǎn)品在合成效率、效果,以及所需聲音樣本量上,卻存在很大差異。以樣本量為例,微軟的語音合成定制技術(shù)處于行業(yè)領(lǐng)先地位,一般情況下,只需要不超過2000句的內(nèi)容,就可以做到非常逼真的還原。那么,在周迅的案例中,是如何做到只需500句甚至更少的聲音素材就達(dá)到類似效果呢?微軟還有一個(gè)“殺器”——通用模型。通用模型是在對(duì)海量語料庫(kù)進(jìn)行大數(shù)據(jù)分析的基礎(chǔ)上,不斷訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)人類語言與發(fā)聲特征后得到的。目前微軟通用語料庫(kù)的容量已經(jīng)超過3000小時(shí),覆蓋了50多個(gè)語種,通過它提煉出來的通用模型已經(jīng)熟練掌握了這50多種語言的幾乎全部發(fā)聲規(guī)律,甚至包括真人說話時(shí)換氣和咽口水的細(xì)節(jié)都可以模仿出來。當(dāng)微軟需要基于像周迅這樣只有500句話甚至更少內(nèi)容的語料庫(kù)做語音定制時(shí),便可以在通用模型基礎(chǔ)上,通過遷移學(xué)習(xí)法來建立周迅聲音的擴(kuò)展模型。

目前,微軟的語音合成定制系統(tǒng)只需要半小時(shí)左右的聲音樣本便可建立定制語音模型,與傳統(tǒng)TTS建模所需的至少10小時(shí)或10000句的聲音樣本量相比,是一個(gè)從量到質(zhì)的飛躍。這一飛躍使得面向更多的企業(yè)甚至于普通消費(fèi)者的個(gè)人聲音定制成為可能。

微軟之所以能在語音合成領(lǐng)域保持領(lǐng)先地位,主要得益于其20多年來在算法和定制模型上所積累的深厚功力。自從1991年微軟研究院成立以來,微軟一直將語音作為主要的研究領(lǐng)域,儲(chǔ)備、積累了大量的人工智能相關(guān)技術(shù)。2018年9月,微軟率先開始測(cè)試基于深度神經(jīng)網(wǎng)絡(luò)的端到端語音合成系統(tǒng),為人工智能語音技術(shù)的發(fā)展揭開了新的一頁(yè)。

前不久,微軟將其定制的通用中文發(fā)聲與市場(chǎng)上的主流產(chǎn)品進(jìn)行了盲測(cè)對(duì)比,微軟的MOS得分(5分制)為4.35,居于領(lǐng)先地位,表明合成語音與真人聲音已經(jīng)非常接近(真人的MOS得分為4.41)。

除了語音助手和有聲書籍錄制外,語音合成技術(shù)還廣泛應(yīng)用于智能語音客服領(lǐng)域,這也是微軟目前在to B領(lǐng)域的主要發(fā)力點(diǎn),比如很多航空公司、電商平臺(tái)、電信運(yùn)營(yíng)商等都在嘗試使用微軟的智能語音客服來緩解人工壓力。智能語音客服可以解決很多常見的標(biāo)準(zhǔn)化問題,減少客戶的等待時(shí)間,為客戶帶來更好的服務(wù)體驗(yàn)。在應(yīng)對(duì)突發(fā)事件方面,智能語音客服更有得天獨(dú)厚的優(yōu)勢(shì),很多突發(fā)事件都會(huì)造成客戶咨詢量在短時(shí)間內(nèi)爆發(fā)式增長(zhǎng),在這種情況下,企業(yè)如果增設(shè)人工客服,一方面可能在時(shí)間上來不及,另一方面?zhèn)}促上崗也可能導(dǎo)致服務(wù)質(zhì)量的難以保證。

目前,微軟為企業(yè)定制智能語音客服大致需要300至2000句語料訓(xùn)練,以滿足特定應(yīng)用場(chǎng)景的需求;對(duì)于需要定制適用于多場(chǎng)景、富有多種情緒甚至涵蓋多語種的品牌聲音的企業(yè)而言,語料訓(xùn)練則有更高要求。

上述兩種定制目前都會(huì)有人工參與測(cè)試和適當(dāng)調(diào)校并向客戶提供靈活的接入方式,即通過APISDK接入微軟的Azure公有云,實(shí)現(xiàn)端到端的實(shí)時(shí)合成。如果客戶有特殊需求,產(chǎn)品也可部署在私有云甚至離線設(shè)備中。未來,這兩種系統(tǒng)都將實(shí)現(xiàn)自動(dòng)化定制。實(shí)際上,微軟已經(jīng)邀請(qǐng)合作伙伴開始小范圍的自動(dòng)化系統(tǒng)測(cè)試,可能在不久的將來正式發(fā)布此系列產(chǎn)品。

可以預(yù)期,伴隨著相關(guān)技術(shù)的發(fā)展,智能語音在個(gè)人及商業(yè)領(lǐng)域中的應(yīng)用場(chǎng)景將更加豐富,不斷細(xì)分的合成語音服務(wù)也會(huì)給我們帶來更多的體驗(yàn)和驚喜。同時(shí),微軟提出了人工智能六項(xiàng)倫理道德準(zhǔn)則:公平、可靠和安全、隱私和保證、包容、透明和責(zé)任。倡導(dǎo)負(fù)責(zé)任的人工智能。這些原則將為人工智能的發(fā)展保駕護(hù)航,予力全球每一人、每一組織,成就不凡!

責(zé)任編輯:xj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4777

    瀏覽量

    100952
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31279

    瀏覽量

    269641
  • 智能語音
    +關(guān)注

    關(guān)注

    10

    文章

    789

    瀏覽量

    48825
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)作為其核心算法之一,在圖像識(shí)別、語音識(shí)別、自然語言處理等領(lǐng)域取得了顯著成果。然而,傳統(tǒng)的深度
    的頭像 發(fā)表于 07-24 10:42 ?746次閱讀

    深度神經(jīng)網(wǎng)絡(luò)在雷達(dá)系統(tǒng)中的應(yīng)用

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)在雷達(dá)系統(tǒng)中的應(yīng)用近年來取得了顯著進(jìn)展,為雷達(dá)信號(hào)處理、目標(biāo)檢測(cè)、跟蹤以及識(shí)別等領(lǐng)域帶來了革命性的變化。以下將詳細(xì)探討深度
    的頭像 發(fā)表于 07-15 11:09 ?803次閱讀

    殘差網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    殘差網(wǎng)絡(luò)(Residual Network,通常簡(jiǎn)稱為ResNet) 是深度神經(jīng)網(wǎng)絡(luò)的一種 ,其獨(dú)特的結(jié)構(gòu)設(shè)計(jì)在解決深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問題上取得了顯著的突破,并因此成為
    的頭像 發(fā)表于 07-11 18:13 ?1142次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)語音識(shí)別中的應(yīng)用

    語音識(shí)別技術(shù)作為人工智能領(lǐng)域的關(guān)鍵應(yīng)用之一,已經(jīng)深刻地改變了人們的日常生活和工作方式。從智能手機(jī)中的語音助手到智能家居系統(tǒng)語音控制,語音識(shí)
    的頭像 發(fā)表于 07-08 11:09 ?630次閱讀

    人工神經(jīng)網(wǎng)絡(luò)模型的分類有哪些

    人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANNs)是一種模擬人腦神經(jīng)元網(wǎng)絡(luò)的計(jì)算模型,它在許多領(lǐng)域,如圖像識(shí)別、語音識(shí)別、自然語言處理、預(yù)測(cè)分析等有著廣泛的應(yīng)用。本文將
    的頭像 發(fā)表于 07-05 09:13 ?1295次閱讀

    遞歸神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)

    。 遞歸神經(jīng)網(wǎng)絡(luò)的概念 遞歸神經(jīng)網(wǎng)絡(luò)是一種具有短期記憶功能的神經(jīng)網(wǎng)絡(luò),它能夠處理序列數(shù)據(jù),如時(shí)間序列、文本、語音等。與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)不同
    的頭像 發(fā)表于 07-04 14:54 ?827次閱讀

    深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

    在探討深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)與基本神經(jīng)網(wǎng)絡(luò)(通常指?jìng)鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)或前向神經(jīng)網(wǎng)絡(luò))的區(qū)別時(shí),我們需
    的頭像 發(fā)表于 07-04 13:20 ?999次閱讀

    bp神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network)是一種常見的前饋神經(jīng)網(wǎng)絡(luò),它使用反向傳播算法來訓(xùn)練網(wǎng)絡(luò)。雖然BP神經(jīng)網(wǎng)絡(luò)在某些方面與
    的頭像 發(fā)表于 07-03 10:14 ?898次閱讀

    深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)作為其中的重要分支,已經(jīng)在多個(gè)領(lǐng)域取得了顯著的應(yīng)用成果。從圖像識(shí)別、語音識(shí)別
    的頭像 發(fā)表于 07-02 18:19 ?961次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的原理是什么

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識(shí)別、語音識(shí)別、自然語言處理等領(lǐng)域。本文將詳細(xì)介紹卷積神經(jīng)網(wǎng)絡(luò)的原
    的頭像 發(fā)表于 07-02 14:44 ?722次閱讀

    深度神經(jīng)網(wǎng)絡(luò)模型有哪些

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)是一類具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),它們?cè)谠S多領(lǐng)域取得了顯著的成功,如計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別等。以下是一些常見
    的頭像 發(fā)表于 07-02 10:00 ?1562次閱讀

    神經(jīng)網(wǎng)絡(luò)架構(gòu)有哪些

    神經(jīng)網(wǎng)絡(luò)架構(gòu)是機(jī)器學(xué)習(xí)領(lǐng)域中的核心組成部分,它們模仿了生物神經(jīng)網(wǎng)絡(luò)的運(yùn)作方式,通過復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)信息的處理、存儲(chǔ)和傳遞。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,各種
    的頭像 發(fā)表于 07-01 14:16 ?802次閱讀

    利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)心電圖降噪

    曼濾波。因此,通過這種方式訓(xùn) 練網(wǎng)絡(luò),無法獲得比卡爾曼濾波本身更好的 性能。本文介紹了一種利用深度遞歸神經(jīng)網(wǎng)絡(luò) (DRNN)對(duì) ECG 信號(hào)進(jìn)行降噪的新方 法。該網(wǎng)絡(luò)使用兩個(gè)
    發(fā)表于 05-15 14:42

    助聽器降噪神經(jīng)網(wǎng)絡(luò)模型

    抑制任務(wù)是語音增強(qiáng)領(lǐng)域的一個(gè)重要學(xué)科, 隨著深度神經(jīng)網(wǎng)絡(luò)的興起,提出了幾種基于深度模型的音頻處理新方法[1,2,3,4]。然而,這些通常是為離線處理而開發(fā)的,不需要考慮實(shí)時(shí)性。當(dāng)使用
    發(fā)表于 05-11 17:15

    特斯拉FSD V12.3測(cè)試版軟件升級(jí):采用神經(jīng)網(wǎng)絡(luò),提高安全性

    值得注意的是,這款FSD v12新增了被馬斯克盛贊為“革命性”的“對(duì)神經(jīng)網(wǎng)絡(luò)”技術(shù),表示駕車行為已不再依賴人工編寫的代碼,全部由神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng);特斯拉方面甚至聲稱,這項(xiàng)技術(shù)在安全性能
    的頭像 發(fā)表于 03-13 14:16 ?1105次閱讀