夜夜澡人人爽人人喊,女人夜色黄网在线观看,色哟哟免费精品网站入口

阿里巴巴語(yǔ)音交互智能團(tuán)隊(duì)提出一種基于深度前饋序列記憶網(wǎng)絡(luò)的語(yǔ)音合成系統(tǒng)。該系統(tǒng)在達(dá)到與基于雙向長(zhǎng)短時(shí)記憶單元的語(yǔ)音合成系統(tǒng)一致的主觀聽感的同時(shí)，模型大小只有后者的四分之一，且合成速度是后者的四倍，非常適合于對(duì)內(nèi)存占用和計(jì)算效率非常敏感的端上產(chǎn)品環(huán)境。該研究已入選語(yǔ)音頂會(huì)ICASSP會(huì)議Oral論文，本文帶來詳細(xì)解讀。

研究背景

語(yǔ)音合成系統(tǒng)主要分為兩類，拼接合成系統(tǒng)和參數(shù)合成系統(tǒng)。其中參數(shù)合成系統(tǒng)在引入了神經(jīng)網(wǎng)絡(luò)作為模型之后，合成質(zhì)量和自然度都獲得了長(zhǎng)足的進(jìn)步。另一方面，物聯(lián)網(wǎng)設(shè)備（例如智能音箱和智能電視）的大量普及也對(duì)在設(shè)備上部署的參數(shù)合成系統(tǒng)提出了計(jì)算資源的限制和實(shí)時(shí)率的要求。本工作引入的深度前饋序列記憶網(wǎng)絡(luò)可以在保持合成質(zhì)量的同時(shí)，有效降低計(jì)算量，提高合成速度。

我們使用基于雙向長(zhǎng)短時(shí)記憶單元（BLSTM）的統(tǒng)計(jì)參數(shù)語(yǔ)音合成系統(tǒng)作為基線系統(tǒng)。與其他現(xiàn)代統(tǒng)計(jì)參數(shù)語(yǔ)音合成系統(tǒng)相似，我們提出的基于深度前饋序列記憶網(wǎng)絡(luò)（DFSMN）的統(tǒng)計(jì)參數(shù)語(yǔ)音合成系統(tǒng)也是由3個(gè)主要部分組成，聲音合成器（vocoder），前端模塊和后端模塊，如上圖所示。我們使用開源工具WORLD作為我們的聲音合成器，用來在模型訓(xùn)練時(shí)從原始語(yǔ)音波形中提取頻譜信息、基頻的對(duì)數(shù)、頻帶周期特征（BAP）和清濁音標(biāo)記，也用來在語(yǔ)音合成時(shí)完成從聲學(xué)參數(shù)到實(shí)際聲音的轉(zhuǎn)換。前端模塊用來對(duì)輸入的文本進(jìn)行正則化和詞法分析，我們把這些語(yǔ)言學(xué)特征編碼后作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入。后端模塊用來建立從輸入的語(yǔ)言學(xué)特征到聲學(xué)參數(shù)的映射，在我們的系統(tǒng)中，我們使用DFSMN作為后端模塊。

深度前饋序列記憶網(wǎng)絡(luò)

緊湊前饋序列記憶網(wǎng)絡(luò)（cFSMN）作為標(biāo)準(zhǔn)的前饋序列記憶網(wǎng)絡(luò)（FSMN）的改進(jìn)版本，在網(wǎng)絡(luò)結(jié)構(gòu)中引入了低秩矩陣分解，這種改進(jìn)簡(jiǎn)化了FSMN，減少了模型的參數(shù)量，并加速了模型的訓(xùn)練和預(yù)測(cè)過程。

上圖給出了cFSMN的結(jié)構(gòu)的圖示。對(duì)于神經(jīng)網(wǎng)絡(luò)的每一個(gè)cFSMN層，計(jì)算過程可表示成以下步驟①經(jīng)過一個(gè)線性映射，把上一層的輸出映射到一個(gè)低維向量②記憶模塊執(zhí)行計(jì)算，計(jì)算當(dāng)前幀之前和之后的若干幀和當(dāng)前幀的低維向量的逐維加權(quán)和③把該加權(quán)和再經(jīng)過一個(gè)仿射變換和一個(gè)非線性函數(shù)，得到當(dāng)前層的輸出。三個(gè)步驟可依次表示成如下公式。

與循環(huán)神經(jīng)網(wǎng)絡(luò)（RNNs，包括BLSTM）類似，通過調(diào)整記憶模塊的階數(shù)，cFSMN有能力捕捉序列的長(zhǎng)程信息。另一方面，cFSMN可以直接通過反向傳播算法（BP）進(jìn)行訓(xùn)練，與必須使用沿時(shí)間反向傳播算法（BPTT）進(jìn)行訓(xùn)練的RNNs相比，訓(xùn)練cFSMN速度更快，且較不容易受到梯度消失的影響。

對(duì)cFSMN進(jìn)一步改進(jìn)，我們得到了深度前饋序列記憶網(wǎng)絡(luò)（DFSMN）。DFSMN利用了在各類深度神經(jīng)網(wǎng)絡(luò)中被廣泛使用的跳躍連接（skip-connections）技術(shù)，使得執(zhí)行反向傳播算法的時(shí)候，梯度可以繞過非線性變換，即使堆疊了更多DFSMN層，網(wǎng)絡(luò)也能快速且正確地收斂。對(duì)于DFSMN模型，增加深度的好處有兩個(gè)方面。一方面，更深的網(wǎng)絡(luò)一般來說具有更強(qiáng)的表征能力，另一方面，增加深度可以間接地增大DFSMN模型預(yù)測(cè)當(dāng)前幀的輸出時(shí)可以利用的上下文長(zhǎng)度，這在直觀上非常有利于捕捉序列的長(zhǎng)程信息。具體來說，我們把跳躍連接添加到了相鄰兩層的記憶模塊之間，如下面公式所示。由于DFSMN各層的記憶模塊的維數(shù)相同，跳躍連接可由恒等變換實(shí)現(xiàn)。

我們可以認(rèn)為DFSMN是一種非常靈活的模型。當(dāng)輸入序列很短，或者對(duì)預(yù)測(cè)延時(shí)要求較高的時(shí)候，可以使用較小的記憶模塊階數(shù)，在這種情況下只有當(dāng)前幀附近幀的信息被用來預(yù)測(cè)當(dāng)前幀的輸出。而如果輸入序列很長(zhǎng)，或者在預(yù)測(cè)延時(shí)不是那么重要的場(chǎng)景中，可以使用較大的記憶模塊階數(shù)，那么序列的長(zhǎng)程信息就能被有效利用和建模，從而有利于提高模型的性能。

除了階數(shù)之外，我們?yōu)镈FSMN的記憶模塊增加了另一個(gè)超參數(shù)，步長(zhǎng)（stride），用來表示記憶模塊提取過去或未來幀的信息時(shí)，跳過多少相鄰的幀。這是有依據(jù)的，因?yàn)榕c語(yǔ)音識(shí)別任務(wù)相比，語(yǔ)音合成任務(wù)相鄰幀之間的重合部分甚至更多。

上文已經(jīng)提到，除了直接增加各層的記憶模塊的階數(shù)之外，增加模型的深度也能間接增加預(yù)測(cè)當(dāng)前幀的輸出時(shí)模型可以利用的上下文的長(zhǎng)度，上圖給出了一個(gè)例子。

實(shí)驗(yàn)

在實(shí)驗(yàn)階段，我們使用的是一個(gè)由男性朗讀的中文小說數(shù)據(jù)集。我們把數(shù)據(jù)集劃分成兩部分，其中訓(xùn)練集包括38600句朗讀（大約為83小時(shí)），驗(yàn)證集包括1400句朗讀（大約為3小時(shí)）。所有的語(yǔ)音數(shù)據(jù)采樣率都為16k赫茲，每幀幀長(zhǎng)為25毫秒，幀移為5毫秒。我們使用WORLD聲音合成器逐幀提取聲學(xué)參數(shù)，包括60維梅爾倒譜系數(shù)，3維基頻的對(duì)數(shù)，11維BAP特征以及1維清濁音標(biāo)記。我們使用上述四組特征作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的四個(gè)目標(biāo)，進(jìn)行多目標(biāo)訓(xùn)練。前端模塊提取出的語(yǔ)言學(xué)特征，共計(jì)754維，作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入。

我們對(duì)比的基線系統(tǒng)是基于一個(gè)強(qiáng)大的BLSTM模型，該模型由底層的1個(gè)全連接層和上層的3個(gè)BLSTM層組成，其中全連接層包含2048個(gè)單元，BLSTM層包含2048個(gè)記憶單元。該模型通過沿時(shí)間反向傳播算法（BPTT）訓(xùn)練，而我們的DFSMN模型通過標(biāo)準(zhǔn)的反向傳播算法（BP）訓(xùn)練。包括基線系統(tǒng)在內(nèi)，我們的模型均通過逐塊模型更新過濾算法（BMUF）在2塊GPU上訓(xùn)練。我們使用多目標(biāo)幀級(jí)別均方誤差（MSE）作為訓(xùn)練目標(biāo)。

所有的DFSMN模型均由底層的若干DFSMN層和上的2個(gè)全連接層組成，每個(gè)DFSMN層包含2048個(gè)結(jié)點(diǎn)和512個(gè)投影結(jié)點(diǎn)，而每個(gè)全連接層包含2048個(gè)結(jié)點(diǎn)。在上圖中，第三列表示該模型由幾層DFSMN層和幾層全連接層組成，第四列表示該模型DFSMN層的記憶模塊的階數(shù)和步長(zhǎng)。由于這是FSMN這一類模型首次應(yīng)用在語(yǔ)音合成任務(wù)中，因此我們的實(shí)驗(yàn)從一個(gè)深度淺且階數(shù)小的模型，即模型A開始（注意只有模型A的步長(zhǎng)為1，因?yàn)槲覀儼l(fā)現(xiàn)步長(zhǎng)為2始終稍好于步長(zhǎng)為1的相應(yīng)模型）。從系統(tǒng)A到系統(tǒng)D，我們?cè)诠潭―FSMN層數(shù)為3的同時(shí)逐漸增加階數(shù)。從系統(tǒng)D到系統(tǒng)F，我們?cè)诠潭A數(shù)和步長(zhǎng)為10,10,2,2的同時(shí)逐漸增加層數(shù)。從系統(tǒng)F到系統(tǒng)I，我們固定DFSMN層數(shù)為10并再次逐漸增加階數(shù)。在上述一系列實(shí)驗(yàn)中，隨著DFSMN模型深度和階數(shù)的增加，客觀指標(biāo)逐漸降低（越低越好），這一趨勢(shì)非常明顯，且系統(tǒng)H的客觀指標(biāo)超過了BLSTM基線。

另一方面，我們也做了平均主觀得分（MOS）測(cè)試（越高越好），測(cè)試結(jié)果如上圖所示。主觀測(cè)試是通過付費(fèi)眾包平臺(tái)，由40個(gè)母語(yǔ)為中文的測(cè)試人員完成的。在主觀測(cè)試中，每個(gè)系統(tǒng)生成了20句集外合成語(yǔ)音，每句合成語(yǔ)音由10個(gè)不同的測(cè)試人員獨(dú)立評(píng)價(jià)。在平均主觀得分的測(cè)試結(jié)果表明，從系統(tǒng)A到系統(tǒng)E，主觀聽感自然度逐漸提高，且系統(tǒng)E達(dá)到了與BLSTM基線系統(tǒng)一致的水平。但是，盡管后續(xù)系統(tǒng)客觀指標(biāo)持續(xù)提高，主觀指標(biāo)只是在系統(tǒng)E得分的上下波動(dòng)，沒有進(jìn)一步提高。

結(jié)論

根據(jù)上述主客觀測(cè)試，我們得到的結(jié)論是，歷史和未來信息各捕捉120幀（600毫秒）是語(yǔ)音合成聲學(xué)模型建模所需要的上下文長(zhǎng)度的上限，更多的上下文信息對(duì)合成結(jié)果沒有直接幫助。與BLSTM基線系統(tǒng)相比，我們提出的DFSMN系統(tǒng)可以在獲得與基線系統(tǒng)一致的主觀聽感的同時(shí)，模型大小只有基線系統(tǒng)的1/4，預(yù)測(cè)速度則是基線系統(tǒng)的4倍，這使得該系統(tǒng)非常適合于對(duì)內(nèi)存占用和計(jì)算效率要求很高的端上產(chǎn)品環(huán)境，例如在各類物聯(lián)網(wǎng)設(shè)備上部署。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4772

瀏覽量
100807
物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2909

文章
44671

瀏覽量
373699
智能語(yǔ)音交互

智能語(yǔ)音交互

+關(guān)注

關(guān)注
0

文章
21

瀏覽量
2814

原文標(biāo)題：ICASSP Oral 論文：阿里提出低計(jì)算量語(yǔ)音合成系統(tǒng)，速度提升4倍

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

EMMC存儲(chǔ)速度如何提升

要提升eMMC（Embedded Multi Media Card）的存儲(chǔ)速度，可以從多個(gè)方面入手。以下是一些有效的方法：一、硬件優(yōu)化啟用8線eMMC驅(qū)動(dòng) ：默認(rèn)的4線模式可能不如8線模式快

發(fā)表于 12-25 09:31 ?250次閱讀

基于語(yǔ)音識(shí)別的智能會(huì)議系統(tǒng)具備哪些交互功能

標(biāo)貝科技專注智能語(yǔ)音交互領(lǐng)域多年，在語(yǔ)音識(shí)別和語(yǔ)音合成領(lǐng)域有著多項(xiàng)大型企業(yè)合作案例，標(biāo)貝與多個(gè)智能會(huì)議系統(tǒng)廠商合作，成功將

發(fā)表于 12-20 10:35 ?108次閱讀

阿里云海外收入五年增長(zhǎng)20倍

旗下公司，是全球領(lǐng)先的云計(jì)算及人工智能科技公司。提供云服務(wù)器、云數(shù)據(jù)庫(kù)、云安全、云存儲(chǔ)、企業(yè)應(yīng)用及行業(yè)解決方案服務(wù)。據(jù)阿里云智能國(guó)際事業(yè)部總經(jīng)理袁千透露，阿里云海外收入五年增長(zhǎng)了20倍

發(fā)表于 12-11 15:55 ?152次閱讀

如何提升 ChatGPT 的響應(yīng)速度

提升 ChatGPT 的響應(yīng)速度是一個(gè)涉及多個(gè)層面的復(fù)雜問題。以下是一些可能的方法和策略，可以幫助提高 ChatGPT 的響應(yīng)速度：優(yōu)化算法：并行處理：通過并行處理技術(shù)，可以讓多個(gè)計(jì)算

發(fā)表于 10-25 17:39 ?694次閱讀

語(yǔ)音集成電路有哪些特點(diǎn)

各種應(yīng)用中都非常有用，包括智能手機(jī)、智能音箱、汽車導(dǎo)航系統(tǒng)、醫(yī)療設(shè)備和安全系統(tǒng)等。以下是關(guān)于語(yǔ)音集成電路特點(diǎn)的分析：集成度高：語(yǔ)音集成電路將多個(gè)功能集成在一個(gè)芯片上，這樣可以減少

發(fā)表于 09-30 15:43 ?297次閱讀

聲發(fā)射系統(tǒng)的技術(shù)指標(biāo)：最高采樣速度的選擇

雖然理論上采樣速度越高獲得的數(shù)字信號(hào)越完整，但考慮到實(shí)際應(yīng)用的成本，無法實(shí)現(xiàn)無限高甚至過高，只能選擇合理（即滿足應(yīng)用要求）的采樣速度。例如，采樣速度40兆，數(shù)據(jù)量就比采樣

發(fā)表于 08-26 17:30 ?348次閱讀

有效提升智能會(huì)議系統(tǒng)語(yǔ)音識(shí)別準(zhǔn)確性案例分享

。多語(yǔ)言支持的語(yǔ)音識(shí)別技術(shù)還可以準(zhǔn)確識(shí)別不同語(yǔ)言和方言，對(duì)于夸全球交流的國(guó)際會(huì)議必不可缺。語(yǔ)音識(shí)別準(zhǔn)確性對(duì)于提升智能會(huì)議系統(tǒng)市場(chǎng)核心競(jìng)爭(zhēng)力的重要性由此可見一斑。

發(fā)表于 06-21 11:13 ?503次閱讀

基于助聽器開發(fā)的一種高效的語(yǔ)音增強(qiáng)神經(jīng)網(wǎng)絡(luò)

2.39ms的計(jì)算延遲，在10 ms的目標(biāo)范圍內(nèi)，比之前的工作好351倍。健康的耳朵是一個(gè)復(fù)雜的非線性系統(tǒng)，能夠在大的動(dòng)態(tài)范圍內(nèi)工作。當(dāng)耳朵受損時(shí)，聽覺系統(tǒng)可以用助聽器(HA)增強(qiáng)，

發(fā)表于 06-07 11:29

【解讀】VTX316 TTS語(yǔ)音合成芯片幾個(gè)很實(shí)用的應(yīng)用技巧

? 前言 VTX316是北京宇音天下科技有限公司最新推出的一款更具性價(jià)比的中文TTS語(yǔ)音合成芯片，采用QFN32（4*4mm）封裝，體積更加精巧，文本

發(fā)表于 05-13 16:33 ?454次閱讀

WT3000T8-TTS語(yǔ)音合成芯片及應(yīng)用場(chǎng)景介紹

TTS語(yǔ)音合成芯片是一種能夠?qū)⑽谋拘畔⑥D(zhuǎn)化為自然語(yǔ)音的專用芯片。它通過內(nèi)置的語(yǔ)音合成算法和音頻處理單元，實(shí)現(xiàn)了文本到

發(fā)表于 04-18 18:03 ?894次閱讀

玩轉(zhuǎn)語(yǔ)音合成芯片（TTS芯片），看這一篇就夠了

什么是語(yǔ)音合成芯片：語(yǔ)音合成芯片也稱為TTS芯片，即文字轉(zhuǎn)語(yǔ)音芯片，是一種能夠?qū)⑤斎氲奈淖中畔⑥D(zhuǎn)換為語(yǔ)音

發(fā)表于 03-19 18:13 ?1419次閱讀

新型散熱材料金剛石納米膜有望將電動(dòng)汽車的充電速度提升五倍

近日，德國(guó)弗勞恩霍夫研究所 (Fraunhofer) 的科學(xué)家們利用超薄金剛石膜成功降低了電子元件的熱負(fù)荷，并有望將電動(dòng)汽車的充電速度提升五倍。

發(fā)表于 03-07 16:33 ?1386次閱讀

語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用與挑戰(zhàn)

一、引言隨著智能駕駛技術(shù)的不斷發(fā)展，人機(jī)交互變得越來越重要。語(yǔ)音合成技術(shù)作為人機(jī)交互的重要手段，在智能駕駛中發(fā)揮著越來越重要的作用。本文將探討語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用，并分析所

發(fā)表于 02-02 10:34 ?424次閱讀

語(yǔ)音合成技術(shù)在智能駕駛中的創(chuàng)新與應(yīng)用

的發(fā)展趨勢(shì)。二、語(yǔ)音合成技術(shù)的創(chuàng)新 語(yǔ)音質(zhì)量的提升：隨著深度學(xué)習(xí)等技術(shù)的不斷發(fā)展，語(yǔ)音合成技術(shù)

發(fā)表于 02-01 18:09 ?666次閱讀

語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用與展望

體驗(yàn)。本文將探討語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用、優(yōu)勢(shì)以及未來發(fā)展趨勢(shì)。二、語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用導(dǎo)航與路線指引：通過語(yǔ)音

發(fā)表于 02-01 17:50 ?526次閱讀