国产aⅤ一区二区三区片,视频二区素人人妻

語音合成，也被稱作TTS（text-to-speech），該技術(shù)的應(yīng)用目前已十分廣泛了，例如智能家居設(shè)備和智能助手等，論智也曾報道過很多相關(guān)研究項(xiàng)目。

百度研究者利用少量樣本實(shí)現(xiàn)語音克隆

谷歌發(fā)布新語音合成模型Tacotron 2：這竟是機(jī)器說的話？

谷歌大腦發(fā)力語音搜索：一個用于語音識別的端到端模型

近日，百度研究院推出了他們有關(guān)TTS的成果——ClariNet，成為百度在TTS研究上的又一里程碑。此前基于神經(jīng)內(nèi)網(wǎng)絡(luò)的TTS模型是將優(yōu)化的文本到聲譜圖和波形合成模型分開來的，這可能會導(dǎo)致不理想的表現(xiàn)。而ClariNet第一次做到了用完全的端到端TTS模型，直接將文本轉(zhuǎn)換成波形圖，并且只需要一個神經(jīng)網(wǎng)絡(luò)即可。它的全卷積結(jié)構(gòu)能夠從零開始快速地訓(xùn)練。ClariNet在語音的自然度方面成功地超越了其他方法。以下是論智對這篇論文的編譯。

論文摘要

WaveNet是DeepMind去年推出的基于深度學(xué)習(xí)的語音生成模型，它可以生成平行的語音波形，即整個句子中所有的詞語都可以同時生成對應(yīng)的波形?，F(xiàn)在，我們提出了一種替代WaveNet的方法，我們從自回歸的WaveNet中提取一個高斯逆自回歸流（Gaussian Inverse autoregressive flow），并且以閉合形式計算KL散度，簡化了訓(xùn)練算法并且提供了非常高效的蒸餾過程。除此之外，我們還提出了首個針對語音合成的文本到波形的神經(jīng)架構(gòu)（text-to-wave），這是全卷積的，并且可以快速地從零開始進(jìn)行端到端訓(xùn)練。除此之外，我們還成功地在模型的隱藏表示中創(chuàng)建了并行波形生成器。

并行波形生成

在模型中，我們用高斯自回歸WaveNet作為“老師網(wǎng)絡(luò)”，將高斯逆自回歸流作為“學(xué)生網(wǎng)絡(luò)”。2018年，Oord等人提出了概率密度蒸餾法來降低逆自回歸流（IAF）的最大可能學(xué)習(xí)中的難度。蒸餾過程中，學(xué)生網(wǎng)絡(luò)IAF試著將它自己的樣本分布與在自回歸的WaveNet中訓(xùn)練的樣本相匹配。然而，學(xué)生網(wǎng)絡(luò)IAF的輸出邏輯分布和教師網(wǎng)絡(luò)WaveNet的輸出之間的KL散度是不相容的，必須使用蒙特卡羅方法進(jìn)行大概計算。而最終并行的WaveNet需要在蒸餾過程中進(jìn)行雙次采樣：首先要將白噪聲輸入到學(xué)生網(wǎng)絡(luò)中，然后從學(xué)生網(wǎng)絡(luò)的輸出分布中選擇多個不同樣本對KL散度進(jìn)行估計。

但是在我們的模型中，加入了高斯設(shè)置，密度蒸餾方法只需要一個白噪聲樣本，然后將其輸入封閉的KL散度計算中。我們的學(xué)生IAF網(wǎng)絡(luò)在蒸餾過程中和老師WaveNet使用同一個條件網(wǎng)絡(luò)（2D卷積層）。

Text-to-Wave架構(gòu)

我們的卷積text-to-wave架構(gòu)如下圖所示：

它是基于另一個基于注意力的卷積TTS模型——Deep Voice 3創(chuàng)建的。Deep Voice 3能夠?qū)⑽谋咎卣鳎ɡ缱址?、音素、?qiáng)調(diào)等）轉(zhuǎn)換成波譜特征（例如log-mel聲譜和log-linear聲譜）。這些波普特征可以輸入到訓(xùn)練波形合成的模型中，例如WaveNet。相反，我們直接將從注意力機(jī)制中學(xué)習(xí)到的隱藏表示輸入到神經(jīng)語音編碼器中，用端到端的方式從零訓(xùn)練整個模型。

我們所提出的架構(gòu)包含四個部分：

編碼器：一個和Deep Voice 3相同的編碼器，它可以將文本特征編寫進(jìn)內(nèi)部的隱藏表示。

解碼器：同樣和Deep Voice 3相同，可以用自回歸的方式將編碼器中的內(nèi)容加碼城log-mel聲譜。

Bridge-net：這是一個卷積中間處理模塊，它可以從解碼器中處理隱藏表示，并且預(yù)測log-linear聲譜。與解碼器不同的是，它并非是因果聯(lián)系的，并且可以使用未來的語境。另外，它還可以從框架層到采樣層對隱藏表示進(jìn)行上采樣。

語音編碼器：高斯自回歸WaveNet可以合成波形，但是只能在上采樣后的隱藏表示中實(shí)現(xiàn)。而它可以由自回歸語音編碼器的學(xué)生IAF網(wǎng)絡(luò)替換。

實(shí)驗(yàn)過程

我們進(jìn)行了幾組實(shí)驗(yàn)來評估所提出的并行波形生成方法和text-to-wave結(jié)構(gòu)。我們用了20個小時的英文演講作為訓(xùn)練數(shù)據(jù)，下采樣后音頻變?yōu)?4kHz。

首先我們測試了生成語音的自然程度，用MOS分?jǐn)?shù)表示：

結(jié)果表示，高斯自回歸WaveNet和MoGul以及softmax輸出水平相當(dāng)，比MoL要好。

接著我們將一個60層的并行學(xué)生網(wǎng)絡(luò)從20層的高斯自回歸WaveNet中進(jìn)行蒸餾，它包括6個堆疊的高斯逆自回歸流，每個流都由一個10層的WaveNet進(jìn)行參數(shù)化。我們測試了前向和逆向KL散度，結(jié)果如下：

兩種蒸餾方法都得到了不錯的分?jǐn)?shù)，我們希望未來加入感知和對比損失后會進(jìn)一步提升。

最后我們從零訓(xùn)練了text-to-wave模型，并將其與Deep Voice 3中的同類模型相比，結(jié)果如下：

該分?jǐn)?shù)表明text-to-wave模型明顯比其他模型表現(xiàn)得好，并且有經(jīng)過蒸餾的語音編碼器的模型呢自回歸神經(jīng)編碼器的表現(xiàn)水平相當(dāng)。

結(jié)語

百度在語音合成方面的確做出了許多努力，今年三月，他們還推出了神經(jīng)語音克隆系統(tǒng)，只需輸入少量樣本就能合成逼真語音。而今天的ClariNet是語音合成的又一里程碑，是該領(lǐng)域第一個真正的端到端模型，在GPU上取得了更高質(zhì)量的結(jié)果。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3655

瀏覽量
134912
百度

百度

+關(guān)注

關(guān)注
9

文章
2275

瀏覽量
90572
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5511

瀏覽量
121355

原文標(biāo)題：語音合成的里程碑：百度推出首個完全端到端的TTS模型

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

中馬研究院正式掛牌成立

`　　12月30日下午，中馬研究院于園區(qū)正式掛牌成立，園區(qū)管委會副主任楊健豪、主任助理曹全來出席并為研究院揭牌，園區(qū)管委會經(jīng)濟(jì)發(fā)展局全體成員見證揭牌?！　≈旭R研究院旨在打造“立足中馬、面向東盟的新型

發(fā)表于 01-07 16:02

百度深度學(xué)習(xí)研究院科學(xué)家深度講解人工智能

的研發(fā)經(jīng)驗(yàn)。在過去的工作中，他發(fā)表過論文十余篇，申請中國專利超過100項(xiàng)，其中已經(jīng)授權(quán)的有95項(xiàng)。他曾任職百度深度學(xué)習(xí)研究院，負(fù)責(zé)人臉識別方向，曾經(jīng)多次帶領(lǐng)團(tuán)隊在主流的人臉檢測、人臉識別競賽上取得

發(fā)表于 07-19 10:01

前百度深度學(xué)習(xí)研究院科學(xué)家分享：機(jī)器視覺開發(fā)實(shí)戰(zhàn)經(jīng)驗(yàn)

其實(shí)就是計算機(jī)科學(xué)的一個分支，將來也是會成為人類社會基礎(chǔ)設(shè)施的一部分?，F(xiàn)在我們邀請來百度深度學(xué)習(xí)研究院科學(xué)家，為大家分享人工智能視覺開發(fā)的經(jīng)驗(yàn)。點(diǎn)擊報名直播觀看：http

發(fā)表于 07-20 11:06

延遲和指令呈現(xiàn)百度人工智能交互設(shè)計院的最新研究

有屏智能設(shè)備的多維對話：延遲和指令呈現(xiàn)百度人工智能交互設(shè)計院最新研究

發(fā)表于 05-25 09:46

王勁為何離開百度_百度的巨變真的和空降的陸奇有關(guān)？

和E-Loan等。2000年，王勁回到中國，歷任阿里巴巴資深技術(shù)總監(jiān)、EBay中國CTO，EBay中國研發(fā)中心總經(jīng)理、谷歌中國工程研究院副院長。2010年4月15日，王勁加入百度，任百度技術(shù)副總裁，2013年12月晉升為

發(fā)表于 12-24 14:22 ?1350次閱讀

百度最新AI算法就能克隆任何人的聲音！只需 3.7 秒!

Deep Voice是百度AI研究院一個由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的高質(zhì)量語音轉(zhuǎn)（TTS ）系統(tǒng)。該系統(tǒng)不僅提高的模擬的時間，百度還優(yōu)化了它出錯的概率。甚至還在一個單GPU服務(wù)器上，把推斷規(guī)模

發(fā)表于 04-02 10:55 ?1.5w次閱讀

百度推出NCRF算法，癌癥轉(zhuǎn)移檢測準(zhǔn)確率喜人

昨天，百度研究院宣布他們開發(fā)了一種深度學(xué)習(xí)算法，在檢測乳腺癌的微轉(zhuǎn)移方面超過了人類病理學(xué)醫(yī)生的表現(xiàn)。

發(fā)表于 06-26 15:25 ?5910次閱讀

前百度深度學(xué)習(xí)研究院科學(xué)家分享：機(jī)器視覺開發(fā)實(shí)戰(zhàn)！

具有16年的計算機(jī)視覺和人工智能方向的研發(fā)經(jīng)驗(yàn)，在過去的工作中，他發(fā)表過論文十余篇，申請中國專利超過100項(xiàng)，其中已經(jīng)授權(quán)的有95項(xiàng)。他曾任職百度深度學(xué)習(xí)研究院，負(fù)責(zé)人臉識別方向，曾經(jīng)多次帶領(lǐng)團(tuán)隊在主流的人臉檢測、

發(fā)表于 07-19 15:43 ?336次閱讀

百度研究院召開大會發(fā)現(xiàn)了窺視人工智能的新視角

10個月前，百度研究院在硅谷召開了一場全員大會，院長王海峰宣布了兩個新動態(tài)，一是設(shè)立商業(yè)智能實(shí)驗(yàn)室和機(jī)器人與自動駕駛實(shí)驗(yàn)室，二是Kenneth Ward Church、浣軍、熊輝三位世界級人工智能領(lǐng)域的科學(xué)家加盟百度

發(fā)表于 11-15 10:47 ?2144次閱讀

百度研究院迎來9位世界級AI科學(xué)家，深遠(yuǎn)布局前瞻性研究

2018-11-15 09:27 | 查看: 32 | 評論: 0 | 來自: 今日頭條摘要 : 作為百度發(fā)展人工智能的核心機(jī)構(gòu)，百度研究院又完成了一次重要的實(shí)力擴(kuò)充。美國當(dāng)?shù)貢r間11月13日

發(fā)表于 11-26 20:49 ?321次閱讀

百度再添9位世界級AI科學(xué)家加盟

美國時間11月13日，百度研究院在美國硅谷召開會議，宣布百度研究院顧問委員會正式成立，并宣布在2018年陸續(xù)迎來9位世界級科學(xué)家加盟。當(dāng)天，百度

發(fā)表于 03-01 17:23 ?784次閱讀

百度研究院對AI產(chǎn)業(yè)的預(yù)測

百度研究院發(fā)布2020十大科技趨勢預(yù)測，從2019年科技的蓬勃發(fā)展中提前展望2020。作為2019年度最受關(guān)注的科技熱詞之一，“AI”自然成為了焦點(diǎn)。百度

發(fā)表于 12-26 16:06 ?3769次閱讀

百度研究院2023科技趨勢預(yù)測發(fā)布

來源：百度AI 1月5日，百度研究院發(fā)布2023年十大科技趨勢預(yù)測，今年上榜的十大科技趨勢涵蓋了大模型生態(tài)、數(shù)實(shí)融合、虛實(shí)共生、自動駕駛、機(jī)器人、科學(xué)計算、量子計算、隱私計算、科技倫理

發(fā)表于 01-06 17:15 ?609次閱讀

百度研究院2023科技趨勢預(yù)測發(fā)布

來源：百度AI1月5日，百度研究院發(fā)布2023年十大科技趨勢預(yù)測，今年上榜的十大科技趨勢涵蓋了大模型生態(tài)、數(shù)實(shí)融合、虛實(shí)共生、自動駕駛、機(jī)器人、科學(xué)計算、量子計算、隱私計算、科技倫理和科技可持續(xù)發(fā)展

發(fā)表于 01-13 11:05 ?557次閱讀

百度蛋白大語言模型研究成果登上Nature子刊封面

百度最新研究成果登上Nature子刊封面，文心生物計算大模型獲國際頂刊認(rèn)可！

發(fā)表于 11-25 11:25 ?1288次閱讀

搜索歷史

百度研究院推出了他們有關(guān)TTS的成果——ClariNet

評論