語(yǔ)音合成又叫文語(yǔ)轉(zhuǎn)換,是將文本轉(zhuǎn)換成語(yǔ)音的一種技術(shù),是人機(jī)交互中必不可少的一個(gè)環(huán)節(jié)。隨著技術(shù)的發(fā)展,現(xiàn)在合成語(yǔ)音的自然度和音質(zhì)都得到了明顯的改善。汽車導(dǎo)航內(nèi)嵌的語(yǔ)音系統(tǒng)、智能手機(jī)語(yǔ)音助手、讀書軟件等等,這些應(yīng)用的實(shí)現(xiàn)都離不開語(yǔ)音合成。時(shí)下熱門的AR、機(jī)器人、可穿戴設(shè)備等也為語(yǔ)音合成技術(shù)落地提供了更廣闊的市場(chǎng)。
不過,當(dāng)前語(yǔ)音合成技術(shù)還有很多痛點(diǎn)急需要解決,讓機(jī)器擁有自然、有情感的聲音,依舊是語(yǔ)音合成技術(shù)最大的難點(diǎn)。語(yǔ)音合成的現(xiàn)狀是怎樣?一個(gè)優(yōu)質(zhì)合成音是怎樣誕生的?AI浪潮下,你可以如何玩轉(zhuǎn)語(yǔ)音合成?AI公開課第一期,我們?yōu)槟阏?qǐng)到科大訊飛云平臺(tái)技術(shù)服務(wù)專家——汪艦為你解答這些問題。
什么是語(yǔ)音合成
語(yǔ)音合成也叫文語(yǔ)轉(zhuǎn)換(Text-To-Speech),簡(jiǎn)稱TTS,簡(jiǎn)單理解就是“讓機(jī)器說人話”。
語(yǔ)音合成用在哪里
別看語(yǔ)音合成技術(shù)近年來才被廣泛應(yīng)用,實(shí)際它已經(jīng)有兩百多年的歷史了。
那么語(yǔ)音合成都在我們生活中的哪些地方出現(xiàn)過呢?我總結(jié)了三個(gè)方面:
第一個(gè)是APP,比如QQ閱讀這樣的讀書應(yīng)用,滴滴出行高德導(dǎo)航這種導(dǎo)航播報(bào)類的app;還有以siri為代表的語(yǔ)音助手,都是語(yǔ)音合成功能的常見載體;
另外一類是智能硬件產(chǎn)品,比如非?;鸬臋C(jī)器人領(lǐng)域,我們都希望機(jī)器人可以像真人一樣和我們進(jìn)行交流,所以合成功能基本就是他們的必備能力。
還有一些特殊領(lǐng)域也非常需要語(yǔ)音合成,比如視障閱讀,對(duì)于視障人士來說,聽書比摸書要高效得多。
語(yǔ)音合成里的技術(shù)門派
將語(yǔ)音合成技術(shù)門派按武俠風(fēng)格可以劃分為:氣宗和劍宗。想當(dāng)年氣宗草創(chuàng)之初,創(chuàng)始人的想法很簡(jiǎn)單,人怎么發(fā)聲的我就讓機(jī)器怎么發(fā)聲,基本就是山寨人體的思路。
但是有撥人認(rèn)為,氣宗這么搞沒有前途,而且成效太慢,可操作性太差了,這撥人就是劍宗。劍宗表示,我們完全可以直接找人把語(yǔ)音里面所有的基礎(chǔ)片段都錄好,然后按照需要直接拼就行了。
技術(shù)門派之氣宗
先來看看氣宗具體是怎么玩的:他們用氣囊代替肺,接根管子代替氣管,管子末端再裝個(gè)氣門代替聲帶,氣門后面再裝個(gè)橡膠做的碗狀結(jié)構(gòu)來模擬口腔。
這套系統(tǒng)的操作非常簡(jiǎn)單,一只手掐住脖子就是氣門,控制基頻高低;另一只手操作口腔就是那個(gè)橡膠碗,控制發(fā)什么音;剩下的那個(gè)用來模擬肺的氣囊就只能用腳來踩了。
基頻又是什么呢? 讓我們舉個(gè)簡(jiǎn)單的例子,漢語(yǔ)普通話除輕聲以外有四種聲調(diào),2聲的基頻就是前低后高,4聲的前高后低,3聲是先高后低再高。掐氣門的手捏得越緊,聲道越窄,振動(dòng)的基頻就越高。不過這當(dāng)個(gè)發(fā)明愛好還可以,實(shí)際用起來肯定不靠譜。但是隨著科學(xué)的發(fā)展,計(jì)算機(jī)技術(shù)開始出現(xiàn),逐漸普及,給很多領(lǐng)域都帶來了全新的變化,語(yǔ)音合成當(dāng)然也不例外。
技術(shù)門派之劍宗
劍宗表示,我們完全可以直接找人把語(yǔ)音里面所有的基礎(chǔ)片段都錄好,按照需要直接拼就行了。這個(gè)基礎(chǔ)片段可長(zhǎng)可短,可以是音素,可以是音節(jié),甚至是聲韻母的拼音。這種方法對(duì)人的要求就簡(jiǎn)單多了,基本上會(huì)拼圖就能操作,所以也比較速成。
但是在沒有計(jì)算機(jī)的時(shí)代,大量單元的管理和拼接是很麻煩的工作,所以每個(gè)基礎(chǔ)單元一般只保存了較少的樣例供選擇。那么在合成千變?nèi)f化的句子的時(shí)候,語(yǔ)音的起承轉(zhuǎn)合難免就有些生硬和突兀,拼出來的語(yǔ)音雖然能讓人聽懂,但很難做到自然流暢。
計(jì)算機(jī)出現(xiàn)后這個(gè)問題得到有效的解決,有了計(jì)算和存儲(chǔ)能力更大的計(jì)算機(jī),他們就可以進(jìn)行超大規(guī)模音庫(kù)的制作,包括語(yǔ)料設(shè)計(jì)、音庫(kù)錄制、精細(xì)切分、韻律標(biāo)注;同時(shí)進(jìn)行規(guī)則統(tǒng)計(jì),以此來針對(duì)不同發(fā)音人進(jìn)行細(xì)致調(diào)整。這樣合成出來的音頻音質(zhì)比較好,一般句子的自然度也不錯(cuò)。
所以在此后很長(zhǎng)一段時(shí)間,劍宗對(duì)氣宗在合成音的音質(zhì)上占據(jù)了絕對(duì)優(yōu)勢(shì),氣宗只在嵌入式的小系統(tǒng)上保留著一小塊領(lǐng)地。這種狀況直到后來氣宗成功引入了在語(yǔ)音識(shí)別領(lǐng)域大放異彩的HMM(隱馬爾科夫模型)才得到根本改善。
語(yǔ)音合成技術(shù)痛點(diǎn)是什么
從合成的發(fā)展歷史來看,表現(xiàn)力、音質(zhì)、復(fù)雜度和自然度一直是合成技術(shù)所追求的四點(diǎn)。其中隨著技術(shù)的演進(jìn),復(fù)雜度、自然度、音質(zhì)三個(gè)方面都已經(jīng)取得了非常不錯(cuò)的成績(jī)。目前各大技術(shù)提供商更多的是在研究如何提高合成音的表現(xiàn)力,特別是語(yǔ)氣和情感方面。
一條音頻是如何合成出來的
這里其實(shí)包括了兩個(gè)過程,一個(gè)是語(yǔ)音庫(kù)的制作過程,一個(gè)是使用語(yǔ)音庫(kù)將文本變成音頻的過程。語(yǔ)音庫(kù)的制作首先需要收集客戶的需求,確定音色、風(fēng)格、使用領(lǐng)域、產(chǎn)品特性、角色要求;然后找到配音員試音,根據(jù)需求設(shè)計(jì)試音文本,收集錄音,通過實(shí)驗(yàn)分析確定發(fā)音人是否合適做音庫(kù);然后和客戶確認(rèn)實(shí)驗(yàn)效果是否能接受;最后投入音庫(kù)生產(chǎn)線,錄音腳本設(shè)計(jì)、錄音資源訓(xùn)練、效果優(yōu)化。
然后看一下真正的合成過程:輸入文本后首先需要按照詞典規(guī)則對(duì)文本進(jìn)行語(yǔ)言處理,主要模擬人對(duì)自然語(yǔ)言的理解過程,包括文本規(guī)整、詞的切分、語(yǔ)法語(yǔ)義分析,使計(jì)算機(jī)對(duì)輸入的文本能完全理解,并給出后續(xù)步驟所需要的各種發(fā)音提示。然后是韻律處理,就是為合成語(yǔ)音規(guī)劃出音段特征,如音高、音長(zhǎng)和音強(qiáng)等,使合成語(yǔ)音能正確表達(dá)語(yǔ)意,聽起來更加自然。最后根據(jù)前兩部分處理結(jié)果的要求輸出語(yǔ)音,即合成語(yǔ)音。
語(yǔ)音合成優(yōu)秀案例解析
QQ閱讀演示視頻
小程序:AI隨身聽 演示視頻
訊飛開放平臺(tái)的語(yǔ)音合成技術(shù)
訊飛開放平臺(tái)目前以SDK的形式提供語(yǔ)音合成能力
目前提供支持8個(gè)平臺(tái)的合成SDK,免費(fèi)開放36個(gè)在線發(fā)音人,還有15個(gè)離線發(fā)音人可供購(gòu)買使用,其中發(fā)音人xiaoyuan更是支持中英文混合合成。支持各種語(yǔ)言方言13種。另外對(duì)于有特殊要求的產(chǎn)品,我們還提供特色發(fā)音人的定制服務(wù),例如很多小伙伴比較熟悉的高德地圖林志玲的聲音,還有之前PPT出現(xiàn)龍泉寺賢二的發(fā)音人。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7534瀏覽量
88531 -
語(yǔ)音合成
+關(guān)注
關(guān)注
2文章
90瀏覽量
16185 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8908瀏覽量
137715
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論