0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于語(yǔ)音合成的類別以及應(yīng)用分析

訊飛開放平臺(tái) ? 來源:djl ? 作者:汪艦 ? 2019-10-08 08:41 ? 次閱讀

語(yǔ)音合成又叫文語(yǔ)轉(zhuǎn)換,是將文本轉(zhuǎn)換成語(yǔ)音的一種技術(shù),是人機(jī)交互中必不可少的一個(gè)環(huán)節(jié)。隨著技術(shù)的發(fā)展,現(xiàn)在合成語(yǔ)音的自然度和音質(zhì)都得到了明顯的改善。汽車導(dǎo)航內(nèi)嵌的語(yǔ)音系統(tǒng)、智能手機(jī)語(yǔ)音助手、讀書軟件等等,這些應(yīng)用的實(shí)現(xiàn)都離不開語(yǔ)音合成。時(shí)下熱門的AR、機(jī)器人、可穿戴設(shè)備等也為語(yǔ)音合成技術(shù)落地提供了更廣闊的市場(chǎng)。

不過,當(dāng)前語(yǔ)音合成技術(shù)還有很多痛點(diǎn)急需要解決,讓機(jī)器擁有自然、有情感的聲音,依舊是語(yǔ)音合成技術(shù)最大的難點(diǎn)。語(yǔ)音合成的現(xiàn)狀是怎樣?一個(gè)優(yōu)質(zhì)合成音是怎樣誕生的?AI浪潮下,你可以如何玩轉(zhuǎn)語(yǔ)音合成?AI公開課第一期,我們?yōu)槟阏?qǐng)到科大訊飛云平臺(tái)技術(shù)服務(wù)專家——汪艦為你解答這些問題。

什么是語(yǔ)音合成

語(yǔ)音合成也叫文語(yǔ)轉(zhuǎn)換(Text-To-Speech),簡(jiǎn)稱TTS,簡(jiǎn)單理解就是“讓機(jī)器說人話”。

語(yǔ)音合成用在哪里

別看語(yǔ)音合成技術(shù)近年來才被廣泛應(yīng)用,實(shí)際它已經(jīng)有兩百多年的歷史了。

那么語(yǔ)音合成都在我們生活中的哪些地方出現(xiàn)過呢?我總結(jié)了三個(gè)方面:

第一個(gè)是APP,比如QQ閱讀這樣的讀書應(yīng)用,滴滴出行高德導(dǎo)航這種導(dǎo)航播報(bào)類的app;還有以siri為代表的語(yǔ)音助手,都是語(yǔ)音合成功能的常見載體;

另外一類是智能硬件產(chǎn)品,比如非?;鸬臋C(jī)器人領(lǐng)域,我們都希望機(jī)器人可以像真人一樣和我們進(jìn)行交流,所以合成功能基本就是他們的必備能力。

還有一些特殊領(lǐng)域也非常需要語(yǔ)音合成,比如視障閱讀,對(duì)于視障人士來說,聽書比摸書要高效得多。

語(yǔ)音合成里的技術(shù)門派

將語(yǔ)音合成技術(shù)門派按武俠風(fēng)格可以劃分為:氣宗和劍宗。想當(dāng)年氣宗草創(chuàng)之初,創(chuàng)始人的想法很簡(jiǎn)單,人怎么發(fā)聲的我就讓機(jī)器怎么發(fā)聲,基本就是山寨人體的思路。

但是有撥人認(rèn)為,氣宗這么搞沒有前途,而且成效太慢,可操作性太差了,這撥人就是劍宗。劍宗表示,我們完全可以直接找人把語(yǔ)音里面所有的基礎(chǔ)片段都錄好,然后按照需要直接拼就行了。

技術(shù)門派之氣宗

先來看看氣宗具體是怎么玩的:他們用氣囊代替肺,接根管子代替氣管,管子末端再裝個(gè)氣門代替聲帶,氣門后面再裝個(gè)橡膠做的碗狀結(jié)構(gòu)來模擬口腔。

這套系統(tǒng)的操作非常簡(jiǎn)單,一只手掐住脖子就是氣門,控制基頻高低;另一只手操作口腔就是那個(gè)橡膠碗,控制發(fā)什么音;剩下的那個(gè)用來模擬肺的氣囊就只能用腳來踩了。

基頻又是什么呢? 讓我們舉個(gè)簡(jiǎn)單的例子,漢語(yǔ)普通話除輕聲以外有四種聲調(diào),2聲的基頻就是前低后高,4聲的前高后低,3聲是先高后低再高。掐氣門的手捏得越緊,聲道越窄,振動(dòng)的基頻就越高。不過這當(dāng)個(gè)發(fā)明愛好還可以,實(shí)際用起來肯定不靠譜。但是隨著科學(xué)的發(fā)展,計(jì)算機(jī)技術(shù)開始出現(xiàn),逐漸普及,給很多領(lǐng)域都帶來了全新的變化,語(yǔ)音合成當(dāng)然也不例外。

技術(shù)門派之劍宗

劍宗表示,我們完全可以直接找人把語(yǔ)音里面所有的基礎(chǔ)片段都錄好,按照需要直接拼就行了。這個(gè)基礎(chǔ)片段可長(zhǎng)可短,可以是音素,可以是音節(jié),甚至是聲韻母的拼音。這種方法對(duì)人的要求就簡(jiǎn)單多了,基本上會(huì)拼圖就能操作,所以也比較速成。

但是在沒有計(jì)算機(jī)的時(shí)代,大量單元的管理和拼接是很麻煩的工作,所以每個(gè)基礎(chǔ)單元一般只保存了較少的樣例供選擇。那么在合成千變?nèi)f化的句子的時(shí)候,語(yǔ)音的起承轉(zhuǎn)合難免就有些生硬和突兀,拼出來的語(yǔ)音雖然能讓人聽懂,但很難做到自然流暢。

計(jì)算機(jī)出現(xiàn)后這個(gè)問題得到有效的解決,有了計(jì)算和存儲(chǔ)能力更大的計(jì)算機(jī),他們就可以進(jìn)行超大規(guī)模音庫(kù)的制作,包括語(yǔ)料設(shè)計(jì)、音庫(kù)錄制、精細(xì)切分、韻律標(biāo)注;同時(shí)進(jìn)行規(guī)則統(tǒng)計(jì),以此來針對(duì)不同發(fā)音人進(jìn)行細(xì)致調(diào)整。這樣合成出來的音頻音質(zhì)比較好,一般句子的自然度也不錯(cuò)。

所以在此后很長(zhǎng)一段時(shí)間,劍宗對(duì)氣宗在合成音的音質(zhì)上占據(jù)了絕對(duì)優(yōu)勢(shì),氣宗只在嵌入式的小系統(tǒng)上保留著一小塊領(lǐng)地。這種狀況直到后來氣宗成功引入了在語(yǔ)音識(shí)別領(lǐng)域大放異彩的HMM(隱馬爾科夫模型)才得到根本改善。

語(yǔ)音合成技術(shù)痛點(diǎn)是什么

從合成的發(fā)展歷史來看,表現(xiàn)力、音質(zhì)、復(fù)雜度和自然度一直是合成技術(shù)所追求的四點(diǎn)。其中隨著技術(shù)的演進(jìn),復(fù)雜度、自然度、音質(zhì)三個(gè)方面都已經(jīng)取得了非常不錯(cuò)的成績(jī)。目前各大技術(shù)提供商更多的是在研究如何提高合成音的表現(xiàn)力,特別是語(yǔ)氣和情感方面。

一條音頻是如何合成出來的

這里其實(shí)包括了兩個(gè)過程,一個(gè)是語(yǔ)音庫(kù)的制作過程,一個(gè)是使用語(yǔ)音庫(kù)將文本變成音頻的過程。語(yǔ)音庫(kù)的制作首先需要收集客戶的需求,確定音色、風(fēng)格、使用領(lǐng)域、產(chǎn)品特性、角色要求;然后找到配音員試音,根據(jù)需求設(shè)計(jì)試音文本,收集錄音,通過實(shí)驗(yàn)分析確定發(fā)音人是否合適做音庫(kù);然后和客戶確認(rèn)實(shí)驗(yàn)效果是否能接受;最后投入音庫(kù)生產(chǎn)線,錄音腳本設(shè)計(jì)、錄音資源訓(xùn)練、效果優(yōu)化。

然后看一下真正的合成過程:輸入文本后首先需要按照詞典規(guī)則對(duì)文本進(jìn)行語(yǔ)言處理,主要模擬人對(duì)自然語(yǔ)言的理解過程,包括文本規(guī)整、詞的切分、語(yǔ)法語(yǔ)義分析,使計(jì)算機(jī)對(duì)輸入的文本能完全理解,并給出后續(xù)步驟所需要的各種發(fā)音提示。然后是韻律處理,就是為合成語(yǔ)音規(guī)劃出音段特征,如音高、音長(zhǎng)和音強(qiáng)等,使合成語(yǔ)音能正確表達(dá)語(yǔ)意,聽起來更加自然。最后根據(jù)前兩部分處理結(jié)果的要求輸出語(yǔ)音,即合成語(yǔ)音。

語(yǔ)音合成優(yōu)秀案例解析

QQ閱讀演示視頻

小程序:AI隨身聽 演示視頻

訊飛開放平臺(tái)的語(yǔ)音合成技術(shù)

訊飛開放平臺(tái)目前以SDK的形式提供語(yǔ)音合成能力

目前提供支持8個(gè)平臺(tái)的合成SDK,免費(fèi)開放36個(gè)在線發(fā)音人,還有15個(gè)離線發(fā)音人可供購(gòu)買使用,其中發(fā)音人xiaoyuan更是支持中英文混合合成。支持各種語(yǔ)言方言13種。另外對(duì)于有特殊要求的產(chǎn)品,我們還提供特色發(fā)音人的定制服務(wù),例如很多小伙伴比較熟悉的高德地圖林志玲的聲音,還有之前PPT出現(xiàn)龍泉寺賢二的發(fā)音人。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7534

    瀏覽量

    88531
  • 語(yǔ)音合成
    +關(guān)注

    關(guān)注

    2

    文章

    90

    瀏覽量

    16185
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8908

    瀏覽量

    137715
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于W2605C語(yǔ)音識(shí)別合成芯片的智能語(yǔ)音交互鬧鐘方案-AI對(duì)話享受智能生活

    隨著科技的飛速發(fā)展,智能家居產(chǎn)品正逐步滲透到我們的日常生活中,其中智能鬧鐘作為時(shí)間管理的得力助手,也在不斷進(jìn)化。基于W2605C語(yǔ)音識(shí)別與語(yǔ)音合成芯片的智能語(yǔ)音交互鬧鐘,憑借其強(qiáng)大的聯(lián)
    的頭像 發(fā)表于 12-31 11:54 ?133次閱讀

    智能語(yǔ)音的驅(qū)動(dòng)力:揭秘8腳語(yǔ)音芯片在智能設(shè)備中的非凡角色

    語(yǔ)音技術(shù)滲透生活,8腳語(yǔ)音芯片以微縮體積、低功耗、卓越性能成智能設(shè)備語(yǔ)音功能核心,集成識(shí)別、合成、壓縮解碼等功能,實(shí)現(xiàn)精準(zhǔn)語(yǔ)音交互,讓設(shè)備更
    的頭像 發(fā)表于 12-02 14:23 ?203次閱讀

    九芯語(yǔ)音合成芯片NVH-FLASH,看這一篇足矣!

    前言什么是語(yǔ)音合成芯片:簡(jiǎn)而言之,就是將文字信息轉(zhuǎn)化為語(yǔ)音信號(hào)輸出的電子器件。它能夠?qū)⒋鎯?chǔ)或接收到的文字內(nèi)容,通過內(nèi)部復(fù)雜的算法處理,轉(zhuǎn)換成自然流暢的語(yǔ)音,實(shí)現(xiàn)人機(jī)之間的
    的頭像 發(fā)表于 11-21 01:01 ?235次閱讀
    九芯<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>芯片NVH-FLASH,看這一篇足矣!

    語(yǔ)音集成電路是指什么意思

    系統(tǒng)、智能家居等領(lǐng)域。以下是關(guān)于語(yǔ)音集成電路的介紹: 1. 語(yǔ)音集成電路的基本概念 語(yǔ)音集成電路是一種集成了多種語(yǔ)音處理功能的電子芯片。它能
    的頭像 發(fā)表于 09-30 15:44 ?426次閱讀

    語(yǔ)音集成電路有哪些特點(diǎn)

    各種應(yīng)用中都非常有用,包括智能手機(jī)、智能音箱、汽車導(dǎo)航系統(tǒng)、醫(yī)療設(shè)備和安全系統(tǒng)等。 以下是關(guān)于語(yǔ)音集成電路特點(diǎn)的分析: 集成度高 :語(yǔ)音集成電路將多個(gè)功能集成在一個(gè)芯片上,這樣可以減少
    的頭像 發(fā)表于 09-30 15:43 ?331次閱讀

    中英文語(yǔ)音合成芯片(TTS芯片)WT3000T8-在ETC上的應(yīng)用案例

    隨著智能化浪潮的推進(jìn),ETC(電子不停車收費(fèi))系統(tǒng)已逐漸成為現(xiàn)代交通的重要組成部分。在這一背景下,唯創(chuàng)知音自主研發(fā)的WT3000T8中文轉(zhuǎn)語(yǔ)音合成芯片(TTS芯片)以其卓越的性能和廣泛的應(yīng)用前景,為ETC系統(tǒng)帶來了前所未有的智能體驗(yàn)。
    的頭像 發(fā)表于 05-28 09:47 ?489次閱讀

    為什么說TTS語(yǔ)音合成芯片的廣泛應(yīng)用,低功耗才是關(guān)鍵

    引言 在智能硬件日益普及的今天,每一點(diǎn)能量的節(jié)約都是科技進(jìn)步的象征。尤其在語(yǔ)音合成芯片領(lǐng)域,如何在保證高性能輸出的同時(shí),實(shí)現(xiàn)能耗的最小化,是眾多開發(fā)者不懈追求的目標(biāo)。 今天,我們來揭秘智能休眠機(jī)制
    的頭像 發(fā)表于 05-21 10:03 ?626次閱讀

    【解讀】VTX316 TTS語(yǔ)音合成芯片幾個(gè)很實(shí)用的應(yīng)用技巧

    ? 前言 VTX316是北京宇音天下科技有限公司最新推出的一款更具性價(jià)比的中文TTS語(yǔ)音合成芯片,采用QFN32(4*4mm)封裝,體積更加精巧,文本合成一次高達(dá)500字節(jié)數(shù)據(jù)(250個(gè)漢字),支持
    的頭像 發(fā)表于 05-13 16:33 ?484次閱讀

    20多年專注語(yǔ)音合成芯片公司分享:TTS芯片端是如何達(dá)到100%精準(zhǔn)合成

    我國(guó)漢字文化博大精深,雖然現(xiàn)在語(yǔ)音合成技術(shù)發(fā)展較為成熟,但仍無法做到100%的智能分析和識(shí)別,來滿足人們的需求習(xí)慣。 例如漢字“一”,在不同語(yǔ)境下有3種讀法,“一五一十”“一路平安”“一言為定
    的頭像 發(fā)表于 05-06 15:45 ?663次閱讀

    stm32f0怎么不使用語(yǔ)音IC做合成語(yǔ)音?

    我這邊板子就一個(gè)功放電路,要求不使用語(yǔ)音IC做語(yǔ)音,我聽別人說去了解MP3這一方面,但我只找到MCU軟解碼,但我怎么不了解,不清楚怎么做成自己的語(yǔ)音,要的是語(yǔ)音,不是歌曲
    發(fā)表于 04-25 06:00

    WT3000T8-TTS語(yǔ)音合成芯片及應(yīng)用場(chǎng)景介紹

    TTS語(yǔ)音合成芯片是一種能夠?qū)⑽谋拘畔⑥D(zhuǎn)化為自然語(yǔ)音的專用芯片。它通過內(nèi)置的語(yǔ)音合成算法和音頻處理單元,實(shí)現(xiàn)了文本到
    的頭像 發(fā)表于 04-18 18:03 ?949次閱讀

    玩轉(zhuǎn)語(yǔ)音合成芯片(TTS芯片),看這一篇就夠了

    什么是語(yǔ)音合成芯片:語(yǔ)音合成芯片也稱為TTS芯片,即文字轉(zhuǎn)語(yǔ)音芯片,是一種能夠?qū)⑤斎氲奈淖中畔⑥D(zhuǎn)換為語(yǔ)音
    的頭像 發(fā)表于 03-19 18:13 ?1508次閱讀
    玩轉(zhuǎn)<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>芯片(TTS芯片),看這一篇就夠了

    語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著智能駕駛技術(shù)的不斷發(fā)展,人機(jī)交互變得越來越重要。語(yǔ)音合成技術(shù)作為人機(jī)交互的重要手段,在智能駕駛中發(fā)揮著越來越重要的作用。本文將探討語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用,并
    的頭像 發(fā)表于 02-02 10:34 ?456次閱讀

    語(yǔ)音合成技術(shù)在智能駕駛中的創(chuàng)新與應(yīng)用

    一、引言 隨著智能駕駛技術(shù)的不斷發(fā)展,人機(jī)交互變得越來越重要。語(yǔ)音合成技術(shù)作為人機(jī)交互的重要手段,在智能駕駛中發(fā)揮著越來越重要的作用。本文將探討語(yǔ)音合成技術(shù)在智能駕駛中的創(chuàng)新與應(yīng)用,并
    的頭像 發(fā)表于 02-01 18:09 ?705次閱讀

    語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用與展望

    體驗(yàn)。本文將探討語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用、優(yōu)勢(shì)以及未來發(fā)展趨勢(shì)。 二、語(yǔ)音合成技術(shù)在智能駕駛中的應(yīng)用 導(dǎo)航與路線指引:通過
    的頭像 發(fā)表于 02-01 17:50 ?576次閱讀