微軟在Ignite會議上推出新的神經(jīng)文本-語音合成(TTS)利器!這項新服務(wù)生成的語音在節(jié)奏、語調(diào)和頓挫感上都幾乎和真人一樣,具備人類語音一樣的自然韻律和詞匯清晰度。目前該服務(wù)已經(jīng)發(fā)布預(yù)覽版,開發(fā)者可申請嘗鮮!
微軟在文本到語音合成方面達到了一個新的里程碑,利用深度神經(jīng)網(wǎng)絡(luò),使計算機合成的聲音幾乎與真人的錄音無法區(qū)分。合成的聲音具備和人類語音一樣的自然韻律和明確的詞匯清晰度,用戶在與AI系統(tǒng)進行交互時,可以顯著降低聽覺疲勞。
微軟技術(shù)院士、語音和語言團隊負(fù)責(zé)人黃學(xué)東(Xuedong Huang)表示:
語音是推動環(huán)境計算開發(fā)的新界面,因為語音識別已經(jīng)改變了我們的日常生活,從數(shù)字化助理、電子郵件和文檔內(nèi)容的聽寫、再到記錄演講和會議內(nèi)容。由于微軟多年來在語音識別方面的研究,以及一直處于最前沿的神經(jīng)網(wǎng)絡(luò)技術(shù)的跨越式進步,這些方案在今天仍然可行。
隨著微軟Azure GPU加速的虛擬機規(guī)模的不斷擴展,如ND v2使用的8路互聯(lián)NVIDIA Tesla V100 GPU以及基于Skylake的處理器,我們有可能快速提高大規(guī)模語音識別模型的訓(xùn)練速度,為Cortana,Skype翻譯,Windows和Office提供支持。期待這些服務(wù)的發(fā)布!“
黃學(xué)東
新文本-語音合成服務(wù)已經(jīng)可預(yù)覽,開發(fā)者可嘗鮮
黃學(xué)東表示,微軟的團隊本周在佛羅里達州奧蘭多舉行的Microsoft Ignite會議上展示了這個神經(jīng)網(wǎng)絡(luò)驅(qū)動的文本到語音合成功能。該功能目前可通過Azure Cognitive Services語音服務(wù)進行預(yù)覽。
該功能可以讓聊天機器人和虛擬助理的交互更自然、更具吸引力,比如將電子書等數(shù)字化文本轉(zhuǎn)換為有聲讀物,讓車載導(dǎo)航系統(tǒng)的功能更加強大等。
這項文本-語音轉(zhuǎn)換功能是微軟在過去兩年中取得的一系列突破之一,其他技術(shù)突破還包括在會話語音識別和機器翻譯中達到與人類大體相當(dāng)?shù)乃健?/p>
神經(jīng)文本到語音合成(TTS):聲音和真人一樣
微軟此次發(fā)布的文本到語音合成技術(shù),利用深度神經(jīng)網(wǎng)絡(luò)來克服傳統(tǒng)的文本到語音轉(zhuǎn)換系統(tǒng)的局限性,匹配口語中的語音頓挫和語調(diào)模式和韻律,并將語音單元合成為計算機語音。
傳統(tǒng)的文本到語音系統(tǒng)將韻律分解為單獨的語言分析和聲學(xué)預(yù)測,這些步驟分別由獨立模型控制。這可能導(dǎo)致合成后的語音結(jié)果過于低沉和嘈雜。微軟的系統(tǒng)能夠同時進行韻律預(yù)測和語音合成,合成的聲音更加流暢自然。
利用微軟Azure的計算能力,該服務(wù)可以提供實時流,這對于與聊天機器人或虛擬助手進行交互等場景是非常有用的。
微軟將在Azure Kubernetes服務(wù)中提供該功能。這可以確保了這一功能具備較高的高可擴展性和可用性,讓客戶能夠從單個端點使用基于神經(jīng)網(wǎng)絡(luò)的文本到語音轉(zhuǎn)換和傳統(tǒng)的文本到語音轉(zhuǎn)換服務(wù)。
目前預(yù)覽版的服務(wù)提供兩種預(yù)先構(gòu)建的英語文本-語音轉(zhuǎn)換服務(wù),有男女兩種聲音(Jessa和Guy)。未來即將推出更多語言,以及49種語言的定制服務(wù),為希望構(gòu)建針對其特定需求而優(yōu)化語音的客戶提供定制化服務(wù)。
文本-語音轉(zhuǎn)換服務(wù)的典型應(yīng)用場景
提高可訪問性:文本-語音轉(zhuǎn)換技術(shù)使得內(nèi)容所有者和發(fā)布者能夠響應(yīng)人們與其內(nèi)容交互的不同方式。憑借該技術(shù),視力有障礙或閱讀困難的人也能夠通過聽覺來消費內(nèi)容。語音輸出還能使人們在上下班或鍛煉時更容易通過移動設(shè)備上獲取文本內(nèi)容,比如報紙或博客。
多任務(wù)場景下的反應(yīng):文本-語音轉(zhuǎn)換技術(shù)讓人們能夠在駕駛時、或不便閱讀的環(huán)境中快速舒適地吸收重要信息。該領(lǐng)域的常見應(yīng)用是導(dǎo)航服務(wù)。
增強多模式學(xué)習(xí):不同的人有不同的最佳學(xué)習(xí)方式。在線學(xué)習(xí)專家發(fā)現(xiàn),同時提供語音和文本有助于讓信息更加易于學(xué)習(xí)。
開發(fā)認(rèn)知機器人和助理:對話能力可能是智能聊天機器人或虛擬助手的重要組成部分。越來越多的公司正在開發(fā)聊天機器人,為客戶提供引人入勝的服務(wù)體驗。該技術(shù)為聊天機器人和數(shù)字化助理的響應(yīng)方式增加了一個新的維度。
-
微軟
+關(guān)注
關(guān)注
4文章
6610瀏覽量
104159 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4773瀏覽量
100889
原文標(biāo)題:微軟文本-語音合成轉(zhuǎn)換技術(shù)新里程碑!完美再現(xiàn)真人聲調(diào)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論