科大訊飛日前在全球最具影響力的口語機(jī)器翻譯評測比賽IWSLT中,獲得了語音翻譯端到端模型評測的冠軍,還成為英德口語翻譯任務(wù)中唯一受邀做Oral report的參賽團(tuán)隊(duì)。端到端技術(shù)是當(dāng)前語音翻譯的研究前沿,科大訊飛聯(lián)合優(yōu)化語音識別和機(jī)器翻譯的新技術(shù)路線,理論上更具前景,一旦技術(shù)研究成功,將為翻譯機(jī)器性能的提升帶來極大促進(jìn)。
提問:語音翻譯涉及哪些步驟?
你或許會說,語音識別和機(jī)器翻譯——沒錯(cuò),傳統(tǒng)的語音翻譯通常采用語音識別和機(jī)器翻譯級聯(lián)的方式實(shí)現(xiàn),對輸入語音先進(jìn)行語音識別得到文本結(jié)果,然后再基于文本進(jìn)行機(jī)器翻譯,這也是當(dāng)前語音翻譯采用的主流方法。
不過,由于口語句子中含有大量非規(guī)范語言現(xiàn)象,例如重復(fù)、省略、顛倒,以及語義邏輯不清,斷句困難等問題,導(dǎo)致后續(xù)機(jī)器翻譯帶來嚴(yán)重的挑戰(zhàn)。此外,復(fù)雜環(huán)境下語音識別受發(fā)音人口音、環(huán)境噪聲,以及和語言中存在的同音詞、易混淆詞等復(fù)雜音素的影響也存在著識別錯(cuò)誤,對最終機(jī)器翻譯性能也可能帶來影響。
因此,實(shí)際應(yīng)用系統(tǒng)中,通常會在語音識別和機(jī)器翻譯之間增加一個(gè)語音識別后處理模塊,通過對識別結(jié)果進(jìn)行規(guī)整、斷句、順滑、標(biāo)點(diǎn)預(yù)測,甚至糾錯(cuò)來盡可能地減小口語化和識別錯(cuò)誤的影響。
不過,受語音和語言復(fù)雜性的影響,截止到目前為止,這些問題并沒有被真正解決。
在剛剛結(jié)束的2018年國際口語機(jī)器翻譯評測比賽(International Workshop on Spoken Language Translation,IWSLT)中,科大訊飛團(tuán)隊(duì)在端到端模型(End-to-End Model)的評測比賽中,以顯著優(yōu)勢奪得第一名。該獎(jiǎng)項(xiàng)也是科大訊飛今年在各項(xiàng)國際競賽中的第9個(gè)“世界冠軍”。
端到端語音翻譯技術(shù)路線,是通過構(gòu)造一個(gè)完整的神經(jīng)網(wǎng)絡(luò)模型,聯(lián)合優(yōu)化語音識別、識別后處理和機(jī)器翻譯,建立源語言語音信號到目標(biāo)語言文字的映射關(guān)系,進(jìn)而實(shí)現(xiàn)從原始語音到目標(biāo)譯文的翻譯。
這提供了一種解決語音翻譯的新思路,而且從目前看是初步可行的。一旦技術(shù)研究成功,理論上可以讓語音翻譯更準(zhǔn)更快,未來也將為翻譯機(jī)器性能的提升帶來極大促進(jìn)。
國際頂級口語機(jī)器翻譯評測比賽 IWSLT,推動(dòng)語音翻譯新方向
IWSLT是國際上最具影響力的口語機(jī)器翻譯評測比賽之一,重點(diǎn)關(guān)注口語,實(shí)現(xiàn)語音到文本的翻譯,從而解決人和人交流的問題。
到目前為止,IWSLT已經(jīng)舉辦了15屆,吸引了全球70多家科研團(tuán)隊(duì)的參與。IWSLT針對語音翻譯實(shí)際應(yīng)用面臨的難題,通過每年設(shè)定一些研究任務(wù),并向外界提供公開的數(shù)據(jù)集合和評測交流機(jī)會,吸引了來自全球的科研團(tuán)隊(duì)參與,對于推動(dòng)語音翻譯技術(shù)創(chuàng)新和知識共享具有重要的意義。
除了科大訊飛,IWSLT 2018吸引了世界各地多所機(jī)器翻譯領(lǐng)域的知名大學(xué)及研究所參加,包括英國愛丁堡大學(xué)(University of Edinburgh)、美國約翰霍普金斯大學(xué)(JHU)、德國卡爾斯魯厄理工學(xué)院(KIT)、意大利Bruno Kessler 基金會(FBK)、芬蘭赫爾辛基大學(xué)(Helsinki),以及國內(nèi)的阿里巴巴、搜狗等。
本次比賽包括兩個(gè)主要任務(wù),一是英語到德語演講場景下的語音翻譯任務(wù);二是巴斯克語到英語的低資源文本翻譯任務(wù)。
其中,在英語到德語的語音翻譯任務(wù)上,主辦方在今年提出了兩種評測方案:
傳統(tǒng)路線,也即語音識別、識別后處理、機(jī)器翻譯分而治之,稱之為基線模型(baseline Model);
端到端模型(End-to-end Model),將語音識別、識別后處理和機(jī)器翻譯統(tǒng)一起來聯(lián)合優(yōu)化,能夠在一定程度上避免傳統(tǒng)基線模型中存在的識別錯(cuò)誤擴(kuò)散等問題,是一種新的思路,理論上更具前景。
端到端模型是當(dāng)前口語翻譯研究領(lǐng)域的前沿,隨著深度學(xué)習(xí)的進(jìn)步,研究人員開始探索通過構(gòu)造一個(gè)完整的神經(jīng)網(wǎng)絡(luò)模型,建立語音信號到目標(biāo)文字的映射關(guān)系。
該方法通過將語音識別、識別后處理和機(jī)器翻譯統(tǒng)一起來聯(lián)合優(yōu)化,為解決傳統(tǒng)級聯(lián)方案分而治之中存在的難題提供了一種新的思路。例如,2017年Interspeech會議上,谷歌研究人員就將該方法應(yīng)用到西班牙到英語的語音翻譯任務(wù)上,取得初步成效。
引入這一新的評測方案,也體現(xiàn)了IWSLT主辦方引導(dǎo)科研探索,推動(dòng)語音翻譯技術(shù)不斷進(jìn)步的努力。
科大訊飛勇于挑戰(zhàn)新路線,端到端語音翻譯獲得第一
科大訊飛參與了口語翻譯的兩種評測,并且是唯一參與端到端模型這種新技術(shù)路線的中國團(tuán)隊(duì)。不僅如此,科大訊飛還作為唯一受組委會邀請的語音翻譯任務(wù)參賽團(tuán)隊(duì)、進(jìn)行Oral report,向與會人員分享兩種技術(shù)路線研究所采用的方法,對促進(jìn)語音翻譯新技術(shù)的進(jìn)步具有重要作用。
因?yàn)檎Z言和語音本身的復(fù)雜性,新技術(shù)路線對統(tǒng)一建模需要很強(qiáng)的語音處理能力和調(diào)序能力,加之語言本身受到口語表達(dá)、環(huán)境噪聲的干擾,所以端到端技術(shù)路線要實(shí)現(xiàn)從原始語音到目標(biāo)文本的翻譯,就是難上加難。
值得一提,賽事提供的公開數(shù)據(jù)集合中,能夠?yàn)槎说蕉四P头椒ㄌ峁┲苯拥挠斜O(jiān)督數(shù)據(jù)是小規(guī)模的。要在3個(gè)月的時(shí)間里,在小規(guī)模數(shù)據(jù)上構(gòu)建一套高性能的端到端語音翻譯系統(tǒng),非常具有挑戰(zhàn)性。
基于語音和機(jī)器翻譯上雄厚的技術(shù)積累,訊飛研究團(tuán)隊(duì)針對端到端語音翻譯任務(wù)開展了探索性研究,最終在英德語音翻譯任務(wù)的端到端模型評測方案上獲得了第一名(與第二名BLEU分?jǐn)?shù)拉開9個(gè)百分點(diǎn),一般而言,提升3個(gè)百分點(diǎn)就能明顯體會到系統(tǒng)的優(yōu)劣差異)。
不僅如此,在基線模型評測中,科大訊飛也取得了第二名的好成績。
“比賽的成績只是一方面,我們看重的是在源頭技術(shù)、新技術(shù)上進(jìn)行探索,”科大訊飛的研究人員表示。
“我們參加了本次IWSLT評測的語音翻譯任務(wù),在基于傳統(tǒng)的基線模型中,針對語音識別文本結(jié)果和機(jī)器翻譯訓(xùn)練數(shù)據(jù)源語言文本風(fēng)格不匹配問題,提出了對源語言文本逆變換以適配識別風(fēng)格的方法,提高了語音翻譯的魯棒性。在端到端模型中,提出了基于DenseNet和BiLSTM編碼,以及基于自注意力機(jī)制解碼的端到端建模方案。實(shí)驗(yàn)結(jié)果表明,盡管當(dāng)前端到端模型的效果低于傳統(tǒng)方法,但從結(jié)果來看也證明該方法具有一定的可行性,整體系統(tǒng)框架也更加簡潔優(yōu)雅,有望為語音翻譯提供一種新的解決思路?!?/p>
客觀評價(jià)語音翻譯端到端技術(shù),數(shù)據(jù)將是一大瓶頸和障礙,因?yàn)檎Z音識別的數(shù)據(jù)已積累了上十萬小時(shí)、機(jī)器翻譯的數(shù)據(jù)搜集也達(dá)到千萬甚至上億,但端到端的模型,需要專門的語音到文本的句對,這方面的數(shù)據(jù)目前積累不夠,若要商業(yè)化,還需要更大的數(shù)據(jù)支撐。
對此,科大訊飛研究團(tuán)隊(duì)表示,“由于語音翻譯任務(wù)的復(fù)雜性以及訓(xùn)練數(shù)據(jù)搜集的困難,無論傳統(tǒng)的基線模型方案還是最新提出的端到端語音翻譯方案,在實(shí)際應(yīng)用中都還面臨一系列的難題,需要學(xué)術(shù)界和產(chǎn)業(yè)界共同努力?!?/p>
至于端到端的新技術(shù),“如果能減少對有監(jiān)督語音翻譯平行數(shù)據(jù)的依賴那是最好不過,而且這存在一定的可能性,例如可以嘗試借用現(xiàn)有的語音識別訓(xùn)練數(shù)據(jù)和機(jī)器翻譯訓(xùn)練數(shù)據(jù),我們正在努力探索?!?/p>
-
語音識別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112717 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14914 -
科大訊飛
+關(guān)注
關(guān)注
19文章
808瀏覽量
61334
原文標(biāo)題:語音翻譯也能端到端?深度學(xué)習(xí)這條路有戲!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論