摘要:近年來,機器翻譯等語言智能技術(shù)迅猛發(fā)展,語言智能技術(shù)落地、機器翻譯替代人工、外語教育存廢、外語教學改革等,成為社會熱議話題。外語教育如何將語言智能的挑戰(zhàn)作為轉(zhuǎn)型的契機更好發(fā)展?怎樣理性認識語言智能技術(shù)的發(fā)展未來?聚焦"語言智能與外語教育協(xié)同發(fā)展",自動化所宗成慶研究員這樣說......
如何突破語言障礙,讓機器完成不同語言之間的自動翻譯,最終實現(xiàn)任意時間、任意地點、任意語言之間的無障礙自由通信,是人類長期以來的夢想。
近年來,隨著計算機性能的提高,云計算、大數(shù)據(jù)和機器學習等相關(guān)技術(shù)迅速發(fā)展,人工智能再度崛起,機器翻譯重新成為人們關(guān)注的焦點。一時間,機器翻譯系統(tǒng)如雨后春筍般涌現(xiàn),各種報道隨之呈井噴式爆發(fā),"機器翻譯將取代人類"的說法也時有耳聞。然而,機器翻譯的真實水平如何,夢想與現(xiàn)實的距離到底有多遠?
從低迷到興盛
機器翻譯概念于1947年被提出,隨后成為人工智能研究的核心問題。在70多年的發(fā)展歷程中,機器翻譯研究經(jīng)歷了幾個不同的歷史階段:
從概念提出到1954年美國喬治敦大學(GeorgetownUniversity)在IBM公司的幫助下實現(xiàn)第一個機器翻譯演示系統(tǒng),可以認為是機器翻譯的初創(chuàng)時期。
1966年,美國國家科學院語言自動處理咨詢委員會(AutomaticLanguageProcessingAdvisoryCommittee,ALPAC)發(fā)布題為《語言與機器》的報告,宣稱"目前給機器翻譯研究以大力支持沒有太多的理由","機器翻譯遇到了難以克服的語義障礙",從而導(dǎo)致機器翻譯研究在世界范圍內(nèi)走向低迷。
20世紀70年代中后期至80年代前期,部分機器翻譯系統(tǒng)在特定領(lǐng)域得到初步應(yīng)用(如加拿大蒙特利爾大學研制的天氣預(yù)報翻譯系統(tǒng)TAUM-METEO)。歐洲共同體實施的歐洲翻譯體系(EuropeanTranslationSystem,EUROTRA)計劃和日本對第五代計算機的研究都對機器翻譯研究給予了支持,機器翻譯研究開始復(fù)蘇。
20世紀80年代末期,IBM公司實現(xiàn)了基于噪聲信道模型的統(tǒng)計機器翻譯系統(tǒng),并在美國國防部高級研究計劃署(ARPA)組織的評測中取得了較好成績,推動了機器翻譯技術(shù)的快速發(fā)展。尤其進入2000年之后,GIZA++、Pharaoh、Moses等一批開源工具相繼發(fā)布,2006年谷歌翻譯正式上線運行,2011年百度翻譯上線,各大公司陸續(xù)推出了自己的翻譯系統(tǒng),整個機器翻譯領(lǐng)域呈現(xiàn)出蓬勃發(fā)展、遍地開花的大好局面。
2013年基于神經(jīng)網(wǎng)絡(luò)模型的機器翻譯(簡稱"神經(jīng)機器翻譯")方法被提出,機器譯文的質(zhì)量得到大幅提升,并且很多開源工具被相繼公布,機器翻譯技術(shù)研究和系統(tǒng)推廣應(yīng)用均出現(xiàn)前所未有的盛況。統(tǒng)計機器翻譯和神經(jīng)機器翻譯的基本原理都是基于已有的大規(guī)模句子級雙語對照語料進行模型訓(xùn)練,建立最優(yōu)的翻譯模型,最終實現(xiàn)從一種語言到另一種語言的翻譯。通常情況下,用于訓(xùn)練模型的語料規(guī)模越大,模型性能表現(xiàn)就越好。
被夸大的技術(shù)
機器翻譯技術(shù)的進步和系統(tǒng)性能的提升在為人們?nèi)粘I詈凸ぷ鲙砀啾憷耐瑫r,也為該技術(shù)的產(chǎn)業(yè)化發(fā)展帶來了更多商機。這種空前局面不僅讓人們看到了夢想成真的希望,也點燃了部分人心中按捺不住的欲望。從傳統(tǒng)媒體到新媒體,對機器翻譯技術(shù)夸大宣傳的聲音不絕于耳,但一個不可否認的事實卻是,目前的機器翻譯技術(shù)尚不成熟,無論是文本翻譯,還是口語翻譯,機器翻譯的質(zhì)量遠沒有達到令人滿意的水平。
當前所有的商用文本機器翻譯系統(tǒng)普遍存在的問題:
一是錯翻、漏翻和重復(fù)翻譯比比皆是,尤其對成語、縮略語、專業(yè)術(shù)語和人名、地名、組織機構(gòu)名稱等的翻譯更是招數(shù)無幾。
二是難以實現(xiàn)篇章范圍內(nèi)的指代消解,常常張冠李戴,例如,前面說的是美國與伊朗之間的事情,后面翻譯"美伊兩國"時卻譯成了美國與伊拉克。
三是缺乏足夠的在線優(yōu)化能力,無法從譯員修改譯文的過程中自動學習和更新翻譯知識,即使譯員對系統(tǒng)給出的某個錯誤譯文反復(fù)修改,系統(tǒng)依然照錯不誤。
四是對口語而言,說話人的語氣、重音、語調(diào),甚至肢體語言無法得到充分利用,尤其當說話人的口音較重、用詞過于生僻、話語主題超出先驗知識范圍時,譯文的質(zhì)量無法保障。
高端翻譯不可取代
我們并不否認機器翻譯技術(shù)的進步,正如前文所述,機器譯文的質(zhì)量已有顯著改善。在日常口語對話中,對于資源較為充分的語言(如英漢、日漢等),在說話場景不是非常復(fù)雜、口音基本標準、語速基本正常、使用詞匯和句型不是非常生僻的情況下,口語翻譯的性能基本可滿足正常交流的需要。專業(yè)領(lǐng)域的文本機器翻譯在訓(xùn)練語料較為充分時,譯文準確率可達到80%以上。而對于資源匱乏的語言之間的翻譯(如波斯語或達利語等與漢語之間的翻譯),譯文質(zhì)量還十分有限。
毋庸置疑,機器翻譯可能替代那些任務(wù)重復(fù)性較大、翻譯難度較低的低端翻譯人員,如天氣預(yù)報查詢、旅館預(yù)訂服務(wù)、交通信息咨詢等翻譯,但不可能取代高端翻譯(如重要文獻、偉人著作、文學名著等翻譯)人員,更不可能消除翻譯職業(yè)。"信、達、雅"是翻譯的終極目標,我們可以預(yù)期,未來的機器翻譯系統(tǒng)能夠輔助高端翻譯人員提高翻譯效率,但要實現(xiàn)無須人工干預(yù)的高質(zhì)量全自動翻譯恐怕還是一個愿望。
不得不說的是,任何負責任的科學家和企業(yè)界都有責任和義務(wù)把技術(shù)或產(chǎn)品的真實水平和性能告知公眾,而不是一味地宣揚,甚至為了利益而故弄玄虛。實事求是是一種態(tài)度,也是一種品格。
-
自動化
+關(guān)注
關(guān)注
29文章
5585瀏覽量
79323 -
機器學習
+關(guān)注
關(guān)注
66文章
8420瀏覽量
132687 -
機器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14886
原文標題:機器翻譯技術(shù)現(xiàn)狀評述與展望 | 行業(yè)觀察
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論