公元652年,玄奘在慈恩寺西院建造了大雁塔,用于收藏他從天竺帶回來的657部佛經(jīng)經(jīng)卷,之后的12年里玄奘一直在此翻譯佛經(jīng)。
當(dāng)巴別塔出現(xiàn)的時(shí)候,人類開始有了不同的語言,而大雁塔出現(xiàn)的時(shí)候,人類已經(jīng)在不同的語言中開始翻譯。
這周的課程,我們來講一個(gè)同學(xué)們都比較熟悉的知識點(diǎn)——機(jī)器翻譯。
之前咱們AI大學(xué)劉俊華導(dǎo)師從“三大核心翻譯技術(shù)”的角度,給大家普及了基于規(guī)則的翻譯方法(RMT)、基于統(tǒng)計(jì)的翻譯方法(SMT)、基于神經(jīng)網(wǎng)絡(luò)的翻譯方法(NMT)的三種翻譯技術(shù)的相應(yīng)原理。
今天我們換個(gè)角度來聊機(jī)器翻譯,從歷史角度來看看這個(gè)比人工智能概念誕生還早的自然語言處理任務(wù)。
機(jī)器翻譯發(fā)展歷史圖譜
一、從傳說開始的故事
《圣經(jīng)》中記載了這樣一個(gè)故事:
人類曾經(jīng)聯(lián)合起來興建能通往天堂的高塔——巴別塔,為了阻止人類的計(jì)劃,上帝讓人類說不同的語言,使人類相互之間不能溝通,計(jì)劃因此失敗,人類自此各散東西。
實(shí)現(xiàn)不同語種之間的無障礙溝通,一直都是人類終極夢想之一。
在認(rèn)識到不眠不休窮盡人類一生的力量,也只能掌握幾十種語言時(shí),很多科學(xué)家開始思考,是不是可以用機(jī)器來幫助人們?nèi)ソ鉀Q溝通問題?
這一問題在1933年首次得到了答案,蘇聯(lián)科學(xué)家Peter Troyanskii向蘇聯(lián)科學(xué)院介紹了能將一種語言翻譯成另一種語言的機(jī)器。
這個(gè)法明很簡單,在當(dāng)時(shí)并未受到蘇聯(lián)政府的重視,他們覺得這臺擁有各種語言卡片的機(jī)器沒有實(shí)際作用。
Troyanskii用20多年的時(shí)間將這臺翻譯機(jī)器發(fā)明出來,后死于心絞痛。
我們今天能如此清晰的復(fù)述這段故事,是因?yàn)樵?956年蘇聯(lián)2位科學(xué)家發(fā)現(xiàn)了Troyanskii所創(chuàng)造的翻譯機(jī)器,并將它公之于世。
如果不是這樣,或許我們到現(xiàn)在都不會知道,早在1933年就有人想過將語言卡片、打字機(jī)、老式膠片組合在一起,發(fā)明一臺翻譯機(jī)器。
Troyanskii發(fā)明的翻譯機(jī)器簡化圖
二、萌芽于冷戰(zhàn)中的軍備競賽
正像計(jì)算機(jī)是被戰(zhàn)爭催生出一樣,機(jī)器翻譯技術(shù)的萌芽也與軍事有關(guān)。
1947年杜魯門主義出臺,美蘇冷戰(zhàn)正式開始,對于俄文情報(bào)資料的翻譯,需求量很大。
1954年,美國喬治敦大學(xué)在IBM公司協(xié)同下用IBM-701計(jì)算機(jī)首次完成了英俄機(jī)器翻譯試驗(yàn),拉開了機(jī)器翻譯研究的序幕。
當(dāng)時(shí)的系統(tǒng),僅能容納250個(gè)單詞,遵循6條語法規(guī)則,翻譯49個(gè)句子。
但這一切已足以點(diǎn)燃科學(xué)家們的激情,機(jī)器翻譯成功引起了蘇聯(lián)、日本和歐洲國家的研究興趣。一時(shí)間,各國政府紛紛撥款,全球機(jī)器翻譯熱潮興起。
然而,技術(shù)的發(fā)展都是曲折艱難的,和這種狂熱的關(guān)注相比機(jī)器翻譯的研究進(jìn)展著實(shí)緩慢,美國科學(xué)院成立了語言自動處理咨詢委員會(ALPAC)于1966年公布了一份名為《語言與機(jī)器》的報(bào)告,該研究否認(rèn)機(jī)器翻譯可行性,機(jī)器翻譯研究進(jìn)入蕭條期。
雖然這一階段的機(jī)器翻譯發(fā)展并不順利,但還是為現(xiàn)代自然語言處理技術(shù)打下了堅(jiān)實(shí)的基礎(chǔ)。
三、20世紀(jì)末的又一次興起
20世紀(jì)70年代IBM沃森實(shí)驗(yàn)室的賈里尼克,他提出了基于統(tǒng)計(jì)的語音識別框架,這個(gè)框架對語音和語言處理都有著深遠(yuǎn)影響,它從根本上使得語音識別有實(shí)用的可能。從此,自然語言處理開始走上統(tǒng)計(jì)方法之路。
1993年,IBM的Brown等提出基于詞對齊的統(tǒng)計(jì)翻譯模型,基于語料庫的方法開始盛行,標(biāo)志著第二代機(jī)器翻譯技術(shù)——「基于統(tǒng)計(jì)的機(jī)器翻譯」開始興起,其核心在于設(shè)計(jì)概率模型對翻譯過程建模。
統(tǒng)計(jì)機(jī)器翻譯避開了語言規(guī)則,使用大量的雙語文本,建立兩種語言的平行語料庫,雖然避開了繁雜的語法規(guī)則,但需要大規(guī)模的語料庫,這在當(dāng)時(shí)非常難以實(shí)現(xiàn)。
2014年谷歌和蒙特利爾大學(xué)提出的第三代機(jī)器翻譯技術(shù),也就是基于端到端的神經(jīng)機(jī)器翻譯,標(biāo)志著第三代機(jī)器翻譯技術(shù)的到來。
2016年月28日,谷歌發(fā)布新的神經(jīng)機(jī)器翻譯系統(tǒng)GNMT,同時(shí)支持PC端和移動端,這項(xiàng)服務(wù)背后的核心算法是基于短語的機(jī)器翻譯。
同時(shí)期國內(nèi)科技企業(yè)在機(jī)器翻譯上的進(jìn)展也非常迅速,以語音和語義理解見長的科大訊飛在2014年國際口語翻譯大賽IWSLT上獲得中英和英中兩個(gè)翻譯方向的全球第一名,在2015年又在由美國國家標(biāo)準(zhǔn)技術(shù)研究院組織的機(jī)器翻譯大賽中取得全球第一的成績。
自此,神經(jīng)機(jī)器翻譯開始大規(guī)模走向應(yīng)用。
四、重建巴別塔之路
從1993年到2019年,機(jī)器翻譯技術(shù)發(fā)展了80多年,巴別塔的傳說已經(jīng)成了過去,我們今天重溫機(jī)器翻譯的發(fā)展歷史,并不是為了再去修建一座真的「通天塔」,而是想讓同學(xué)們更加深刻地了解機(jī)器翻譯這門學(xué)科。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47352瀏覽量
238771 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14899 -
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13572
原文標(biāo)題:A.I.公開課預(yù)告 | 機(jī)器翻譯的光榮與夢想
文章出處:【微信號:iFLYTEK1999,微信公眾號:科大訊飛】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論