作為一個(gè)科技從業(yè)者,閱讀AI頂會(huì)的最新論文、瀏覽國(guó)內(nèi)外創(chuàng)新的最新動(dòng)向,是我工作的重要部分。平時(shí)接觸的開(kāi)發(fā)者、科學(xué)家、企業(yè)研究人員等,工作生活中也涉及大量專(zhuān)業(yè)閱讀。
于是乎,我就會(huì)經(jīng)常聽(tīng)到這樣的抱怨:
PDF格式的論文,很多翻譯軟件需要手動(dòng)復(fù)制粘貼,效率還不如直接查字典;
不動(dòng)腦子按段落甚至句子直譯,信達(dá)雅一個(gè)都沒(méi)有,機(jī)翻完我還要花時(shí)間二次review;
海外開(kāi)發(fā)社區(qū)的技術(shù)文檔專(zhuān)業(yè)詞匯太多,翻譯得不準(zhǔn),好幾天的代碼都白寫(xiě)了……
這可能是AI技術(shù)里非常容易讓人迷惑的地方。近幾年隨著AI技術(shù)快速進(jìn)步,機(jī)器翻譯水平也大幅提升,結(jié)果一遇到外文文獻(xiàn)、外刊投稿、辦公文檔、商業(yè)報(bào)告、海外網(wǎng)站技術(shù)文檔之類(lèi)的專(zhuān)業(yè)翻譯需求,很多產(chǎn)品還是不能滿(mǎn)足。
這些問(wèn)題說(shuō)明,總體可讀可懂,滿(mǎn)足出國(guó)旅游、購(gòu)物娛樂(lè)等日常溝通的場(chǎng)景,只是機(jī)器翻譯的基本功能。進(jìn)一步的市場(chǎng)需求,是深度專(zhuān)業(yè)內(nèi)容的跨語(yǔ)言交流,讓商業(yè)、科研、技術(shù)等專(zhuān)業(yè)信息可以實(shí)現(xiàn)無(wú)縫對(duì)接。
跨越這堵語(yǔ)言之墻,也成為一場(chǎng)NLP領(lǐng)域的全球競(jìng)賽。一直深耕機(jī)器翻譯的百度翻譯團(tuán)隊(duì),從來(lái)沒(méi)有停止過(guò)攀登的腳步。
我們從機(jī)器翻譯的新技術(shù)動(dòng)向說(shuō)起,聊聊百度給機(jī)器翻譯帶來(lái)的新可能。
機(jī)器翻譯的技術(shù)攀登:百度引領(lǐng)NMT革新
跨越語(yǔ)言之墻還需要哪些技術(shù)突破?想要回答這個(gè)問(wèn)題,有必要先回答:機(jī)器翻譯今天發(fā)展到哪一步了。
過(guò)去幾十年間,人們一直在探索如何使得機(jī)器翻譯達(dá)到人類(lèi)的翻譯水平,翻譯方法不斷迭代。基于規(guī)則的機(jī)器翻譯,依靠人工編纂的雙語(yǔ)詞典和專(zhuān)家總結(jié)的規(guī)則進(jìn)行翻譯;基于實(shí)例的機(jī)器翻譯,從雙語(yǔ)對(duì)照的實(shí)例庫(kù)中選擇與原文相似度高的實(shí)例,通過(guò)模仿和修改進(jìn)行翻譯;基于統(tǒng)計(jì)的機(jī)器翻譯,對(duì)翻譯過(guò)程進(jìn)行數(shù)學(xué)建模,并從大量的訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)翻譯知識(shí)。
變革發(fā)生在2014年,通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)對(duì)語(yǔ)言向量進(jìn)行編碼解碼,并且使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)來(lái)增強(qiáng)長(zhǎng)句翻譯能力的神經(jīng)機(jī)器翻譯(NMT),為機(jī)器翻譯領(lǐng)域帶來(lái)新的研發(fā)范式。百度、谷歌、微軟等一批NLP領(lǐng)域的優(yōu)等生推進(jìn)深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的研發(fā)和應(yīng)用,百度翻譯在2015年發(fā)布了全球首個(gè)互聯(lián)網(wǎng)NMT系統(tǒng),領(lǐng)先谷歌1年多?,F(xiàn)在,大家用翻譯軟件進(jìn)行日常交流、旅游商務(wù)等活動(dòng),已經(jīng)基本沒(méi)有問(wèn)題了。
而專(zhuān)業(yè)領(lǐng)域的翻譯想要令人驚喜的進(jìn)展,總的來(lái)說(shuō)需要做到兩件事:
一是技術(shù)突破。推動(dòng)機(jī)器翻譯不斷接近專(zhuān)業(yè)翻譯能力。頭部廠(chǎng)商主要從幾個(gè)方面努力:1. 預(yù)訓(xùn)練大模型,例如文心、GPT-3、BERT;2. 多語(yǔ)言統(tǒng)一建模和翻譯;3. 面向垂直領(lǐng)域的高精度翻譯模型。其中,百度作為更早進(jìn)入NMT時(shí)代的科技企業(yè),就在機(jī)器翻譯技術(shù)上取得了國(guó)際領(lǐng)先的成果。2020 年,咨詢(xún)機(jī)構(gòu)Gartner在 《Hype Cycle for Natural Language Technologies》報(bào)告中,就將百度翻譯列為神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯標(biāo)桿機(jī)構(gòu)。
二是產(chǎn)品設(shè)計(jì)。技術(shù)有所突破,還要通過(guò)成熟的產(chǎn)品設(shè)計(jì)和應(yīng)用體驗(yàn),讓用戶(hù)感知到專(zhuān)業(yè)機(jī)器翻譯的價(jià)值。一些機(jī)器翻譯產(chǎn)品可能技術(shù)很強(qiáng),但由技術(shù)人員來(lái)主導(dǎo)產(chǎn)品設(shè)計(jì),導(dǎo)致用戶(hù)體驗(yàn)很糟糕。在這方面,具備互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)相關(guān)經(jīng)驗(yàn)的廠(chǎng)商,自然能夠更好地實(shí)現(xiàn)技術(shù)落地。比如百度翻譯就打造了非常豐富的產(chǎn)品矩陣,支持PC端、移動(dòng)端等各類(lèi)終端設(shè)備,面向C端、B端的多種應(yīng)用;支持文本、文檔、圖片、語(yǔ)音等多模態(tài)翻譯,全方位滿(mǎn)足各種翻譯需求。百度翻譯的產(chǎn)品優(yōu)勢(shì),讓普通用戶(hù)可以低門(mén)檻、更便捷地用上專(zhuān)業(yè)機(jī)器翻譯能力,目前日均響應(yīng)的翻譯請(qǐng)求已達(dá)千億字符。
從這個(gè)角度來(lái)看,百度翻譯是國(guó)內(nèi)少有的,能夠同時(shí)占據(jù)技術(shù)和產(chǎn)品兩個(gè)機(jī)器翻譯高地的科技企業(yè)。那么,百度翻譯究竟是如何翻越專(zhuān)業(yè)翻譯的語(yǔ)言之墻?
聳立的語(yǔ)言墻:機(jī)器翻譯進(jìn)入專(zhuān)業(yè)領(lǐng)域的三道門(mén)檻
你可能會(huì)問(wèn),機(jī)器翻譯都搞了快七十年,怎么專(zhuān)業(yè)領(lǐng)域的語(yǔ)言之墻依舊沒(méi)有被攻克?
專(zhuān)業(yè)信息、學(xué)術(shù)資源、商業(yè)文件等翻譯需求,是一塊巨大的商業(yè)蛋糕,同時(shí)也是從未被徹底解決的痛點(diǎn)。這是因?yàn)閷?zhuān)業(yè)領(lǐng)域的翻譯,存在“三高”的要求:內(nèi)容安全要求高、翻譯準(zhǔn)確率要求高、翻譯效率與體驗(yàn)要求高。
內(nèi)容安全要求高:專(zhuān)業(yè)文檔往往涉及到科研創(chuàng)新、商業(yè)往來(lái)等信息,翻譯過(guò)程中需要上傳到云端或軟件服務(wù)商的服務(wù)器進(jìn)行操作,一旦硬件來(lái)源或軟件使用權(quán)受限,或者服務(wù)不穩(wěn)定,都會(huì)給專(zhuān)業(yè)用戶(hù)帶來(lái)麻煩和風(fēng)險(xiǎn)。
翻譯準(zhǔn)確率要求高:信達(dá)雅,信(即翻譯準(zhǔn)確率)排在第一位,專(zhuān)業(yè)翻譯中存在大量專(zhuān)業(yè)單詞、復(fù)雜長(zhǎng)句子,容易出現(xiàn)歧義,軟件翻譯失之毫厘,內(nèi)容準(zhǔn)確度就謬以千里。
翻譯效率與體驗(yàn)要求高:翻譯軟件的效率、易用性,直接影響到用戶(hù)體驗(yàn)。很多人可能有這樣的經(jīng)歷,有的軟件不支持整篇文檔翻譯,手動(dòng)復(fù)制粘貼連分段都不準(zhǔn)確,翻譯效果難以直視;有的PDF文檔翻譯成word后,原本的排版被打亂,還需要自己手動(dòng)調(diào)整……這些都給用戶(hù)帶來(lái)了額外的負(fù)擔(dān)。
所以,我們就從安全可靠、效果、效率這三個(gè)方面,來(lái)評(píng)測(cè)一下百度翻譯的解決思路。
首先,安全可靠。
作為一名知識(shí)內(nèi)容生產(chǎn)者,文檔承載的是我安身立命之本,所以,數(shù)據(jù)安全幾乎是我是否使用一款翻譯工具的首要考量因素。同理,論文數(shù)據(jù)之于科研工作者、商業(yè)報(bào)告之于企業(yè)從業(yè)者、技術(shù)文檔之于工程人員,安全隱私都是至關(guān)重要的。
深度學(xué)習(xí)平臺(tái)是每個(gè)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的底層技術(shù)框架,市面上相當(dāng)一部分翻譯廠(chǎng)商的底層技術(shù)框架仍然使用TensorFlow(美國(guó)谷歌)和PyTorch(美國(guó)臉書(shū))為代表的海外框架。非國(guó)產(chǎn)自研,可能在未來(lái)遭遇無(wú)硬件可搭載和無(wú)框架使用的窘境。
比如在使用海外平臺(tái)DeepL的過(guò)程中,我就會(huì)經(jīng)常遇到加載緩慢、連接不上的問(wèn)題。海外翻譯軟件往往需要上傳到海外企業(yè)的服務(wù)器,比如DeepL上傳的文檔會(huì)被發(fā)送到美國(guó)的Adobe公司。
與之相比,國(guó)內(nèi)翻譯產(chǎn)品就不會(huì)遇到這個(gè)困擾。以百度翻譯為例,產(chǎn)品基于全面自研的飛槳深度學(xué)習(xí)框架,同時(shí)采用多種措施來(lái)保障數(shù)據(jù)安全,獲得ISO27001等多項(xiàng)國(guó)內(nèi)外權(quán)威信息安全管理認(rèn)證。存儲(chǔ)前,會(huì)先進(jìn)行安全的加密操作;數(shù)據(jù)傳輸中,采用安全傳輸層協(xié)議(TLS),保障保密性和數(shù)據(jù)完整性,并提供完備的密鑰管理機(jī)制和加密措施;用戶(hù)刪除數(shù)據(jù)后,后臺(tái)將同步刪除相關(guān)內(nèi)容,不會(huì)留存??傮w來(lái)說(shuō),在可靠性和安全性上更有保障。
第二,翻譯效果。
專(zhuān)業(yè)翻譯最終要靠結(jié)果的“信、達(dá)、雅”說(shuō)話(huà)。包括專(zhuān)業(yè)術(shù)語(yǔ)翻譯是否準(zhǔn)確,語(yǔ)序是否流暢連貫,一些特定文化背景的表達(dá)是否地道……
可以看到,百度翻譯通過(guò)多個(gè)專(zhuān)業(yè)領(lǐng)域模型,有效增強(qiáng)翻譯準(zhǔn)確度。我們隨機(jī)選取了《自然》雜志的一篇生物領(lǐng)域論文《A pan-cancer compendium of chromosomal instability染色體不穩(wěn)定性的泛癌癥綱要》,選擇百度翻譯的“生物醫(yī)藥“模型后,結(jié)合上下文語(yǔ)義給出了準(zhǔn)確的翻譯??梢钥吹剑镝t(yī)藥這類(lèi)充滿(mǎn)大量專(zhuān)業(yè)術(shù)語(yǔ)的領(lǐng)域,百度翻譯的結(jié)果并沒(méi)有讓人失望。
對(duì)于學(xué)術(shù)文章中復(fù)雜的長(zhǎng)句子和特定格式,百度翻譯能夠識(shí)別論文格式中的各種基本要素,如正文、引用、尾注等,避免錯(cuò)譯、漏譯。以這篇AAAI 2022的頂會(huì)論文《Meta-Learning for Online Update of Recommender Systems》為例,百度翻譯就準(zhǔn)確保留了參考文獻(xiàn)引用信息,這對(duì)閱讀專(zhuān)業(yè)文獻(xiàn)非常有幫助。
第三,翻譯效率。
專(zhuān)業(yè)領(lǐng)域的機(jī)器翻譯,用戶(hù)的一個(gè)關(guān)鍵痛點(diǎn)是:很多地方需要用戶(hù)“不厭其煩”地手動(dòng)操作或反復(fù)修改。而擁有十多年翻譯產(chǎn)品經(jīng)驗(yàn)的百度,自然也在應(yīng)用能力上游刃有余。百度翻譯將這些“煩點(diǎn)”一一消解,提升翻譯效率和文檔的可讀性、易讀性,從而減少用戶(hù)手動(dòng)調(diào)整、修改的麻煩,將時(shí)間精力放在更有創(chuàng)造力的事情上。
首先,百度翻譯支持多種格式文檔,一鍵上傳就能進(jìn)行全篇翻譯。像PDF這種不能編輯的文檔,可以完整地保留樣式和排版,不需要用戶(hù)手動(dòng)將文字復(fù)制粘貼到翻譯軟件中,并且提供整頁(yè)預(yù)覽模式、逐句對(duì)照模式等,不同需求的用戶(hù)可以自主選擇來(lái)提升效率。
比如下面這份《英國(guó)人工智能研發(fā)商業(yè)化和標(biāo)準(zhǔn)》,這類(lèi)咨詢(xún)機(jī)構(gòu)的商業(yè)報(bào)告,是很多產(chǎn)業(yè)研究者、高校師生、政策制定者等工作學(xué)習(xí)中的參考讀物,快捷、高效地閱讀體驗(yàn),能夠幫大家節(jié)省不少時(shí)間。將PDF文件一鍵上傳到百度翻譯,就能快速得到準(zhǔn)確地譯文,排版格式也與原文保持高度一致,大大方便了閱讀。
輸入數(shù)據(jù)的準(zhǔn)確性對(duì)翻譯結(jié)果起到至關(guān)重要的影響,文本糾錯(cuò)是機(jī)器翻譯的關(guān)鍵能力之一。專(zhuān)業(yè)領(lǐng)域容易遇到一些佶屈聱牙、拼寫(xiě)復(fù)雜的專(zhuān)用術(shù)語(yǔ)、學(xué)術(shù)名詞等,百度翻譯的智能糾錯(cuò),可以對(duì)語(yǔ)句自動(dòng)檢查、實(shí)時(shí)提示、自動(dòng)糾錯(cuò),減少人工校驗(yàn)成本。
此外,百度翻譯通過(guò)人機(jī)共譯智能增強(qiáng),語(yǔ)料自動(dòng)沉淀,機(jī)器自動(dòng)學(xué)習(xí),翻譯模型實(shí)時(shí)增強(qiáng),逐漸縮小機(jī)器翻譯與理想譯文之間的差距,實(shí)現(xiàn)越翻越省力,真正提升效率。
英國(guó)詩(shī)人塞繆爾·約翰遜曾說(shuō)過(guò),語(yǔ)言是科學(xué)的唯一工具。整體來(lái)看,百度翻譯已經(jīng)在專(zhuān)業(yè)論文、學(xué)術(shù)文獻(xiàn)等領(lǐng)域,展現(xiàn)出了強(qiáng)大的翻譯能力,幫專(zhuān)業(yè)人士翻越了語(yǔ)言這堵高墻,把語(yǔ)言這個(gè)工具交到了每一個(gè)需要在專(zhuān)業(yè)領(lǐng)域跨語(yǔ)言協(xié)作的人手中。
翻山越嶺之后,語(yǔ)言墻背后的宏大場(chǎng)景
從百度翻譯的技術(shù)體系和產(chǎn)品設(shè)計(jì)中,可以看到,機(jī)器翻譯要進(jìn)入專(zhuān)業(yè)領(lǐng)域,不光要有技術(shù),還要有較強(qiáng)的產(chǎn)品設(shè)計(jì)能力,考驗(yàn)的是企業(yè)的綜合實(shí)力。機(jī)器翻譯進(jìn)入專(zhuān)業(yè)領(lǐng)域,也推動(dòng)翻譯應(yīng)用來(lái)到了新的賽點(diǎn)。
重建巴別塔。專(zhuān)業(yè)領(lǐng)域的語(yǔ)言壁壘,為知識(shí)、信息、資源的流動(dòng)樹(shù)立起極高的門(mén)檻,比如目前全球有六成以上各類(lèi)文獻(xiàn)資料和科研論文都是用英文撰寫(xiě),其他語(yǔ)種也蘊(yùn)含著大量的知識(shí)寶藏。越來(lái)越多的人使用百度翻譯來(lái)突破語(yǔ)言的阻礙,讓專(zhuān)業(yè)領(lǐng)域的協(xié)作沒(méi)有障礙,將大大促進(jìn)全球的知識(shí)交流與傳播,支撐科技創(chuàng)新、實(shí)現(xiàn)知識(shí)公平。
重塑機(jī)翻格局。專(zhuān)業(yè)領(lǐng)域的機(jī)器翻譯,相比生活化場(chǎng)景,有著更高的壁壘與更強(qiáng)勁的需求,無(wú)論市場(chǎng)容量、付費(fèi)意愿、付費(fèi)潛力,以及用戶(hù)忠誠(chéng)度,都是非常高的。百度翻譯憑借優(yōu)秀的專(zhuān)業(yè)翻譯能力,可以建立起差異化優(yōu)勢(shì),進(jìn)入商業(yè)化的良性循環(huán),在機(jī)器翻譯市場(chǎng)格局中進(jìn)一步領(lǐng)先。
借助翻譯,人類(lèi)社會(huì)從相互阻隔走向了相互交往。今天,世界科技、經(jīng)濟(jì)與文化更為頻繁地展開(kāi)交流,面對(duì)浩如煙海的信息與知識(shí),僅靠數(shù)量有限的專(zhuān)業(yè)翻譯人士,很難滿(mǎn)足大眾對(duì)專(zhuān)業(yè)翻譯的需求。幸好,機(jī)器翻譯開(kāi)辟了一條新的跨語(yǔ)言溝通之路。七十年來(lái),機(jī)器翻譯技術(shù)不斷迭代,有著旺盛的生命力,那是一代又一代技術(shù)人,在為重建巴別塔的理想而不斷努力。
隨著百度翻譯等產(chǎn)品推動(dòng)機(jī)器翻譯向?qū)I(yè)領(lǐng)域不斷深入,人們可以展開(kāi)更專(zhuān)業(yè)、更精深的跨語(yǔ)言交流,機(jī)器翻譯正成為助力全球交流的一股重要力量。
-
AI
+關(guān)注
關(guān)注
87文章
31395瀏覽量
269787 -
百度
+關(guān)注
關(guān)注
9文章
2275瀏覽量
90600 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14920 -
NMT
+關(guān)注
關(guān)注
0文章
7瀏覽量
3650 -
rnn
+關(guān)注
關(guān)注
0文章
89瀏覽量
6900
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論