0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

機器翻譯中細粒度領域自適應的數(shù)據(jù)集和基準實驗

深度學習自然語言處理 ? 來源:南大NLP ? 作者:南大NLP ? 2022-04-26 10:08 ? 次閱讀

01

研究動機

近年來,神經(jīng)機器翻譯(Neural Machine Translation, NMT)研究取得了重大的進展。從大規(guī)模平行數(shù)據(jù)中學習具有大規(guī)模參數(shù)的通用神經(jīng)機器翻譯模型已經(jīng)比較成熟。當需要處理特定場景中的翻譯任務時,人們廣泛采用領域自適應技術將一個通用領域的神經(jīng)機器翻譯模型遷移到目標領域。

然而現(xiàn)有領域自適應研究考慮的領域仍比較粗糙,例如法律、醫(yī)療、科技、字幕等領域。事實上,在這些領域下還存在著非常多的細粒度領域。例如,科技領域下還包含著自動駕駛(Autonomous Vehicles, AV)、AI教育(AI Education, AIE)、實時網(wǎng)絡通信(Real-Time Networks, RTN)、智能手機(Smart Phone, SP)等等細粒度領域。即使這些領域都屬于科技領域,但是在這些領域中卻存在著不同的翻譯現(xiàn)象。在詞級別,以中文“卡”字為例,它在不同的細粒度科技領域中其實對應著不同的英文翻譯(表格1)。在句子級別,在科技領域(FGraDA)和通用領域(CWMT)的分布存在著較大的差異的同時(圖1的左圖),科技領域內(nèi)部的細粒度領域的分布仍然存在著一定的差異(圖1的右圖)。

表格1中文“卡”在幾個科技細粒度領域?qū)姆g

c742f592-c497-11ec-bce3-dac502259ad0.png

c758ef32-c497-11ec-bce3-dac502259ad0.png

圖1數(shù)據(jù)分布差異可視化分析

細粒度領域自適應問題是一個重要的實際應用問題。當研發(fā)人員需要為某個特定主題提供翻譯服務(比如為某個主題的會議提供翻譯)時,往往需要在特定的細粒度領域上取得更好的翻譯性能。在這些場景中,細粒度領域的專業(yè)性、研發(fā)部署的預算要求使得人們難以獲取大規(guī)模的細粒度領域平行數(shù)據(jù),這進一步加大了建模細粒度領域的難度。當細粒度領域建模不準確時,NMT模型很容易出現(xiàn)翻譯錯誤,包括專有名詞錯誤、一詞多義錯誤、漏譯錯誤等(表格2)。為了精確建模細粒度領域、解決細粒度領域自適應問題,需要思考如何從多樣的非平行數(shù)據(jù)中挖掘有效的目標領域信息。

表格2三種典型翻譯錯誤及樣例

c777b372-c497-11ec-bce3-dac502259ad0.png

02

貢獻

本文構(gòu)建了一份細粒度領域自適應的中英機器翻譯數(shù)據(jù)集(FGraDA)。該數(shù)據(jù)集并不是為特定領域的翻譯提供數(shù)據(jù)支持,而是展示了一個包含多個細粒度領域的實際場景,制作了評估領域翻譯效果的驗證集和測試集數(shù)據(jù),并提供了實際應用中可能面臨的多種類型的數(shù)據(jù)資源。希望該數(shù)據(jù)集可以支持在細粒度領域自適應方向的研究。

在FGraDA數(shù)據(jù)集上,我們比較了現(xiàn)有的部分自適應方法,可以作為后續(xù)研究工作的實驗基準;也分析了現(xiàn)有方法在進行細粒度領域自適應時存在的一些缺陷,希望能為后續(xù)研究工作提供參考。

03

數(shù)據(jù)集構(gòu)建

為了模擬真實場景,我們以四個有代表性的會議(CCF-GAIR, GIIS, RTC, Apple-Events)為基礎構(gòu)建FGraDA數(shù)據(jù)集。這四個會議對應的領域分別是:自動駕駛、AI教育、實時網(wǎng)絡通信、智能手機,這些領域都屬于科技領域下的細分領域。我們?yōu)槊總€領域配備了詞典資源、wiki資源、驗證集、測試集(數(shù)據(jù)規(guī)模如表格3所示)。詞典資源和wiki資源作為獲取成本較低的非平行資源,包含著豐富的領域信息,用于細粒度領域建模及自適應。驗證集和測試集則用于評估自適應效果。下面將具體介紹這些資源的構(gòu)建過程。

表格3FGraDA數(shù)據(jù)集各領域數(shù)據(jù)規(guī)模報告

c793b900-c497-11ec-bce3-dac502259ad0.png

詞典相比于平行句對是一種獲取成本更低的資源。與此同時,詞典資源可以提供領域詞語的翻譯信息,這對于處理細粒度領域翻譯任務是非常有幫助的。因此,我們?yōu)槊總€領域人工標注了一定規(guī)模的雙語詞典資源。表格4中展示了一些我們標注的詞典條目示例。標注完成后,我們請語言專家確認了詞典的準確性和可靠性。

表格4詞典條目示例

c7ac6f0e-c497-11ec-bce3-dac502259ad0.png

Wiki資源是機器翻譯研究中的一種重要的可利用資源。鑒于領域詞典中包含大量的領域詞語,我們利用這些英文領域詞語抽取細粒度領域相關的wiki頁面。具體來說,我們首先抽取標題中包含領域詞語的wiki頁面作為種子頁面(seed page)。這些種子頁面中的內(nèi)容是與細粒度領域高度相關的,并且這些頁面中的部分內(nèi)容還會鏈接到其他相關頁面(如圖2所示)。因此我們利用這種天然存在的鏈接關系,收集種子頁面所鏈接到的一跳頁面(one-hop-link page),進一步擴充wiki資源。最終,抽取出的種子頁面和一跳頁面共同構(gòu)成了細粒度領域相關的wiki資源(數(shù)據(jù)規(guī)模如表格5所示)。該資源不僅包含了大量的單語文本,還包含了諸如鏈接關系的結(jié)構(gòu)知識,具有非常大的利用價值。

c7cad2fa-c497-11ec-bce3-dac502259ad0.png

圖2Wiki資源示例

表格5Wiki資源數(shù)據(jù)規(guī)模報告

c7e6b6fa-c497-11ec-bce3-dac502259ad0.png

最后,為了評估細粒度領域自適應效果,我們?yōu)楦鱾€細粒度領域標注了平行數(shù)據(jù)作為驗證集和測試集。我們從上面提到的四個會議上收集了70個小時的錄音,然后使用內(nèi)部工具將其轉(zhuǎn)錄為文本。隨后我們進行了數(shù)據(jù)清洗和數(shù)據(jù)脫敏,去除了文本語料中領域無關的句子和涉及隱私的人名、公司名。最終,經(jīng)過語言專家標注,一共在四個領域上得到了4767條中英平行句對。我們把每個領域的平行數(shù)據(jù)分為兩部分:200條作為驗證集,剩下的作為測試集。我們可以看到,僅僅是收集少量平行數(shù)據(jù)用于評估就需要花費大量的人力、物力代價。在這種情況下,期望收集更多的平行數(shù)據(jù)用于自適應學習是不現(xiàn)實的,因此本數(shù)據(jù)集也沒有提供這種資源。

04

基線結(jié)果

我們在FGraDA數(shù)據(jù)集上比較了部分現(xiàn)有自適應方法(實驗結(jié)果如表格6所示)。實驗結(jié)果表明現(xiàn)有方法能夠利用數(shù)據(jù)集中提供的資源取得一定的提升,并且綜合使用詞典資源和wiki資源取得的提升最多。但是,這些方法在部分領域上的翻譯性能仍然較弱。為了進一步對自適應效果進行分析,我們統(tǒng)計了表現(xiàn)最好的基線方法在測試集上的句子級別BLEU的分布情況(如圖3所示)。分布情況顯示自適應模型在大部分句子上的翻譯狀況還不理想(BLEU分數(shù)低于20),這也表明細粒度領域的翻譯效果仍然有待提升。

表格6基線方法在細粒度領域上的翻譯性能(BLEU)

c802598c-c497-11ec-bce3-dac502259ad0.png

c81aa992-c497-11ec-bce3-dac502259ad0.png

圖3句子級別BLEU分布情況

05

有待解決的挑戰(zhàn)

在詞典資源方面,我們發(fā)現(xiàn)現(xiàn)有的領域自適應方法還無法充分利用這些詞語翻譯知識。我們在測試集上統(tǒng)計了領域詞典條目的翻譯準確率(實驗結(jié)果如表格7所示)。實驗結(jié)果表明,即使采用詞約束解碼算法Grid Beam Search(GBS),自適應模型也無法100%正確翻譯出領域詞典中的領域詞語。為了進一步分析在細粒度領域自適應中使用詞典資源的挑戰(zhàn),我們嘗試了調(diào)節(jié)GBS算法中的權重超參數(shù)(實驗結(jié)果如圖4所示)。實驗結(jié)果表明盡管我們可以調(diào)節(jié)GBS算法中的權重超參數(shù)強制模型翻譯出更多領域詞語,但是翻譯結(jié)果的BLEU分數(shù)會大幅下降。這說明,簡單地通過詞約束解碼的方式并不能翻譯好領域詞語,如何更好地利用領域詞典仍然有待探索。

表格7領域詞典條目翻譯準確率(%)

c839ce08-c497-11ec-bce3-dac502259ad0.png

c854adb8-c497-11ec-bce3-dac502259ad0.png

圖4不同權重下詞典詞語翻譯準確率和BLEU分數(shù)的變化情況

在wiki資源方面,現(xiàn)有的領域自適應方法主要將wiki頁面中包含的文本作為單語數(shù)據(jù)使用,忽視了wiki頁面中包含的各種結(jié)構(gòu)化知識。這些知識對于理解領域詞語語義可能會起到非常重要的作用。我們在這里列舉出兩種重要的結(jié)構(gòu)化知識:(1)wiki頁面正文的第一句話通常是標題的定義。以圖2中的頁面標題“HDR”為例,正文的第一句話“High dynamic range (HDR) is a dynamic range higher than usual”,這是“HDR”的定義,可以幫助理解HDR的含義。(2)當前wiki頁面中鏈接到其他wiki頁面的詞語往往和當前wiki頁面的標題是高度相關的。同樣以圖2中的頁面標題“HDR”為例,該頁面中包含的“dynamic range”,“display devices”,“photography”等詞語都是和“HDR”高度相關的,也可以幫助理解“HDR”的含義。

在領域?qū)蛹壏矫妫F(xiàn)有的領域自適應方法只考慮使用目標領域?qū)念I域資源進行領域自適應,忽略了利用相近細粒度領域中的資源。為了量化細粒度領域之間的近似關系,我們評估了適應到各個領域的模型在另外三個領域的翻譯性能(實驗結(jié)果如表格8所示)。從翻譯性能的差異可以看出細粒度領域之間有的差距較大,有的差距較小。如何利用相近細粒度領域中的資源輔助當前目標細粒度領域建模,以及如何利用粗細粒度領域間的層級關系仍然是值得探究的問題。

表格8遷移到不同細粒度領域上的模型翻譯性能對比(BLEU)

c87009a0-c497-11ec-bce3-dac502259ad0.png

06

總結(jié)

本文從實際問題出發(fā),構(gòu)建了細粒度領域自適應機器翻譯數(shù)據(jù)集FGraDA。我們在FGraDA 數(shù)據(jù)集對比了現(xiàn)有的部分領域自適應方法,發(fā)現(xiàn)細粒度領域的翻譯效果仍然有待提升。進一步的分析顯示FGraDA數(shù)據(jù)集中提供的多樣非平行資源中仍然存在著非常多有待挖掘的、對自適應有益的信息。如何從各種不同資源中挖掘、利用這些信息建模細粒度領域,實現(xiàn)細粒度領域自適應是一個有待研究的重要課題。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:LREC'22 | 機器翻譯中細粒度領域自適應的數(shù)據(jù)集和基準實驗

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    《具身智能機器人系統(tǒng)》第10-13章閱讀心得之具身智能機器人計算挑戰(zhàn)

    得到詳細介紹,它創(chuàng)新性地解決了具身智能的數(shù)據(jù)瓶頸問題。該系統(tǒng)包含三個核心組件:數(shù)據(jù)采集端點負責收集真實環(huán)境數(shù)據(jù),仿真服務生成合成數(shù)據(jù)擴充訓練
    發(fā)表于 01-04 01:15

    【「具身智能機器人系統(tǒng)」閱讀體驗】+數(shù)據(jù)在具身人工智能的價值

    出現(xiàn)重大問題。此外,機器人在不同環(huán)境適應和泛化的能力取決于它處理的數(shù)據(jù)的多樣性。例如,家庭服務機器人必須
    發(fā)表于 12-24 00:33

    空間光調(diào)制器自適應激光光束整形

    Fusion軟件為自適應激光整形系統(tǒng)設計提供了一系列可靠的、快速的以及靈活的工具??梢杂嬎愠鑫幌嘌谀げ?b class='flag-5'>數(shù)據(jù)轉(zhuǎn)移至SLM。VirtualLab Fusion能夠?qū)τ诎瑥碗s光源、光束傳輸光學以及衍射SLM(詳見
    發(fā)表于 12-12 10:33

    Perforce Helix Core通過ISO 26262認證!為汽車軟件開發(fā)團隊提供無限可擴展性、細粒度安全性、文件快速訪問等

    News!Helix Core通過ISO 26262認證,符合汽車系統(tǒng)開發(fā)所需的安全和可靠性標準,助力汽車軟件安全合規(guī)!具備無限可擴展性、細粒度安全性、文件快速訪問...是眾多汽車OEM和供應商的首選版本控制工具。
    的頭像 發(fā)表于 11-12 14:41 ?843次閱讀
    Perforce Helix Core通過ISO 26262認證!為汽車軟件開發(fā)團隊提供無限可擴展性、<b class='flag-5'>細粒度</b>安全性、文件快速訪問等

    如何設定機器人語義地圖的細粒度級別

    0. 這篇文章干了啥? 機器人學的一個基本問題是創(chuàng)建機器人觀察到的場景的有用地圖表示,其中有用性由機器人利用地圖完成感興趣的任務的能力來衡量。最近的研究,包括構(gòu)建語義度量三維地圖,通
    的頭像 發(fā)表于 11-12 10:54 ?344次閱讀
    如何設定<b class='flag-5'>機器</b>人語義地圖的<b class='flag-5'>細粒度</b>級別

    步進電機如何自適應控制?步進電機如何細分驅(qū)動控制?

    步進電機是一種將電脈沖信號轉(zhuǎn)換為角位移或線位移的電機,廣泛應用于各種自動化控制系統(tǒng)。為了提高步進電機的性能,自適應控制和細分驅(qū)動控制是兩種重要的技術手段。 一、步進電機的自適應控制 自適應
    的頭像 發(fā)表于 10-23 10:04 ?603次閱讀

    偏置備用運行自適應定時控制裝置的分析與風險評估

    電子發(fā)燒友網(wǎng)站提供《偏置備用運行自適應定時控制裝置的分析與風險評估.pdf》資料免費下載
    發(fā)表于 09-13 10:08 ?0次下載
    偏置備用運行<b class='flag-5'>中</b><b class='flag-5'>自適應</b>定時控制裝置的分析與風險評估

    如何在自己的固件增加wifi自適應性相關功能,以通過wifi自適應認證測試?

    目前官方提供了自適應測試固件 ESP_Adaptivity_v2.0_26M_20160322.bin 用于進行 wifi 自適應認證測試. 請問如何在自己的固件增加 wifi 自適應
    發(fā)表于 07-12 08:29

    如何理解機器學習的訓練、驗證和測試

    理解機器學習的訓練、驗證和測試,是掌握機器學習核心概念和流程的重要一步。這三者不僅構(gòu)成了
    的頭像 發(fā)表于 07-10 15:45 ?4261次閱讀

    LMH0395低功耗擴展距離自適應電纜均衡器數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《LMH0395低功耗擴展距離自適應電纜均衡器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-04 11:37 ?0次下載
    LMH0395低功耗擴展距離<b class='flag-5'>自適應</b>電纜均衡器<b class='flag-5'>數(shù)據(jù)</b>表

    杭州中天微系統(tǒng):自適應時鐘頻率控制領域創(chuàng)新技術獲碩果

     此項發(fā)明主要涉及一種運用自適應時鐘實現(xiàn)頻率控制的方法、電路及硬件芯片,其適用范圍十分廣泛,如基于RISC-V架構(gòu)指令(或ARM架構(gòu)、X86架構(gòu))以及人工智能物聯(lián)網(wǎng)芯片等各類芯片產(chǎn)品。
    的頭像 發(fā)表于 05-06 10:31 ?382次閱讀
    杭州中天微系統(tǒng):<b class='flag-5'>自適應</b>時鐘頻率控制<b class='flag-5'>領域</b>創(chuàng)新技術獲碩果

    什么是自適應光學?自適應光學原理與方法的發(fā)展

    目前,世界上大型的望遠鏡系統(tǒng)都采用了自適應光學技術,自適應光學的出現(xiàn)為補償動態(tài)波前擾動,提高光波質(zhì)量提供了新的研究方向。 60多年來,自適應光學技術獲得蓬勃發(fā)展,現(xiàn)已應用于天文學、空間光學、激光、生物醫(yī)學等
    發(fā)表于 03-11 10:27 ?2128次閱讀

    TCP協(xié)議技術之自適應重傳

    自適應重傳是TCP協(xié)議的一種擁塞控制機制,旨在通過智能的方式處理網(wǎng)絡擁塞,并進行相應的數(shù)據(jù)重傳,以提高網(wǎng)絡的可靠性和性能。
    的頭像 發(fā)表于 02-03 17:03 ?1546次閱讀
    TCP協(xié)議技術之<b class='flag-5'>自適應</b>重傳

    語音數(shù)據(jù):智能駕駛車內(nèi)語音識別技術的基石

    的發(fā)展趨勢。 二、語音數(shù)據(jù)在智能駕駛的應用 訓練與優(yōu)化:高質(zhì)量的語音數(shù)據(jù)是訓練和優(yōu)化語音識別模型的基礎。通過大量的語音
    的頭像 發(fā)表于 01-31 16:07 ?568次閱讀

    ICLR 2024 清華/新國大/澳門大學提出一模通吃的多粒度圖文組合檢索MUG:通過不確定性建模,兩行代碼完成部署

    如上圖所示,不再采用嚴格的一對一匹配,而是促使模型專注于一對多匹配,即從細粒度過渡到粗粒度。因此,首先引入了一個用于噪聲增強的Augmenter來生成抖動,這個模塊直接作用于最終的特征空間。
    的頭像 發(fā)表于 01-25 16:53 ?653次閱讀
    ICLR 2024 清華/新國大/澳門大學提出一模通吃的多<b class='flag-5'>粒度</b>圖文組合檢索MUG:通過不確定性建模,兩行代碼完成部署