亚洲欧洲日韩综合色天使不卡,亚洲国产精品无码久久98

編者按：ACL 2019將于7月28日至8月2日在意大利佛羅倫薩舉行。在本屆大會(huì)的錄取論文中，共有25篇來(lái)自微軟亞洲研究院和微軟（亞洲）互聯(lián)網(wǎng)工程院。內(nèi)容涵蓋文本摘要、機(jī)器閱讀理解、推薦系統(tǒng)、視頻理解、語(yǔ)義解析、機(jī)器翻譯、人機(jī)對(duì)話等多個(gè)熱門領(lǐng)域。本文將為大家介紹來(lái)自不同領(lǐng)域中有代表性的8篇論文。

抽取式文本摘要

近兩年，自然語(yǔ)言中的預(yù)訓(xùn)練模型如ELMo、GPT和BERT給自然語(yǔ)言處理帶來(lái)了巨大的進(jìn)步，成為研究熱點(diǎn)中的熱點(diǎn)。這些模型首先需要在大量未標(biāo)注的文本上訓(xùn)練一個(gè)從左到右（left-to-right language model）或從右到左（right-to-left languagemodel）或完形填空式（masked language model）的語(yǔ)言模型。以上過程稱為預(yù)訓(xùn)練（pre-training）。預(yù)訓(xùn)練完的模型便具有了表示一個(gè)句子或一個(gè)詞序列的能力，再針對(duì)不同的下游任務(wù)進(jìn)行微調(diào)（finetuning），然后可以在下游任務(wù)上取得不錯(cuò)的效果。

但是上述預(yù)訓(xùn)練模型無(wú)論是對(duì)句子還是文章進(jìn)行建模時(shí)都把它們看成一個(gè)詞的序列。而文章是有層級(jí)結(jié)構(gòu)的，即文章是句子的序列，句子是詞的序列。微軟亞洲研究院針對(duì)文章的層級(jí)結(jié)構(gòu)提出文章表示模型HIBERT（HIerachical Bidirectional Encoder Representations from Transformers），HIBERT模型在抽取式文本摘要任務(wù)中取得了很好的效果。

代表論文：HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization

論文鏈接：https://arxiv.org/abs/1905.06566

如圖1所示，HIBERT的編碼器是一個(gè)Hierachical Transformer（句子級(jí)別的Transformer和文章級(jí)別的Transformer）。句子級(jí)別的Transformer通過句內(nèi)信息學(xué)習(xí)句子表示，而文章級(jí)別的Transformer通過句間信息學(xué)習(xí)帶上下句背景的句子表示。

圖1：HIBERT模型架構(gòu)

與BERT類似，HIBERT需要先進(jìn)行無(wú)監(jiān)督的預(yù)訓(xùn)練（pre-training），然后在下游任務(wù)上進(jìn)行有監(jiān)督的微調(diào)（finetuning）。HIBERT預(yù)訓(xùn)練的任務(wù)是掩蓋（MASK）文章中的幾句話，然后再預(yù)測(cè)這幾句話。如圖1所示，文章的第三句話被MASK掉了，我們用一個(gè)Decoder Transformer去預(yù)測(cè)這句話。

在大量未標(biāo)注數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練后，我們把HIBERT用在抽取式摘要中。抽取式摘要的任務(wù)定義如下：給定一篇文章，摘要模型判斷文章中的每個(gè)句子是否為這篇文章的摘要。得分最高的K個(gè)句子將被選為文章摘要（K一般在dev數(shù)據(jù)上調(diào)試得到）?；贖IBERT的摘要模型架構(gòu)如圖2所示，編碼器仍然是一個(gè)Hierachical Transformer，一篇文章的句子被HIBERT讀入后，對(duì)通過HIBERT學(xué)習(xí)到的帶上下句背景的句子表示進(jìn)行分類。

圖2：基于HIBERT的摘要模型架構(gòu)

HIBERT在兩個(gè)著名的摘要數(shù)據(jù)集CNN/DailyMail和New York Times上結(jié)果都表現(xiàn)很好，超越了BERT及其它在2018年和2019年初提出的所有摘要模型。

表1：摘要數(shù)據(jù)集CNN/DailyMail上不同模型的實(shí)驗(yàn)結(jié)果

表2：摘要數(shù)據(jù)集New York Times上不同模型的實(shí)驗(yàn)結(jié)果

機(jī)器閱讀理解

機(jī)器閱讀理解在近兩年取得了巨大的進(jìn)步，當(dāng)答案為文檔中的一個(gè)連續(xù)片段時(shí)，系統(tǒng)已經(jīng)可以十分準(zhǔn)確地從文檔中抽取答案。有許多工作從模型結(jié)構(gòu)的角度來(lái)提高閱讀理解系統(tǒng)的表現(xiàn)，借助大規(guī)模標(biāo)注數(shù)據(jù)訓(xùn)練復(fù)雜模型，并不斷刷新評(píng)測(cè)結(jié)果；同時(shí)也有工作通過增強(qiáng)訓(xùn)練數(shù)據(jù)來(lái)幫助系統(tǒng)取得更好的結(jié)果，如借助其它數(shù)據(jù)集聯(lián)合訓(xùn)練、通過回譯(back translation)豐富原文等。

然而在現(xiàn)實(shí)生活中，往往無(wú)法保證給定的文檔一定包含某個(gè)問題的答案，這時(shí)閱讀理解系統(tǒng)應(yīng)拒絕回答，而不是強(qiáng)行輸出文檔中的一個(gè)片段。針對(duì)這一問題，同樣有很多工作從模型角度切入，以提高系統(tǒng)判斷問題是否可以被回答的能力，做法可大致分為在抽取答案的同時(shí)預(yù)測(cè)問題可答性和先抽取答案再驗(yàn)證兩類。而微軟亞洲研究院的研究員從數(shù)據(jù)增廣的角度來(lái)嘗試解決這一問題。

代表論文：Learning to Ask Unanswerable Questions for Machine Reading Comprehension

論文鏈接：https://arxiv.org/abs/1906.06045

該論文提出根據(jù)可答問題、原文和答案來(lái)自動(dòng)生成相關(guān)的不可答問題，進(jìn)而作為一種數(shù)據(jù)增強(qiáng)的方法來(lái)提升閱讀理解系統(tǒng)的表現(xiàn)。我們利用現(xiàn)有閱讀理解數(shù)據(jù)集SQuAD 2.0來(lái)構(gòu)造不可答問題生成模型的訓(xùn)練數(shù)據(jù)，引入Pair2Seq作為問題生成模型來(lái)更好地利用輸入的可答問題和原文。

圖3：SQuAD 2.0數(shù)據(jù)集中的問題樣例

SQuAD 2.0數(shù)據(jù)集包含5萬(wàn)多個(gè)不可答問題，并且為不可答問題標(biāo)注了一個(gè)看起來(lái)正確的答案（plausible answer）。圖3展示了SQuAD 2.0中一個(gè)文檔和相應(yīng)的可答與不可答問題，可以看到這兩個(gè)問題的（plausible）答案對(duì)應(yīng)到同一個(gè)片段，用詞十分相似且答案具有的類型（organization），通過對(duì)可答問題進(jìn)行修改就能得到相應(yīng)的不可答問題。根據(jù)這一觀察，我們以被標(biāo)注的文本片段為支點(diǎn)來(lái)構(gòu)造訓(xùn)練問題生成模型所需的數(shù)據(jù)。

圖4：Pair2Seq模型與Seq2Seq模型的流程圖對(duì)比

在閱讀理解系統(tǒng)中，問題與文檔的交互是最為關(guān)鍵的組成部分，受此啟發(fā)，該論文提出Pair2Seq模型，在編碼（encoding）階段通過注意力機(jī)制（attention mechanism）得到問題和文檔的加強(qiáng)表示，共同用于解碼（decoding）。如表3所示，Pair2Seq模型在多個(gè)評(píng)價(jià)指標(biāo)上超過Seq2Seq模型。

表3：Pair2Seq模型與Seq2Seq模型在多個(gè)評(píng)價(jià)指標(biāo)上的對(duì)比結(jié)果

如表4所示，生成的問題作為增強(qiáng)數(shù)據(jù)能夠提高機(jī)器閱讀理解模型的表現(xiàn)。

表4：SQuAD 2.0數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

個(gè)性化推薦系統(tǒng)

個(gè)性化新聞推薦是解決新聞信息過載和實(shí)現(xiàn)個(gè)性化新聞信息獲取的重要技術(shù)，能夠有效提升用戶的新聞閱讀體驗(yàn)，被廣泛應(yīng)用于各種在線新聞網(wǎng)站和新聞APP中。學(xué)習(xí)準(zhǔn)確的用戶興趣的表示是實(shí)現(xiàn)個(gè)性化新聞推薦的核心步驟。對(duì)于很多用戶來(lái)說，他們不僅存在長(zhǎng)期的新聞閱讀偏好，也往往由于受社會(huì)和個(gè)人環(huán)境的影響，擁有一些短期和動(dòng)態(tài)的興趣。然而已有的新聞推薦方法通常只構(gòu)建單一的用戶表示，很難同時(shí)準(zhǔn)確建模這兩種興趣。

代表論文：Neural News Recommendation with Long- and Short-term User Representations

論文鏈接：https://nvagus.github.io/paper/ACL19NewsRec.pdf

該論文提出了Long- and Short-term User Representations（LSTUR）模型，用于在新聞推薦任務(wù)中同時(shí)學(xué)習(xí)用戶長(zhǎng)期和短期的興趣表示。模型的整體結(jié)構(gòu)可分為四個(gè)模塊，分別是新聞編碼器、用戶長(zhǎng)期興趣和短期興趣模型、以及候選新聞的個(gè)性化分?jǐn)?shù)預(yù)測(cè)模型。

新聞編碼器模塊從新聞標(biāo)題、新聞的類別和子類別構(gòu)建新聞表示向量。新聞標(biāo)題的原始文本先映射為詞向量，然后通過CNN獲得局部表示，最后通過Attention網(wǎng)絡(luò)選取重要的語(yǔ)義信息構(gòu)成新聞標(biāo)題表示。新聞的類別和子類別分別映射為稠密向量，與新聞標(biāo)題表示拼接作為最終的新聞表示。

圖5：LSTUR模型架構(gòu)

用戶短期興趣表示模塊用于從用戶近期點(diǎn)擊過的新聞歷史中學(xué)習(xí)用戶的表示向量，然后將這些點(diǎn)擊的新聞的表示向量按時(shí)間順序依次通過GRU模型得到用戶短期興趣表示。用戶長(zhǎng)期興趣表示模塊則是從用戶的ID中學(xué)習(xí)用戶的表示向量。對(duì)于如何同時(shí)學(xué)習(xí)用戶長(zhǎng)期和短期的興趣表示，該論文提出了兩種結(jié)合方式：（1）將用戶長(zhǎng)期興趣表示作為用戶短期用戶表示計(jì)算中GRU的初始狀態(tài)（LSTUR-ini）；（2）將用戶長(zhǎng)短期興趣表示拼接作為最終用戶表示（LSTUR-con）。候選新聞的個(gè)性化分?jǐn)?shù)通過用戶表示向量和新聞表示向量的內(nèi)積計(jì)算，作為眾多候選新聞針對(duì)特定用戶個(gè)性化排序的依據(jù)。

該論文提出的方法存在的一個(gè)問題是無(wú)法學(xué)習(xí)新到來(lái)用戶的長(zhǎng)期興趣的表示向量。在預(yù)測(cè)的過程中簡(jiǎn)單地將新用戶的長(zhǎng)期興趣表示置為零向量可能無(wú)法取得最優(yōu)的效果。為了解決這個(gè)問題，該論文提出在模型訓(xùn)練的過程中模擬新用戶存在的情況，具體做法是隨機(jī)掩蓋（mask）部分用戶的長(zhǎng)期興趣表示向量，即用戶的長(zhǎng)期興趣表示向量會(huì)以概率p被置為全零向量。實(shí)驗(yàn)表明，無(wú)論是LSTUR-ini還是LSTUR-con，在訓(xùn)練過程中加入長(zhǎng)期興趣隨機(jī)掩蓋（random mask）的做法均能明顯提升模型效果。

該論文在MSN新聞推薦數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，并和眾多基線方法進(jìn)行了對(duì)比，結(jié)果如表5所示。

表5：不同模型在MSN新聞推薦數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明，同時(shí)學(xué)習(xí)長(zhǎng)期和短期用戶興趣表示能夠有效地提升新聞個(gè)性化推薦的效果，因此該論文提出的兩種方法均明顯優(yōu)于基線方法。

視頻理解

近年來(lái)，隨著運(yùn)算能力的提升和數(shù)據(jù)集的涌現(xiàn)，有關(guān)視頻理解的研究逐漸成為熱點(diǎn)。視頻數(shù)據(jù)往往蘊(yùn)含著豐富的信息。其中，既包含較底層的特征信息，例如視頻幀的編碼表示；也包含一些高級(jí)的語(yǔ)義信息，例如視頻中出現(xiàn)的實(shí)體、實(shí)體所執(zhí)行的動(dòng)作和實(shí)體之間的交互等；甚至還包含很多時(shí)序結(jié)構(gòu)性語(yǔ)義信息，例如動(dòng)作序列、步驟和段落結(jié)構(gòu)等。而從數(shù)據(jù)的角度來(lái)看，視頻往往同時(shí)包含了圖像序列、音頻（波形）和語(yǔ)音（文本）等模態(tài)。視頻理解的目的就是通過各種精心設(shè)計(jì)的任務(wù)，利用多種不同模態(tài)的數(shù)據(jù)，來(lái)讓計(jì)算機(jī)學(xué)會(huì)“瀏覽”視頻，并產(chǎn)生“理解”行為。

代表論文：Dense Procedure Captioning in Narrated Instructional Videos

論文鏈接：

https://www.msra.cn/wp-content/uploads/2019/06/DenseProcedureCaptioninginNarratedInstructionalVideos.pdf

視頻可以看作是在時(shí)間維度上展開的一系列圖像幀，但相較于“一目了然”的圖片，視頻需要人們花費(fèi)更多的精力去觀看并進(jìn)行理解。如果機(jī)器能自動(dòng)地提取視頻內(nèi)容的摘要，并對(duì)視頻中的每一個(gè)結(jié)構(gòu)化的片段給出相應(yīng)的文字描述，這將能夠大量地節(jié)省用戶的時(shí)間——用戶不再需要完整地瀏覽整個(gè)視頻，而只需要瀏覽文字化的摘要即可獲悉其中內(nèi)容。（場(chǎng)景如圖6所示）

圖6：視頻結(jié)構(gòu)化片段相應(yīng)文字描述的場(chǎng)景展示

為了滿足這個(gè)需求，我們針對(duì) “指導(dǎo)性視頻 (Instructional Video)”，設(shè)計(jì)了一個(gè)名為Procedure Extractor的視頻理解系統(tǒng)：通過輸入視頻和視頻內(nèi)的敘述性旁白（Narrative Transcript），輸出視頻中每一個(gè)步驟（Procedure）的時(shí)間片段（起始時(shí)間與結(jié)束時(shí)間），并且為每一個(gè)視頻片段生成一段文本描述。

模型結(jié)構(gòu)如圖7所示。我們首先對(duì)視頻旁白（Transcript）進(jìn)行分句，再使用一個(gè)經(jīng)過預(yù)訓(xùn)練的BERT模型提取句子特征表示，然后通過多層self attention獲得整個(gè)transcript的特征表示，將其與利用ResNet抽取的視頻幀特征拼接，并形成一個(gè)完整的特征矩陣。

為了能處理不同長(zhǎng)度Procedure的信息流動(dòng)，我們仿照Fast-RCNN系列模型的方法，使用了多個(gè)不同大小的卷積核和多個(gè)不同尺度的Anchor來(lái)對(duì)整個(gè)視頻特征矩陣進(jìn)行卷積操作，并通過一個(gè)LSTM模型來(lái)挑選包含正確Procedure的Anchors。在描述生成階段，我們使用與片段時(shí)間對(duì)應(yīng)的視頻、Transcript信息，通過一個(gè)Sequence to Sequence模型來(lái)生成最終的視頻片段描述。

圖7：Procedure Extractor模型架構(gòu)

這項(xiàng)工作通過Azure Speech to Text云服務(wù)從視頻中抽取旁白中Transcript。在YouCook II數(shù)據(jù)集上的Procedure Extraction和Procedure Captioning任務(wù)上都取得了最好的成績(jī)。

表6：不同模型在YouCook II數(shù)據(jù)集的Procedure Extraction任務(wù)上的實(shí)驗(yàn)結(jié)果

表7：不同模型在YouCook II數(shù)據(jù)集的Procedure Captioning任務(wù)上的實(shí)驗(yàn)結(jié)果

語(yǔ)義解析

語(yǔ)義解析（semantic parsing）的目的是把自然語(yǔ)言自動(dòng)轉(zhuǎn)化為一種機(jī)器可以理解并執(zhí)行的表達(dá)形式。在基于知識(shí)庫(kù)的搜索場(chǎng)景中，語(yǔ)義解析模型可以將用戶查詢轉(zhuǎn)換為可以在結(jié)構(gòu)化知識(shí)庫(kù)（如Microsoft Satori、Google Knowledge Graph）上可以執(zhí)行的SPARQL語(yǔ)句；在企業(yè)數(shù)據(jù)交互場(chǎng)景中，語(yǔ)義解析模型可以將用戶的語(yǔ)言轉(zhuǎn)換為結(jié)構(gòu)化查詢語(yǔ)句（Structured Query Language, SQL）；在虛擬語(yǔ)音助手場(chǎng)景中，語(yǔ)義解析模型可以將用戶的語(yǔ)言轉(zhuǎn)換為調(diào)用不同應(yīng)用程序的API語(yǔ)句。

代表論文：Coupling Retrieval and Meta-Learning for Context-Dependent Semantic Parsing

論文鏈接：https://arxiv.org/abs/1906.07108

在該論文中，我們以對(duì)話式問答和基于上下文的代碼生成為例介紹了我們?cè)谡Z(yǔ)義解析領(lǐng)域的研究進(jìn)展。人們?cè)趯?duì)樣例x做決策的時(shí)候，往往不是從頭開始寫，而是先從已有的知識(shí)庫(kù)中找到相似的樣例(x’,y’)，然后進(jìn)行改寫。傳統(tǒng)的retrieve-and-edit的方法通常只考慮一個(gè)(x’,y’)樣例，而一個(gè)結(jié)構(gòu)化規(guī)范語(yǔ)義表示可能來(lái)自于多個(gè)相關(guān)的樣例中。以此為出發(fā)點(diǎn)，本論文提出了一種結(jié)合檢索與元學(xué)習(xí)（meta-learning）的語(yǔ)義解析方法。

圖8：結(jié)合檢索與元學(xué)習(xí)和語(yǔ)義解析方法框架

整體框架如圖8所示，其中包含了檢索和元學(xué)習(xí)兩部分。在檢索部分，首先采樣一批測(cè)試數(shù)據(jù)D’，然后利用基于上下文的檢索模型R找到相似的樣例S’作為訓(xùn)練數(shù)據(jù)，從而構(gòu)成一個(gè)任務(wù)。在訓(xùn)練階段，首先使用訓(xùn)練數(shù)據(jù)得到特定任務(wù)的模型M_(θ^')（step 1），然后再利用測(cè)試數(shù)據(jù)更新元學(xué)習(xí)器M_θ（step 2）。在預(yù)測(cè)階段，先使用相似樣本更新元學(xué)習(xí)器的參數(shù)，然后再進(jìn)行預(yù)測(cè)。

圖9：基于上下文的檢索模型框架

圖9是基于上下文的檢索模型，該模型是一個(gè)建立在變分自編碼器（VAE）框架下的編碼-解碼（encoder-decoder）模型，將文本和上下文環(huán)境編碼成一個(gè)潛層變量z，然后利用該變量解碼出邏輯表達(dá)式。在檢索的過程中，使用KL散度作為距離度量得到相似的樣本。

該論文在CONCODE和CSQA兩個(gè)公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，可以看出結(jié)合檢索和元學(xué)習(xí)取得了最好的成績(jī)。

表8：不同模型在CONCODE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

表9：不同模型在CSQA數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

同時(shí)，這種檢索模型不僅能夠考慮語(yǔ)義信息，如“spouse” 和 “married”，而且能夠考慮上下文信息，如HashMap和Map，因此能夠很好提升檢索的質(zhì)量。

圖10：檢索模型在CONCODE和CSQA數(shù)據(jù)集上的結(jié)果展示

代表論文：Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation

論文鏈接：https://arxiv.org/abs/1905.08205

近年來(lái)，通過自然語(yǔ)言直接生成SQL查詢語(yǔ)句引起了越來(lái)越多的關(guān)注。目前比較先進(jìn)的模型在已有的NL-to-SQL的數(shù)據(jù)集上（例如WikiSQL、ATIS、GEO等）都取得超過80%的準(zhǔn)確率。然而，在最近發(fā)布的Spider數(shù)據(jù)集上，這些已有的模型并沒有取得令人滿意的效果。究其原因，Spider數(shù)據(jù)集有兩個(gè)特點(diǎn)：首先，Spider數(shù)據(jù)集里的SQL查詢語(yǔ)句比目前已有的Text-to-SQL數(shù)據(jù)集更加復(fù)雜，例如SQL語(yǔ)句中包含GROUPBY、HAVING、JOIN、NestedQuery等部分。通過自然語(yǔ)言生成復(fù)雜的SQL查詢語(yǔ)句尤其困難，本質(zhì)原因是面向語(yǔ)義的自然語(yǔ)言和面向執(zhí)行的SQL查詢語(yǔ)句之間不匹配，SQL越復(fù)雜，不匹配的越明顯；其次，Spider數(shù)據(jù)集是跨領(lǐng)域的（cross-domain），即訓(xùn)練和測(cè)試是在完全不同的database上做的。在跨領(lǐng)域的設(shè)置下，自然語(yǔ)言中出現(xiàn)了大量的out-of-domain（OOD）的單詞，給預(yù)測(cè)列名造成了困難。

針對(duì)這兩個(gè)挑戰(zhàn)，我們提出了IRNet模型。IRNet使用了一個(gè)schema linking模塊，根據(jù)數(shù)據(jù)庫(kù)的schema信息，識(shí)別自然語(yǔ)言中的提到的表名和列名，建立自然語(yǔ)言和數(shù)據(jù)庫(kù)之間的連接。接下來(lái)，為了解決面向語(yǔ)義的自然語(yǔ)言和面向執(zhí)行的SQL查詢語(yǔ)句之間不匹配的問題，與以往的Text-to-SQL方法直接生成SQL查詢語(yǔ)句不同的是，IRNet首先生成一種中間的語(yǔ)義表示形式SemQL，然后再將中間表示轉(zhuǎn)換成SQL查詢語(yǔ)句。

圖11：IRNet模型框架

實(shí)驗(yàn)結(jié)果如表10所示，在Spider數(shù)據(jù)集上，IRNet實(shí)現(xiàn)了46.7%的準(zhǔn)確率，比已有的最好方法提升了19.5%的準(zhǔn)確率。同時(shí)，IRNet+Bert實(shí)現(xiàn)了54.7%的準(zhǔn)確率。

表10：不同模型在Spider數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

到目前為止，微軟亞洲研究院的IRNet模型在Spider Challenge比賽上取得了第一名的成績(jī)。

圖12：Spider Challenge比賽結(jié)果

無(wú)監(jiān)督機(jī)器翻譯

無(wú)監(jiān)督機(jī)器翻譯僅僅利用單語(yǔ)的數(shù)據(jù)而不是雙語(yǔ)并行數(shù)據(jù)進(jìn)行訓(xùn)練，對(duì)于低資源的語(yǔ)言翻譯非常重要。當(dāng)前，無(wú)監(jiān)督機(jī)器翻譯在相似語(yǔ)言對(duì)上（例如英語(yǔ)-德語(yǔ)、葡萄牙語(yǔ)-加利西亞語(yǔ)）取得了非常好的效果。然而在距離較遠(yuǎn)的語(yǔ)言對(duì)上（例如丹麥語(yǔ)-加利西亞語(yǔ)），由于無(wú)監(jiān)督的語(yǔ)義對(duì)齊比較困難，通常表現(xiàn)較差。在實(shí)驗(yàn)中，我們發(fā)現(xiàn)在距離較近的葡萄牙語(yǔ)-加利西亞語(yǔ)上能取得23.43的BLEU分，而在距離較遠(yuǎn)的丹麥語(yǔ)-加利西亞語(yǔ)上只有6.56分。微軟亞洲研究院的研究人員嘗試解決遠(yuǎn)距離語(yǔ)言的無(wú)監(jiān)督翻譯問題。

代表論文：Unsupervised Pivot Translation for Distant Languages

論文鏈接：https://arxiv.org/abs/1906.02461

我們考慮到兩個(gè)距離較遠(yuǎn)的語(yǔ)言能通過多個(gè)中轉(zhuǎn)語(yǔ)言鏈接起來(lái)，其中兩個(gè)相鄰的中轉(zhuǎn)語(yǔ)言間的翻譯易于兩個(gè)原始語(yǔ)言的翻譯（距離更近或者可用單語(yǔ)數(shù)據(jù)更多）。如圖13所示，距離較遠(yuǎn)的丹麥語(yǔ)-加利西亞語(yǔ)（Da-Gl，圖中紅色路徑）能拆分成丹麥語(yǔ)-英語(yǔ)（Da-En）、英語(yǔ)-西班牙語(yǔ)（En-Es）、西班牙語(yǔ)-加利西亞語(yǔ)（Es-Gl）三跳無(wú)監(jiān)督翻譯路徑（圖中藍(lán)色路徑），拆分后的翻譯性能為12.14分，相比直接的丹麥語(yǔ)-加利西亞語(yǔ)翻譯（6.56分）有大幅提高。因此，我們?cè)谡撐闹嗅槍?duì)遠(yuǎn)距離語(yǔ)言對(duì)提出了無(wú)監(jiān)督中轉(zhuǎn)翻譯（Unsupervised Pivot Translation）方法。

圖13：無(wú)監(jiān)督中轉(zhuǎn)翻譯在兩個(gè)語(yǔ)言之間有多條可選路徑

無(wú)監(jiān)督中轉(zhuǎn)翻譯面臨的一個(gè)挑戰(zhàn)是兩個(gè)語(yǔ)言之間可選路徑很多（如圖13藍(lán)色、黑色路徑所示，實(shí)際場(chǎng)景中可選路徑更多），而不同路徑的翻譯精度不同，如何選擇精度最高的路徑對(duì)于保證無(wú)監(jiān)督中轉(zhuǎn)翻譯的效果非常重要。由于可選路徑隨著跳數(shù)以及中轉(zhuǎn)語(yǔ)言數(shù)呈指數(shù)增長(zhǎng)趨勢(shì)，遍歷計(jì)算每條路徑的精度代價(jià)巨大。對(duì)此，我們提出了Learning to Route（LTR）的路徑選擇算法，該算法以單跳的BLEU分及語(yǔ)言ID作為特征，利用多層LSTM模型預(yù)測(cè)多跳翻譯的精度，并據(jù)此來(lái)選擇最好的中轉(zhuǎn)路徑。關(guān)于LTR算法的詳細(xì)內(nèi)容可參考論文。

我們?cè)?0個(gè)語(yǔ)言一共294個(gè)語(yǔ)言對(duì)上進(jìn)行了實(shí)驗(yàn)，來(lái)驗(yàn)證我們的無(wú)監(jiān)督中轉(zhuǎn)翻譯以及LTR路徑選擇算法的性能。表11列出了部分語(yǔ)言對(duì)的實(shí)驗(yàn)結(jié)果，其中DT代表直接從源語(yǔ)言到目標(biāo)語(yǔ)言的無(wú)監(jiān)督翻譯，LTR代表我們提出的中轉(zhuǎn)算法，GT（Ground Truth）代表最好的中轉(zhuǎn)翻譯，也決定了我們方法的上限，GT（?）和LTR（?）分別代表GT和LTR相對(duì)于直接翻譯DT的提升，Pivot-1和Pivot-2代表中轉(zhuǎn)路徑的兩個(gè)中轉(zhuǎn)語(yǔ)言（我們最多考慮三跳路徑）。如果是一個(gè)兩跳路徑，那么Pivot-1和Pivot-2相同；如果是直接翻譯，那么Pivot-1和Pivot-2為空。

表11：Learning to Route（LTR）路徑選擇算法在部分語(yǔ)言對(duì)上的實(shí)驗(yàn)結(jié)果

可以看到，無(wú)監(jiān)督中轉(zhuǎn)翻譯相比無(wú)監(jiān)督直接翻譯有較大的BLEU分提升，而且我們提出的LTR方法的精度非常接近于最好的中轉(zhuǎn)翻譯GT，表明了我們提出的無(wú)監(jiān)督中轉(zhuǎn)翻譯以及LTR路徑選擇算法的有效性。例如，我們的方法（LTR）在丹麥語(yǔ)-加利西亞語(yǔ)（Da-Gl）、保加利亞語(yǔ)-瑞典語(yǔ)（Bg-Sv）、葡萄牙-白俄羅斯語(yǔ)（Pt-Be）上分別有5.58、5.20、4.10分的提升。

人機(jī)對(duì)話

端到端開放域?qū)υ捝墒侨藱C(jī)對(duì)話領(lǐng)域近幾年的一個(gè)研究熱點(diǎn)。開放域?qū)υ捝芍械囊粋€(gè)基本問題是如何避免產(chǎn)生平凡回復(fù)(safe response)。一般來(lái)講，平凡回復(fù)的產(chǎn)生來(lái)源于開放域?qū)υ捴写嬖诘妮斎牒突貜?fù)間的 “一對(duì)多”關(guān)系。相對(duì)于已有工作“隱式”地對(duì)這些關(guān)系進(jìn)行建模，我們考慮“顯式”地表示輸入和回復(fù)間的對(duì)應(yīng)關(guān)系，從而使得對(duì)話生成的結(jié)果變得可解釋。不僅如此，我們還希望生成模型可以允許開發(fā)者能夠像“拼樂高玩具”一樣通過控制一些屬性定制對(duì)話生成的結(jié)果。

代表論文：Neural Response Generation with Meta-Words

論文鏈接：https://arxiv.org/pdf/1906.06050.pdf

在這篇論文中，我們提出用meta-word來(lái)表示輸入和回復(fù)間的關(guān)系。Meta-word代表了一組回復(fù)屬性（如圖14中的回復(fù)意圖（Act），回復(fù)長(zhǎng)度（Len）等）。利用meta-word進(jìn)行對(duì)話生成的好處包括：（1）模型具有很好的可解釋性；（2）通過訂制meta-word，開發(fā)者可以控制回復(fù)生成；（3）情感，話題，人格等都可以定義為meta-word中的一個(gè)屬性，因此諸如情感對(duì)話生成，個(gè)性化對(duì)話生成等熱點(diǎn)問題都可通過該論文提出的框架解決；（4）工程師們可以通過增加或調(diào)整meta-word不斷提升生成模型的性能。

圖14：基于meta-word的回復(fù)生成

利用meta-word進(jìn)行回復(fù)生成需要解決兩個(gè)問題：（1）如何確?；貜?fù)和輸入相關(guān)；（2）如何確保回復(fù)能夠如實(shí)地表達(dá)預(yù)先定義的meta-word。為了解決這兩個(gè)問題，我們將meta-word的表達(dá)形式化成回復(fù)生成中的目標(biāo)，提出了一個(gè)基于目標(biāo)跟蹤記憶網(wǎng)絡(luò)的生成模型（如圖15）。該網(wǎng)絡(luò)由一個(gè)狀態(tài)記憶板和一個(gè)狀態(tài)控制器組成，前者記錄生成過程中meta-word的表達(dá)情況，后者則根據(jù)當(dāng)前已經(jīng)生成的部分動(dòng)態(tài)地更新記憶板中的存儲(chǔ)并將目前的表達(dá)情況和最終表達(dá)目的的差距傳達(dá)給解碼器。

在模型學(xué)習(xí)過程中，我們?cè)趥鹘y(tǒng)的似然目標(biāo)之外增加了一個(gè)狀態(tài)更新?lián)p失，以使得目標(biāo)追蹤能夠更好地利用訓(xùn)練數(shù)據(jù)中的監(jiān)督信號(hào)。不僅如此，我們還提出了一個(gè)meta-word的預(yù)測(cè)方案，從而使得整個(gè)架構(gòu)可以在實(shí)際中使用。

圖15：目標(biāo)追蹤記憶網(wǎng)絡(luò)

我們?cè)赥witter和Reddit兩個(gè)數(shù)據(jù)集上考察了生成回復(fù)的相關(guān)性、多樣性、“一對(duì)多“關(guān)系建模的準(zhǔn)確性、以及meta-word表達(dá)的準(zhǔn)確性。不僅如此，我們還對(duì)生成結(jié)果進(jìn)行了人工評(píng)測(cè)。實(shí)驗(yàn)結(jié)果如下：

表12：相關(guān)性、多樣性、“一對(duì)多”關(guān)系建模準(zhǔn)確性評(píng)測(cè)結(jié)果

表13：Meta-word表達(dá)準(zhǔn)確性評(píng)測(cè)結(jié)果

表14：人工評(píng)測(cè)結(jié)果

更有意思的是，當(dāng)我們逐漸地增加meta-word中的屬性變量，我們發(fā)現(xiàn)驗(yàn)證集上的PPL會(huì)逐漸降低，這也印證了“通過調(diào)整meta-word可以不斷提升模型性能”的論斷。

表15：不同屬性帶來(lái)的驗(yàn)證集PPL變化

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴