引言
自然語(yǔ)言理解(Natural Language Understanding,NLU)是希望機(jī)器像人一樣,具備正常人的語(yǔ)言理解能力,是人機(jī)對(duì)話系統(tǒng)中重要的組成部分。NLU主要包括兩大任務(wù),分別是意圖識(shí)別(Intent Detection)和槽填充(Slot Filling)。其中,意圖識(shí)別就是判斷用戶的意圖,是一個(gè)文本分類(lèi)的問(wèn)題;槽填充是識(shí)別句子中重要的語(yǔ)義成分,常建模成序列標(biāo)注的任務(wù)。
本次分享EMNLP2020中的三篇和NLU相關(guān)的文章,介紹這個(gè)領(lǐng)域目前的研究進(jìn)展和關(guān)注方向。
文章概覽
SlotRefine: A Fast Non-Autoregressive Model for Joint Intent Detection and Slot Filling
論文提出了一個(gè)非自回歸的意圖識(shí)別和槽填充聯(lián)合模型,該模型以Transformer為基本結(jié)構(gòu),使用兩階段迭代機(jī)制顯著地提高了模型性能和模型速度。
論文地址:https://www.aclweb.org/anthology/2020.emnlp-main.152
Incremental Processing in the Age of Non-Incremental Encoders: An Empirical Assessment of Bidirectional Models for Incremental NLU
論文提出了三種適用于增量NLU任務(wù)的評(píng)價(jià)指標(biāo),探究了目前非增量編碼器在增量系統(tǒng)中的模型性能。
論文地址:https://www.aclweb.org/anthology/2020.emnlp-main.26
End-to-End Slot Alignment and Recognition for Cross-Lingual NLU
論文提出了用于一種跨語(yǔ)言自然語(yǔ)言理解的端到端槽位標(biāo)簽對(duì)齊和識(shí)別模型,該模型運(yùn)用注意力機(jī)制將目標(biāo)語(yǔ)言文本表示和源語(yǔ)言的槽位標(biāo)簽軟對(duì)齊,并且同時(shí)預(yù)測(cè)意圖和槽標(biāo)簽。
論文地址:https://www.aclweb.org/anthology/2020.emnlp-main.410/
1論文細(xì)節(jié)
論文動(dòng)機(jī)
以往的自然語(yǔ)言理解模型大多依賴于自回歸的方法(例如,基于RNN的模型或seq2seq的架構(gòu))來(lái)捕捉話語(yǔ)中的語(yǔ)法結(jié)構(gòu),并且在槽填充任務(wù)中常使用條件隨機(jī)場(chǎng)(CRF)模塊來(lái)確保序列標(biāo)簽之間的合理性。然而本文作者發(fā)現(xiàn),對(duì)于槽填充任務(wù)而言,從槽塊之間建模依賴關(guān)系就足以滿足任務(wù)需要,而使用自回歸的方法對(duì)整個(gè)序列的依賴關(guān)系建模會(huì)導(dǎo)致冗余計(jì)算和高延遲。因此作者使用非自回歸的方法來(lái)建模意圖識(shí)別和槽填充兩個(gè)任務(wù),從而消除非必要的時(shí)間依賴,并且采用兩階段迭代機(jī)制來(lái)處理由于條件獨(dú)立性導(dǎo)致的槽標(biāo)簽之間的不合理問(wèn)題。
模型
模型主要包括兩個(gè)方面,分別是非自回歸的聯(lián)合模型以及兩階段改善機(jī)制。
非自回歸的聯(lián)合模型
模型使用了《Attention is all you need》(Vaswani等人, 2017)這篇論文中提出的Transformer模型的encoder部分作為本文模型編碼層的主要結(jié)構(gòu)。與原始Transformer不同的是,作者將絕對(duì)位置編碼改為相對(duì)位置表示來(lái)建模文本序列信息。
對(duì)于每個(gè)輸入的文本序列,都會(huì)在初始位置添加一個(gè)特殊的符號(hào)“CLS”來(lái)表示句子信息。文本序列的輸入為,經(jīng)過(guò)Multi-Head Self Attention編碼后得到輸出向量為 。其中,向量將用于意圖分類(lèi),將和每個(gè)時(shí)刻的拼接用于對(duì)應(yīng)的槽位預(yù)測(cè)。意圖識(shí)別和槽填充的計(jì)算公式如下:
聯(lián)合模型的任務(wù)目標(biāo)是通過(guò)優(yōu)化交叉熵?fù)p失函數(shù)來(lái)最大化條件概率分布:
與自回歸模型不同的是,這個(gè)模型中每個(gè)槽位預(yù)測(cè)可以并行優(yōu)化,由此提高了模型速度。
兩階段改善機(jī)制
由于槽位標(biāo)簽之間的條件獨(dú)立性,上述非自回歸聯(lián)合模型難以捕獲每個(gè)槽位塊之間的依賴關(guān)系,從而導(dǎo)致一些槽位標(biāo)簽不合理現(xiàn)象。如下圖所示,根據(jù)BIO標(biāo)簽規(guī)則,“I-song”并不能跟在“B-singer”后面。
因此,作者提出兩階段的迭代機(jī)制,使用兩次槽位預(yù)測(cè)的方法來(lái)改善這個(gè)問(wèn)題。模型的輸入除了文本信息之外,還有槽位標(biāo)簽信息,初始化的槽位標(biāo)簽均為“O”。在第一階段,模型的目標(biāo)是預(yù)測(cè)每個(gè)槽塊的起始標(biāo)簽“B-tags”,在第二階段,預(yù)測(cè)的“B-tags”將作為相應(yīng)槽位標(biāo)簽的輸入,由此,模型可以進(jìn)一步預(yù)測(cè)出“B-tags”后面對(duì)應(yīng)的標(biāo)簽。兩階段的改善機(jī)制可以看作是自回歸與非自回歸之間的權(quán)衡,其中完整的馬爾可夫過(guò)程可以表示為:
其中,是第一階段的槽標(biāo)簽預(yù)測(cè)結(jié)果。
實(shí)驗(yàn)
實(shí)驗(yàn)使用的數(shù)據(jù)集是NLU領(lǐng)域兩個(gè)經(jīng)典的公開(kāi)數(shù)據(jù)集:ATIS(Tur等人,2010)和Snips(Coucke等人,2018)。作者將本文模型與六種意圖識(shí)別和槽填充聯(lián)合模型進(jìn)行了比較。結(jié)果如下:
由上表可知,本文模型SlotRefine在ATIS數(shù)據(jù)集上取得了最佳效果,在槽填充F1值、意圖識(shí)別準(zhǔn)確率和句子層面準(zhǔn)確率三個(gè)指標(biāo)上均超過(guò)了現(xiàn)有模型。在Snips數(shù)據(jù)集上,模型效果沒(méi)有Stack-Propagation好。從消融實(shí)驗(yàn)結(jié)果看到,在非自回歸聯(lián)合模型上加入CRF層會(huì)有效提高槽填充任務(wù)的性能,但會(huì)降低意圖識(shí)別準(zhǔn)確率和句子層面準(zhǔn)確率,而本文提出的兩階段改善機(jī)制則可以顯著提高模型效果。
作者還比較了模型速度上的改進(jìn)效果,由上表可知,在ATIS數(shù)據(jù)集上,與現(xiàn)有的最優(yōu)模型Stack-Propagation相比,本文提出的模型SlotRefine的速度提高了4.31倍。由于每個(gè)槽標(biāo)簽均可以并行計(jì)算,因此模型的推理延遲可以顯著減少。
2論文動(dòng)機(jī)
增量學(xué)習(xí)是指模型能夠不斷地處理現(xiàn)實(shí)世界中連續(xù)的信息流,在吸收新知識(shí)的同時(shí)保留甚至整合、優(yōu)化舊知識(shí)的能力。在NLP領(lǐng)域,增量處理方式在認(rèn)知上更加合理,并且在工程層面,一些實(shí)時(shí)應(yīng)用(如自然語(yǔ)言理解、對(duì)話狀態(tài)追蹤、自然語(yǔ)言生成、語(yǔ)音合成和語(yǔ)音識(shí)別)要求在一定時(shí)間步長(zhǎng)的部分輸入的基礎(chǔ)上必須提供部分輸出。雖然人類(lèi)使用增量的方式處理語(yǔ)言,但目前在NLP中效果最好的語(yǔ)言編碼器(如BiLSTM和Transformer)并不是這樣的。BiLSTM和Transformer均假定編碼的整個(gè)序列是完全可用的,可以向前或向后處理(BiLSTM),也可以作為一個(gè)整體處理(Transformer)。本文主要想探究這些非增量模型在增量系統(tǒng)下的效果,作者在不同的NLU數(shù)據(jù)集上實(shí)驗(yàn)了五個(gè)非增量模型,并使用三個(gè)增量評(píng)估指標(biāo)比較它們的性能。
增量系統(tǒng)評(píng)價(jià)指標(biāo)
增量系統(tǒng)可以通過(guò)添加、撤銷(xiāo)和替換輸出部分來(lái)編輯輸出。一個(gè)效果良好的增量系統(tǒng)應(yīng)當(dāng)能夠盡快產(chǎn)生準(zhǔn)確的輸出,并且撤銷(xiāo)和替換要盡可能少。由此,本文提出三個(gè)評(píng)價(jià)指標(biāo):編輯開(kāi)銷(xiāo)、校正時(shí)間和相對(duì)正確性。
編輯開(kāi)銷(xiāo)(Edit Overhead,EO):不必要的編輯比例,范圍在0-1之間,越接近于0,說(shuō)明編輯越少。
校正時(shí)間(Correction Time,CT):系統(tǒng)提交某一輸出內(nèi)容的最終決策之前所花的時(shí)間,范圍在0-1之間,越接近于0,說(shuō)明系統(tǒng)越快做出最終決策。
相對(duì)正確性(Relative Correctness,RC):輸出相對(duì)于非增量輸出時(shí)正確的比例,范圍在0-1之間,越接近于1表示系統(tǒng)的輸出大部分時(shí)刻下都是非增量輸出的正確前綴。
作者以詞性標(biāo)注任務(wù)為例展示了三個(gè)評(píng)價(jià)指標(biāo)的計(jì)算過(guò)程。如下圖所示:
模型
作者一共探究了五種非增量模型在增量系統(tǒng)中的表現(xiàn),分別是:(a) LSTM模型;(b)BiLSTM模型;(c)LSTM+CRF;(d)BiLSTM+CRF;(e)BERT。其中,(a)、(b)、(e)模型同時(shí)用于序列標(biāo)注和文本分類(lèi)任務(wù),(c)和(d)模型只用于序列標(biāo)注任務(wù)。
本文探索了三種策略的效果,分別是截?cái)嘤?xùn)練、延遲輸出和語(yǔ)言:
截?cái)嘤?xùn)練(truncated training):去掉訓(xùn)練集中每個(gè)句子的結(jié)尾來(lái)修改訓(xùn)練機(jī)制。
延遲輸出(delayed output):允許模型在輸出當(dāng)前時(shí)刻單詞的標(biāo)簽之前觀察后續(xù)1-2個(gè)時(shí)刻的單詞。
語(yǔ)言(prophecies):使用GPT-2語(yǔ)言模型將每個(gè)時(shí)刻的輸入前綴作為左上下文,并由此生成一個(gè)持續(xù)到句子末尾的文本,創(chuàng)建一個(gè)假設(shè)的完整上下文,以滿足模型的非增量特性的需要。如下圖所示:
實(shí)驗(yàn)
作者一共在十個(gè)英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),六個(gè)數(shù)據(jù)集用于序列標(biāo)注任務(wù):組塊分析(Chunk)、槽填充(Slot Filling (ATIS)和Slot Filling (SNIPS))、命名實(shí)體識(shí)別(NER)、詞性標(biāo)注(Part-of-Speech Tagging) 、語(yǔ)義角色標(biāo)注(Semantic Role Labeling);四個(gè)數(shù)據(jù)集用于文本分類(lèi)任務(wù):意圖識(shí)別(Intent (ATIS)和Intent (SNIPS))、情感分析(Positive/Negative和Pros/Cons)。其中,Chunking、NER、SRL和Slot Filling均使用BIO標(biāo)簽體系并且使用F1值進(jìn)行評(píng)估,其他的任務(wù)使用準(zhǔn)確率評(píng)價(jià)。
五種模型在上述數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如下所示,括號(hào)里代表使用了截?cái)嘤?xùn)練的結(jié)果。從中可知,大部分情況下BiLSTM比LSTM效果好;BERT可以提升所有任務(wù)性能;截?cái)嘤?xùn)練后模型性能都有所下降,但BERT仍優(yōu)于其他所有模型。整體來(lái)說(shuō),目前的非增量編碼器可以適應(yīng)在增量系統(tǒng)下使用,其性能產(chǎn)生不會(huì)有太大影響。
模型在三個(gè)增量系統(tǒng)的評(píng)價(jià)指標(biāo)上的表現(xiàn)結(jié)果如下所示。從中可以發(fā)現(xiàn),除BERT外,模型在序列標(biāo)注任務(wù)的編輯開(kāi)銷(xiāo)和校正時(shí)間均較低;在文本分類(lèi)中,由于往往需要捕捉全局信息,編輯開(kāi)銷(xiāo)和校正時(shí)間均較高;對(duì)于相對(duì)正確性這個(gè)指標(biāo),在序列標(biāo)注任務(wù)中BERT比其他模型效果都差,在文本分類(lèi)任務(wù)中性能差不多。
作者還探究了不同策略的效果,從圖中可知,截?cái)嘤?xùn)練可以有效減少編輯開(kāi)銷(xiāo),提高相對(duì)正確性;預(yù)言對(duì)于文本分類(lèi)任務(wù)有負(fù)面作用,但對(duì)于一些序列標(biāo)注任務(wù)可能有效。BERT模型在增量評(píng)價(jià)指標(biāo)上的缺陷可以通過(guò)這些策略得到一定緩解,從而使其在增量系統(tǒng)下的模型效果與其他模型一樣好。
3
論文動(dòng)機(jī)
NLU可以將話語(yǔ)解析成特定的語(yǔ)義框架,以識(shí)別用戶的需求。雖然目前神經(jīng)網(wǎng)絡(luò)模型在意圖檢測(cè)和槽填充方面取得了很高的準(zhǔn)確性,在兩個(gè)公開(kāi)的英文數(shù)據(jù)集上模型的效果已經(jīng)達(dá)到95%以上,但如果使用一種新的語(yǔ)言訓(xùn)練這樣的模型仍需要大量的數(shù)據(jù)和人工標(biāo)注工作。因此考慮通過(guò)跨語(yǔ)言學(xué)習(xí)將模型從高資源語(yǔ)言遷移到低資源語(yǔ)言,從而減少數(shù)據(jù)收集和標(biāo)注的工作量。
跨語(yǔ)言遷移學(xué)習(xí)主要有兩種方式:一種是使用多語(yǔ)言模型來(lái)實(shí)現(xiàn)語(yǔ)言的遷移,例如multilingual BERT;另一種是通過(guò)機(jī)器翻譯的方式先統(tǒng)一語(yǔ)言類(lèi)型,雖然它在跨語(yǔ)言文本分類(lèi)上取得了很好的效果,但在序列標(biāo)注任務(wù)上存在一些挑戰(zhàn),源語(yǔ)言的標(biāo)簽需要映射到目標(biāo)語(yǔ)言中,而如果兩個(gè)語(yǔ)言差別較大,則較難找到良好的映射關(guān)系。
目前跨語(yǔ)言NLU任務(wù)中存在一些挑戰(zhàn):(1)可以使用的數(shù)據(jù)集(Multilingual ATIS)僅支持三種語(yǔ)言,語(yǔ)言類(lèi)型不足;(2)現(xiàn)有的模型使用機(jī)器翻譯和槽標(biāo)簽投影的方法將NLU系統(tǒng)擴(kuò)展到新語(yǔ)言中,這種方法對(duì)標(biāo)簽投影錯(cuò)誤很敏感。
因此,這篇文章發(fā)布了一個(gè)新的跨語(yǔ)言NLU數(shù)據(jù)庫(kù)(MultiATIS++),探索了不同的跨語(yǔ)言遷移方法的效果,并且提出了一種新的端到端模型,該模型可以對(duì)目標(biāo)語(yǔ)言槽標(biāo)簽進(jìn)行聯(lián)合對(duì)齊和預(yù)測(cè),以實(shí)現(xiàn)跨語(yǔ)言遷移。
數(shù)據(jù)集
MultiATIS++數(shù)據(jù)集在Multilingual ATIS數(shù)據(jù)集基礎(chǔ)上新增了六種語(yǔ)言,共覆蓋九種語(yǔ)言,并對(duì)每種語(yǔ)言人工打上槽位標(biāo)簽(使用BIO標(biāo)簽體系)。數(shù)據(jù)集樣例和數(shù)據(jù)集的描述特征如下所示:
模型
上圖為作者提出的端到端槽對(duì)齊和識(shí)別模型,使用Attention機(jī)制將目標(biāo)語(yǔ)言表示與源語(yǔ)言槽標(biāo)簽進(jìn)行軟對(duì)齊,模型直接將編碼器模塊連接到意圖和槽分類(lèi)層,對(duì)目標(biāo)語(yǔ)言同時(shí)預(yù)測(cè)意圖和槽標(biāo)簽。該模型使用額外的Attention層來(lái)同時(shí)完成槽標(biāo)簽對(duì)齊和識(shí)別任務(wù),不需要額外的槽標(biāo)簽投影過(guò)程。
記為源語(yǔ)言文本序列,為目標(biāo)語(yǔ)言文本序列,源語(yǔ)言文本經(jīng)過(guò)Embedding之后得到向量表示,目標(biāo)語(yǔ)言經(jīng)過(guò)Embedding和Encoder后得到上下文表示,其中是額外添加的符號(hào),用于表示目標(biāo)語(yǔ)言句子表示。意圖識(shí)別任務(wù)的公式如下:
對(duì)于槽填充任務(wù),先計(jì)算目標(biāo)語(yǔ)言和源語(yǔ)言的注意力向量,然后再進(jìn)行目標(biāo)語(yǔ)言的槽位預(yù)測(cè),其公式如下:
此外,作者還提出了一個(gè)重構(gòu)模塊來(lái)提高目標(biāo)語(yǔ)言和源語(yǔ)言的對(duì)齊效果:
意圖識(shí)別、槽填充和重構(gòu)模塊的損失函數(shù)如下所示,模型的損失函數(shù)為三者相加:
實(shí)驗(yàn)結(jié)果
Multilingual NLU
作者使用multilingual BERT預(yù)訓(xùn)練模型作為encoder,并比較了僅使用目標(biāo)語(yǔ)言進(jìn)行NLU和使用全部的語(yǔ)言進(jìn)行NLU時(shí)監(jiān)督訓(xùn)練的效果。如圖所示,BERT相比于LSTM在不同語(yǔ)言上均能顯著提高模型性能,并且多語(yǔ)言監(jiān)督訓(xùn)練能進(jìn)一步提高模型性能。
Cross-Lingual Transfer
作者比較了不同的跨語(yǔ)言遷移學(xué)習(xí)方法,其中源語(yǔ)言是英語(yǔ),目標(biāo)語(yǔ)言共有八種。實(shí)驗(yàn)結(jié)果和模型速度如下所示:
MT+soft-align是本文提出的模型,在八個(gè)目標(biāo)語(yǔ)言數(shù)據(jù)集中,有五個(gè)語(yǔ)言本文模型相比于MT+fast-align的效果更好,并且在意圖識(shí)別和槽填充任務(wù)中本文模型的魯棒性更強(qiáng)。本文模型的速度明顯優(yōu)于MT+TMP模型,在模型性能上,意圖識(shí)別任務(wù)中,本文模型在六個(gè)語(yǔ)言上表現(xiàn)更好,槽填充任務(wù)中,本文模型在四個(gè)語(yǔ)言上表現(xiàn)更佳。綜合模型性能和模型速度,端到端的槽標(biāo)簽軟對(duì)齊和識(shí)別模型在跨語(yǔ)言NLU任務(wù)上具有一定優(yōu)勢(shì)。
參考文獻(xiàn)
[1] Vaswani A , Shazeer N , Parmar N , et al. Attention Is All You Need[J]。 arXiv, 2017.
[2] Tur G , Hakkani-Tur D , Heck L 。 What is left to be understood in ATIS?[C]// Spoken Language Technology Workshop (SLT), 2010 IEEE. IEEE, 2011.
[3] Coucke A , Saade A , Ball A , et al. Snips Voice Platform: an embedded Spoken Language Understanding system for private-by-design voice interfaces. 2018.
編輯:lyn
-
識(shí)別模型
+關(guān)注
關(guān)注
0文章
5瀏覽量
6747 -
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
288瀏覽量
13353
原文標(biāo)題:【論文分享】EMNLP 2020 自然語(yǔ)言理解
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論