在NLP的基礎(chǔ)任務(wù)中,NER無疑很難做,但是做好了,會(huì)提升下游的很多效果。那么如何提升NER的效果呢?數(shù)據(jù)增強(qiáng)無疑是一種簡單粗暴的方式。船長這次帶著大家簡單過一下,本文無公式!
首先我們的著重考慮對(duì)象是有詞庫的,在工業(yè)界詞庫是必備的,沒有標(biāo)注詞庫,這個(gè)NER的任務(wù)可能會(huì)做的很不好。我們從以下的三種數(shù)據(jù)增強(qiáng)trick來逐步介紹。
實(shí)體替換
如果我們有一個(gè)訓(xùn)練數(shù)據(jù)集,比方說一個(gè)case:“海底撈的主要食物是火鍋”,在NER的任務(wù)中,標(biāo)注成為“{海底撈^飯店}的主要食物是{火鍋^食物}”,其中海底撈的實(shí)體為飯店,而火鍋的為食物。
那么為了擴(kuò)大我們的訓(xùn)練數(shù)據(jù)集,我們會(huì)隨機(jī)的對(duì)同類型的實(shí)體進(jìn)行替換,例如“海底撈”替換成為“肯德基”,也即“肯德基的主要食物是火鍋”。有意思的地方來了,很明顯我們都知道肯德基是沒有火鍋的,那么這樣造的case會(huì)有問題嗎?答案是從常識(shí)的角度是有問題的,所以我們盡量要挑出和火鍋相關(guān)的實(shí)體,利用知識(shí)圖譜的方式,搭建出更合理的訓(xùn)練集。
邊界噪聲
比方說文本“這家飯店的爆品是火鍋啦”,結(jié)果模型把火鍋啦整體識(shí)別成為食物實(shí)體,那就很不對(duì)勁了。在這種情況下,屬于NER的一個(gè)悠久遺留問題,邊界預(yù)測問題,NER很難識(shí)別到實(shí)體的真正邊界,解決這種的方法也是利用人工造的一些噪聲。
比較簡單的方式,是可以從字表里面隨機(jī)的抽樣字,再隨機(jī)的加到邊界處。變成,讓模型自主的去學(xué)習(xí)到實(shí)體的邊界,這種方式簡單但是效果一般,為什么這么講?因?yàn)檫@種隨機(jī)的采樣對(duì)于模型來說,很好學(xué)習(xí),我們應(yīng)該嘗試去構(gòu)造再難一點(diǎn)的數(shù)據(jù)。
這家飯店的爆品是火鍋嘿
比較可行的方式,是在模版數(shù)據(jù)中利用N-Gram挖掘到噪聲詞語/字,再利用頻率的高低構(gòu)建出現(xiàn)的概率,以這種概率進(jìn)行替換,舉例來說,飯店類的模版有很多是圍繞著詞語“食物”展開,那么這時(shí)候我們可以把“食物”插入到實(shí)體的邊界,成為:
這家飯店的爆品是火鍋食物
對(duì)于模型來講,再難一點(diǎn)的方式,可以從訓(xùn)練數(shù)據(jù)中,挖掘到和火鍋相關(guān)的噪聲,再把它插入進(jìn)去。例如,根據(jù)詞語火鍋進(jìn)行展開,利用5-Gram搜索到附近的詞語,找到一些和火鍋相關(guān),但是不是強(qiáng)相關(guān)的詞語,比方說辣椒,那這時(shí)候就會(huì)形成:
這家飯店的爆品是火鍋辣椒
不得不說,這種文本對(duì)于機(jī)器來講已經(jīng)很難識(shí)別了,但是這種方式的時(shí)間開銷很大,需要提前離線找到和每個(gè)實(shí)體相關(guān)的詞語,再進(jìn)行噪聲的插入。
模版構(gòu)造樣本
什么意思呢?我們先利用實(shí)體,在線上的日志中挖掘到很多模版,再利用這批模版隨機(jī)的進(jìn)行填充,形成最后的訓(xùn)練數(shù)據(jù),這批訓(xùn)練的數(shù)據(jù)量會(huì)很大,但是樣本的質(zhì)量是一般的。例如我們可以對(duì)模版“這家飯店的爆品是{食物}”進(jìn)行隨機(jī)的食物實(shí)體填充,成為:
這家飯店的爆品是榴蓮
但是當(dāng)一個(gè)模版有多個(gè)實(shí)體槽位的時(shí)候,隨機(jī)的進(jìn)行實(shí)體填充往往有很大的問題,比方說模版“這家{飯店}的爆品是{食物}”,如果我們填充成為“這家海底撈的爆品是榴蓮”,雖然對(duì)于NER的任務(wù)來講沒有太大的問題,但是從常識(shí)角度來說,未免也太差了些。
這種情況下,我們需要批判性的思考,這種數(shù)據(jù)是否有利于提升我線上的效果,如果線上的要求并不包含常識(shí),那這就是個(gè)好模型,反之亦然。我們也可以根據(jù)知識(shí)圖譜來進(jìn)行填充,增加常識(shí)信息。
這次船長主要帶大家過了一些簡單高效的NER數(shù)據(jù)增強(qiáng)Trick,有什么問題就寫下你的疑惑,我們討論一下~
審核編輯 :李倩
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24754 -
NER
+關(guān)注
關(guān)注
0文章
7瀏覽量
6216 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22065
原文標(biāo)題:如何簡單粗暴的提升NER效果?一文告訴你如何用詞庫來做NER數(shù)據(jù)增強(qiáng)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論