0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何簡單粗暴的提升NER效果?

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:船長尼莫 ? 2022-12-12 14:03 ? 次閱讀

在NLP的基礎(chǔ)任務(wù)中,NER無疑很難做,但是做好了,會(huì)提升下游的很多效果。那么如何提升NER的效果呢?數(shù)據(jù)增強(qiáng)無疑是一種簡單粗暴的方式。船長這次帶著大家簡單過一下,本文無公式!

ca888e24-79d2-11ed-8abf-dac502259ad0.png

首先我們的著重考慮對(duì)象是有詞庫的,在工業(yè)界詞庫是必備的,沒有標(biāo)注詞庫,這個(gè)NER的任務(wù)可能會(huì)做的很不好。我們從以下的三種數(shù)據(jù)增強(qiáng)trick來逐步介紹。

實(shí)體替換

如果我們有一個(gè)訓(xùn)練數(shù)據(jù)集,比方說一個(gè)case:“海底撈的主要食物是火鍋”,在NER的任務(wù)中,標(biāo)注成為“{海底撈^飯店}的主要食物是{火鍋^食物}”,其中海底撈的實(shí)體為飯店,而火鍋的為食物。

那么為了擴(kuò)大我們的訓(xùn)練數(shù)據(jù)集,我們會(huì)隨機(jī)的對(duì)同類型的實(shí)體進(jìn)行替換,例如“海底撈”替換成為“肯德基”,也即“肯德基的主要食物是火鍋”。有意思的地方來了,很明顯我們都知道肯德基是沒有火鍋的,那么這樣造的case會(huì)有問題嗎?答案是從常識(shí)的角度是有問題的,所以我們盡量要挑出和火鍋相關(guān)的實(shí)體,利用知識(shí)圖譜的方式,搭建出更合理的訓(xùn)練集。

邊界噪聲

比方說文本“這家飯店的爆品是火鍋啦”,結(jié)果模型把火鍋啦整體識(shí)別成為食物實(shí)體,那就很不對(duì)勁了。在這種情況下,屬于NER的一個(gè)悠久遺留問題,邊界預(yù)測問題,NER很難識(shí)別到實(shí)體的真正邊界,解決這種的方法也是利用人工造的一些噪聲。

比較簡單的方式,是可以從字表里面隨機(jī)的抽樣字,再隨機(jī)的加到邊界處。變成,讓模型自主的去學(xué)習(xí)到實(shí)體的邊界,這種方式簡單但是效果一般,為什么這么講?因?yàn)檫@種隨機(jī)的采樣對(duì)于模型來說,很好學(xué)習(xí),我們應(yīng)該嘗試去構(gòu)造再難一點(diǎn)的數(shù)據(jù)。

這家飯店的爆品是火鍋嘿

比較可行的方式,是在模版數(shù)據(jù)中利用N-Gram挖掘到噪聲詞語/字,再利用頻率的高低構(gòu)建出現(xiàn)的概率,以這種概率進(jìn)行替換,舉例來說,飯店類的模版有很多是圍繞著詞語“食物”展開,那么這時(shí)候我們可以把“食物”插入到實(shí)體的邊界,成為:

這家飯店的爆品是火鍋食物

對(duì)于模型來講,再難一點(diǎn)的方式,可以從訓(xùn)練數(shù)據(jù)中,挖掘到和火鍋相關(guān)的噪聲,再把它插入進(jìn)去。例如,根據(jù)詞語火鍋進(jìn)行展開,利用5-Gram搜索到附近的詞語,找到一些和火鍋相關(guān),但是不是強(qiáng)相關(guān)的詞語,比方說辣椒,那這時(shí)候就會(huì)形成:

這家飯店的爆品是火鍋辣椒

不得不說,這種文本對(duì)于機(jī)器來講已經(jīng)很難識(shí)別了,但是這種方式的時(shí)間開銷很大,需要提前離線找到和每個(gè)實(shí)體相關(guān)的詞語,再進(jìn)行噪聲的插入。

模版構(gòu)造樣本

什么意思呢?我們先利用實(shí)體,在線上的日志中挖掘到很多模版,再利用這批模版隨機(jī)的進(jìn)行填充,形成最后的訓(xùn)練數(shù)據(jù),這批訓(xùn)練的數(shù)據(jù)量會(huì)很大,但是樣本的質(zhì)量是一般的。例如我們可以對(duì)模版“這家飯店的爆品是{食物}”進(jìn)行隨機(jī)的食物實(shí)體填充,成為:

這家飯店的爆品是榴蓮

但是當(dāng)一個(gè)模版有多個(gè)實(shí)體槽位的時(shí)候,隨機(jī)的進(jìn)行實(shí)體填充往往有很大的問題,比方說模版“這家{飯店}的爆品是{食物}”,如果我們填充成為“這家海底撈的爆品是榴蓮”,雖然對(duì)于NER的任務(wù)來講沒有太大的問題,但是從常識(shí)角度來說,未免也太差了些。

這種情況下,我們需要批判性的思考,這種數(shù)據(jù)是否有利于提升我線上的效果,如果線上的要求并不包含常識(shí),那這就是個(gè)好模型,反之亦然。我們也可以根據(jù)知識(shí)圖譜來進(jìn)行填充,增加常識(shí)信息。

cab11268-79d2-11ed-8abf-dac502259ad0.png

這次船長主要帶大家過了一些簡單高效的NER數(shù)據(jù)增強(qiáng)Trick,有什么問題就寫下你的疑惑,我們討論一下~

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24754
  • NER
    NER
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    6216
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22065

原文標(biāo)題:如何簡單粗暴的提升NER效果?一文告訴你如何用詞庫來做NER數(shù)據(jù)增強(qiáng)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    電源濾波器的升級(jí)換代對(duì)性能提升有多大空間?

    電源濾波器升級(jí)換代提升濾波效果、過載能力及智能化,適應(yīng)復(fù)雜電源環(huán)境,保障電子設(shè)備穩(wěn)定運(yùn)行,助力電子科技行業(yè)發(fā)展,未來將繼續(xù)優(yōu)化材料、結(jié)構(gòu),注重綠色設(shè)計(jì)。
    的頭像 發(fā)表于 01-15 10:57 ?37次閱讀
    電源濾波器的升級(jí)換代對(duì)性能<b class='flag-5'>提升</b>有多大空間?

    金屬探測器配件及其效果

    圈 :單線圈設(shè)計(jì)簡單,適用于淺層金屬探測,但對(duì)深層金屬的探測能力較弱。 雙線圈 :雙線圈設(shè)計(jì)可以提高探測器的靈敏度和深度,適用于更復(fù)雜的探測環(huán)境。 多線圈 :多線圈設(shè)計(jì)進(jìn)一步提升了探測器的性能,但成本較高,適用于專業(yè)探測。
    的頭像 發(fā)表于 11-29 10:29 ?398次閱讀

    請(qǐng)問TLV320AIC33怎樣提升音效?

    我現(xiàn)在平臺(tái)是DM6437+TLV320AIC33,TLV320AIC33實(shí)現(xiàn)對(duì)音頻的A/D,D/A信號(hào)處理,現(xiàn)在聲音效果一般, 現(xiàn)在我想提升聲音的效果,請(qǐng)問大家可以從哪些方面提升?修
    發(fā)表于 11-08 06:30

    如何提升AIC3254 AEC的錄音效果?

    最近在 3254 EVM板上調(diào)試 AEC功能,平臺(tái)搭建如下: 1.J7LINE OUT接音箱; 2.J4EXT MIC IN 外接了個(gè)MIC 現(xiàn)在情況是:回音基本消除,但是發(fā)現(xiàn)近端的錄音效果不理想,不知如何改進(jìn)?下圖是我的 mini-dsp 的例程、配置,附件中是該配置的一段錄音
    發(fā)表于 11-07 06:02

    提升機(jī)電機(jī)軸承溫度及振動(dòng)監(jiān)測裝置

    提升機(jī)是一種通過改變勢(shì)能進(jìn)行運(yùn)輸?shù)拇笮驮O(shè)備,被廣泛用于礦山,面粉廠,港口等。像這種大型設(shè)備安裝后就很難再移動(dòng),因此勢(shì)必要對(duì)它做出一些保護(hù)措施的。 KZB-PC電動(dòng)機(jī)主要軸承溫度及振動(dòng)監(jiān)測裝置
    發(fā)表于 10-31 14:53

    調(diào)音臺(tái)怎么接混響效果

    顯著提升音頻的質(zhì)量和效果。 一、調(diào)音臺(tái)和混響效果器的基本概念 1. 調(diào)音臺(tái) 調(diào)音臺(tái)是一種音頻設(shè)備,用于混合多個(gè)音頻信號(hào)。它通常包含多個(gè)輸入通道,每個(gè)通道可以獨(dú)立控制音量、均衡、聲像等參數(shù)。調(diào)音臺(tái)的輸出可以連接到擴(kuò)音器、錄音設(shè)備或
    的頭像 發(fā)表于 10-10 09:22 ?861次閱讀

    DRV2625觸覺效果組合設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《DRV2625觸覺效果組合設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 09-27 09:32 ?0次下載
    DRV2625觸覺<b class='flag-5'>效果</b>組合設(shè)計(jì)

    商顯領(lǐng)域的國產(chǎn)一體機(jī)主板,提升顯示效果的解決方案

    城市交通管理中,智能交通指示牌用于實(shí)時(shí)顯示交通信息和警示信息;國產(chǎn)一體機(jī)主板憑借其卓越的性能和靈活的應(yīng)用,正成為提升顯示效果的重要解決方案。
    的頭像 發(fā)表于 09-04 10:08 ?368次閱讀

    OPA548如何提升負(fù)載電流?

    電流提高使得負(fù)載功率提升? 我有試過將輸出接上達(dá)靈頓(如下圖),但看起來并沒有效果,想請(qǐng)問各位先進(jìn)是否有建議或是其他想法可供參考 ? 謝謝各位指教。
    發(fā)表于 08-16 06:48

    效果器對(duì)所有的專業(yè)功放都通用嗎

    效果器(Effects Processor)是一種音頻處理設(shè)備,用于對(duì)音頻信號(hào)進(jìn)行各種處理,以達(dá)到改變聲音特性、增加聲音效果或改善音質(zhì)的目的。在音頻領(lǐng)域,效果器廣泛應(yīng)用于音樂制作、現(xiàn)場演出、廣播
    的頭像 發(fā)表于 07-29 09:53 ?957次閱讀

    谷景揭秘電感越大濾波效果越好嗎

    電感作為電子電路中一種重要的電子元件,它在電路中一個(gè)非常重要的作用就是濾波!很多人認(rèn)為電感的感值越大,它的濾波效果就越好!其實(shí),這種觀點(diǎn)并不是完全準(zhǔn)確的。簡單來說,電感的濾波效果與感值、電路設(shè)計(jì)
    的頭像 發(fā)表于 06-11 15:47 ?517次閱讀

    如何修改Kernel Affinity提升openplc性能?

    如何修改Kernel Affinity提升openplc性能
    發(fā)表于 05-22 06:36

    2G信號(hào)放大器:提升通信質(zhì)量的利器?|深圳市特信電子有限公司.

    的選購指南在選擇2G信號(hào)放大器時(shí),需要考慮到覆蓋范圍、信號(hào)增益、品牌信譽(yù)以及售后服務(wù)等因素。確保選擇適合自己需求的放大器,可以在一定程度上提升通信效果;三、2G信號(hào)放大器的安裝步驟安裝2G信號(hào)放大器需要
    發(fā)表于 03-22 09:06

    EMC測試整改:提升產(chǎn)品合規(guī)性和市場競爭力?|深圳比創(chuàng)達(dá)電子

    EMC測試整改:提升產(chǎn)品合規(guī)性和市場競爭力?|深圳比創(chuàng)達(dá)電子在當(dāng)前的產(chǎn)品研發(fā)和制造領(lǐng)域,電磁兼容(EMC)測試是確保產(chǎn)品符合法規(guī)要求并能夠在各種電磁環(huán)境下正常工作的重要環(huán)節(jié)。然而,很多企業(yè)在進(jìn)行
    發(fā)表于 03-07 09:50

    阿里云發(fā)動(dòng)史上最大力度價(jià)格戰(zhàn),平均降價(jià)超20%

    明確“ AI 驅(qū)動(dòng),公共云優(yōu)先”戰(zhàn)略 3 個(gè)月之后,阿里云在今天發(fā)布了最新戰(zhàn)略,簡單粗暴——大降價(jià)、真降價(jià)。
    的頭像 發(fā)表于 03-01 10:18 ?659次閱讀