搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

文本數據量不夠大的時候可用的一些實用方法，從而賦予小數據集以價值

數據不夠大，就不能玩深度學習？長期存在的一大挑戰(zhàn)就是：只有極少數情況下有足夠的數據進行深度學習。本文作者提出了一些比較實用的方法，從簡單的經典機器學習建模方法開始著手解決這個問題，以應對文本數據量不夠大的情況。

深度學習往往需要大量數據，不然就會出現(xiàn)過度擬合，本文作者提出了一些在文本數據量不夠大的時候可用的一些實用方法，從而賦予小數據集以價值。

作為數據科學家，為你的問題選擇正確的建模方法和算法應該是你最重要的技能之一。

幾個月前，我致力于解決一個文本分類問題，關鍵在于判斷哪些新聞文章與我的客戶相關。

我只有一個幾千條帶標注的新聞數據集，所以我從簡單的經典機器學習建模方法開始著手解決這個問題，例如用TF-IDF來做Logistic回歸分類。

一般說來，這些模型適用于長文檔（如新聞、博客文章等）的文本分類，然而在我這個任務上的執(zhí)行效果卻不盡如人意，僅僅略好于隨機分類。

在研究了一番模型錯在哪里之后，我發(fā)現(xiàn)詞袋模型（bag of words）這種表示方法對于這個任務是不夠的，我需要一個能深入理解文檔語義的模型。

深度學習模型在需要深入理解文本語義的復雜任務上已經表現(xiàn)出了非常好的效果，例如機器翻譯，自動問答，文本摘要，自然語言推理等。

這看起來對我的任務而言是一個很完美的方法，但是為了訓練深度學習模型通常需要數十萬甚至數百萬個被標記的數據，而我只有一個很小的數據集。怎么辦呢？

通常，我們需要大量數據來訓練深度學習模型目的在于避免過擬合。深度神經網絡具有非常非常多的參數，因此如果沒有用足夠的數據去訓練它們，它們往往會記住整個訓練集，這就會導致訓練的效果很好，但在測試集上的效果就很差了。

為了避免因缺乏大量數據而導致的這種情況，我們需要使用一些特殊的技巧！一擊必殺的技巧！

在這篇文章中，我將展示一些由我自己開發(fā)或是我在文章、博客、論壇、Kaggle和其他一些地方發(fā)現(xiàn)的方法，看看它們是如何在沒有大數據的情況下讓深度學習更好地完成我的任務的。其中許多方法都基于計算機視覺中廣泛使用的最佳實踐。

一個小小的免責聲明：我并不是一個深度學習方面的專家，這個項目也只是最初幾個我用深度學習完成的大項目之一。這篇文章的所有內容都是對我個人經驗的總結，有可能我的方法并不適用你的問題。

正則化

正則化方法以不同的形式呈現(xiàn)在機器學習模型中，它可以被用來避免過擬合。這些方法的理論性很強，對于大多數問題來說是一種普遍通用的方式。

L1和L2正則化

這些方法可能是最古老的，并且在許多機器學習模型中已經使用多年。

使用這種方法時，我們將權重的大小添加到我們試圖最小化的模型損失函數中。這樣，模型將盡量使權重變小，同時那些對模型影響不明顯的權重值將被減小到零。

通過這種方式，我們可以使用更少數量的權重來記住訓練集。

更多細節(jié)：

https://towardsdatascience.com/only-numpy-implementing-different-combination-of-l1-norm-l2-norm-l1-regularization-and-14b01a9773b

Dropout

Dropout是另一種較新的正則化方法。它具體的做法是在訓練期間，神經網絡中的每個節(jié)點（神經元）按照P的概率被丟棄（即權重被設置為零）。這樣，網絡就不會依賴于特定的神經元和他們之間的相互作用，而必須在不同的部分學習每一種模式。這就使得模型專注于學習那些更易于適用到新數據的重要模式。

Early stopping

Early stopping是一種簡單的正則化方法，只需監(jiān)控驗證集性能，如果你發(fā)現(xiàn)驗證集性能不再提高，就停止訓練。這種方法在沒有大數據的情況下非常重要，因為模型在5-10次甚至更少次數的迭代之后，通常就開始出現(xiàn)過擬合了。

減少參數的數量

如果你沒有大型數據集，那你就應該謹慎設計網絡中的層數和每層的神經元數量。此外，向卷積層這樣的特殊層比全連接層具有更少的參數，所以如果可能的話，使用它們會非常有用。

數據增強

數據增強是一種通過更改訓練數據而不改變數據標簽的方式來創(chuàng)建更多訓練數據的方法。在計算機視覺中，許多圖像變換的方法被用于數據集大小進行擴增，例如翻轉、裁剪、縮放、旋轉等。

這些變換對于圖像類型的數據很有用，但不適用于文本，譬如翻轉出像“狗愛我”這樣無意義的句子，用它來訓練模型的話將不會有什么效果。以下是一些針對文本的數據的增強方法：

同義詞替換

在這種方法中，我們隨機的選一些詞并用它們的同義詞來替換這些詞，例如，我們將句子“我非常喜歡這部電影”改為“我非常喜歡這個影片”，這樣句子仍具有相同的含義，很有可能具有相同的標簽。但這種方法對我的任務來說沒什么用，因為同義詞具有非常相似的詞向量，因此模型會將這兩個句子當作相同的句子，而在實際上并沒有對數據集進行擴充。

回譯

在這個方法中，我們用機器翻譯把一段英語翻譯成另一種語言，然后再翻譯回英語。這個方法已經成功的被用在Kaggle惡意評論分類競賽中。

例如，如果我們把“I like this movie very much”翻譯成俄語，就會得到“Мне очень нравится этот фильм”，當我們再譯回英語就會得到“I really like this movie”。回譯的方法不僅有類似同義詞替換的能力，它還具有在保持原意的前提下增加或移除單詞并重新組織句子的能力。

文檔裁剪

新聞文章通常很長，在查看數據時，我發(fā)現(xiàn)對于分類來說并不需要整篇文章。而且，我發(fā)現(xiàn)文章的主要想法通常會重復出現(xiàn)。

這讓我想到將文章裁剪為幾個子文章來實現(xiàn)數據增強，這樣我將獲得更多的數據。開始的時候我嘗試從文檔中抽取幾個句子并創(chuàng)建10個新文檔。這些新創(chuàng)建的文檔句子間沒有邏輯關系，所以用它們訓練得到的分類器性能很差。第二次，我嘗試將每篇文章分成若干段，每段由文章中五個連續(xù)的句子組成。這個方法就運行得非常好，讓分類器的性能提升很大。

生成對抗網絡

GAN是深度學習領域中最令人興奮的最新進展之一，它們通常用來生成新的圖像。下面這篇博客解釋了如何使用GAN進行圖像數據的數據增強，但它的一些方法或許也可以適用于文本數據。

博客鏈接：

https://towardsdatascience.com/generative-adversarial-networks-for-data-augmentation-experiment-design-2873d586eb59

遷移學習

遷移學習是指使用為其他任務訓練的網絡參數來解決你自己的問題，這些網絡參數通常是用大性數據集訓練得到的。遷移學習有時被用作某些層的初始化，有時也直接被用于特征提取讓我們免于訓練新模型。在計算機視覺中，從預先訓練的ImageNet模型開始是解決問題的一種常見的做法，但是NLP沒有像ImageNet那樣可以用于遷移學習的大型數據集。

預訓練的詞向量

一般應用于自然語言處理的深度學習網絡架構通常以嵌入層（Embedding Layer）開始，該嵌入層將一個詞由獨熱編碼（One-Hot Encoding）轉換為數值型的向量表示。我們可以從頭開始訓練嵌入層，也可以使用預訓練的詞向量，如 Word2Vec、FastText 或 GloVe。

這些詞向量是通過無監(jiān)督學習方法訓練大量數據或者是直接訓練特定領域的數據集得到的。

預訓練的詞向量非常有效，因為基于大數據它們給模型提供了詞的上下文并減少了模型的參數，從而顯著地降低了過擬合的可能性。

更多有關詞嵌入的信息：

https://www.springboard.com/blog/introduction-word-embeddings/

預訓練的句向量

我們可以將模型的輸入從單詞轉換為句子，用這種方法我們得到參數少并且性能好的簡單模型。為了做到這一點，我們可以使用預訓練的句子編碼器，如 Facebook 的InferSent或谷歌的通用句子編碼器。

我們還可以把數據集中未打標的數據用 skip-thought 向量或語言模型等方法訓練句子編碼器模型。

更多有關無監(jiān)督句子向量的信息：

https://blog.myyellowroad.com/unsupervised-sentence-representation-with-deep-learning-104b90079a93

預訓練的語言模型

最近很多論文運用大量語料庫預訓練語言模型來處理自然語言任務得到了驚人的結果，如ULMFIT，Open-AI transformer和BERT。語言模型是通過前面的單詞預測句子中會出現(xiàn)的下一個單詞。

這種預訓練并沒有對我取得更好的結果起到真正的幫助，但文章給出了一些我沒有嘗試過的方法來幫助我做更好地微調。

一個關于預訓練語言模型很棒的博客：

http://ruder.io/nlp-imagenet/

預訓練無監(jiān)督或自監(jiān)督學習

如果掌握大量無標簽數據，我們可以使用無監(jiān)督的方法如自動編碼器或掩碼語言模型去訓練模型，這樣僅僅依靠文本本身就可以做到。

對我來說另一個更好的選擇是使用自監(jiān)督模型。自監(jiān)督模型可以在沒有人工標注的情況下自動提取標簽。Deepmoji項目是一個很好的例子。

在Deepmoji項目中，作者們訓練了一個預測推文中表情符號的模型，在模型表現(xiàn)良好的情況下，他們使用網絡預先訓練了一個推文者的情緒分析模型來獲取表情符號預測模型的狀態(tài)。

表情符號預測和情緒分析顯然非常相關，因此它作為預訓練任務表現(xiàn)得非常好。自監(jiān)督在新聞數據中的運用包括預測標題，報刊，評論數量，轉發(fā)數量等。自監(jiān)督是一種非常好的預訓練方法，但通常很難分辨出代理標簽與真實標簽的關聯(lián)。

使用現(xiàn)成的網絡進行預訓練

在很多公司中，大部分用于不同任務的機器學習模型都建立在相同的數據集或類似的數據集上。例如推文，我們可以預測其主題、觀點、轉發(fā)數量等。最好通過已經成熟應用的網絡預先訓練你的網絡。對我的任務而言，應用這個方法確實可以提高性能。

特征工程

我知道深度學習“殺死”了特征工程，再談特征工程已經有點過時了。但是當你沒有大量數據時，通過特征工程幫助網絡學習復雜模式可以大大提高性能。例如，在我對新聞文章的分類過程中，作者、報刊、評論數、標簽以及更多特征可以幫助預測標簽。

多模式體系結構

我們可以用多模式體系結構將文檔級特征組合到我們的模型中。在多模式體系結構中，我們構建了兩個不同的網絡，一個用于文本，一個用于特征，合并它們的輸出層（無 softmax）并添加更多層。這些模型很難訓練，因為這些特征通常比文本具有更強的信號，因此網絡主要受特征的影響。

關于多模式網絡很棒的Keras教程：

https://medium.com/m/global-identity?redirectUrl=https://becominghuman.ai/neural-networks-for-algorithmic-trading-multimodal-and-multitask-deep-learning-5498e0098caf

這種方法使我的模型提高了不到1％的性能。

詞級特征

詞級特征是另一種類型的特征工程，如詞性標注，語義角色標記，實體抽取等。我們可以將一個獨熱編碼表示或一個詞特征的嵌入與詞的嵌入相結合并將其用作模型的輸入。

我們也可以在這個方法中使用其他詞特征，例如在情感分析任務中我們可以采用情感字典并添加另一個維度嵌入其中，用 1 表示在字典中的單詞， 0 表示其他單詞，這樣模型可以很容易地學習它需要關注的一些詞。在我的任務中，我添加了某些重要實體的維度，這給模型帶來了一個很好的性能提升。

特征工程預處理

最后一種特征工程方法是以一種模型更容易學習的方式預處理輸入文本。一個例子是“詞干提取”，如果運動并不是一個重要標簽，我們可以用運動代替足球，棒球和網球這些詞，這將有助于神經網絡模型了解到不同運動之間的差異并不重要，可以減少網絡中的參數。

另一個例子是使用自動摘要。正如我之前所說，神經網絡在長文本上表現(xiàn)不佳，因此我們可以在文本上運行自動摘要算法，如 TextRank 并僅向神經網絡網絡提供重要句子。

我的模型

嘗試了本文中討論的方法的不同組合后，在我的項目中表現(xiàn)最好的模型是本文中提到分層注意力網絡（HAN），模型使用dropout 和 early stopping 作為正則化，并采用文檔剪裁的方法進行數據集增強。我使用預訓練的詞向量以及我公司的一個預訓練網絡（這個網絡使用了同樣數據，只是針對的任務不一樣）。

在做特征工程時，我新增了實體詞級特征到詞嵌入向量。這些變化使我的模型精確度提高了近 10％，模型效果從比隨機效果稍好一點上升到了到具有重要業(yè)務價值的水準。

深度學習在小數據集上的應用仍處于該研究領域的早期階段，但看起來它越來越受歡迎，特別是對于預訓練的語言模型，我希望研究人員和從業(yè)者能夠找到更多的方法使用深度學習，讓每一個數據集產生價值。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器學習

機器學習

+關注

關注
66

文章
8490

瀏覽量
134031
數據集

數據集

+關注

關注
4

文章
1222

瀏覽量
25268
深度學習

深度學習

+關注

關注
73

文章
5554

瀏覽量
122449

原文標題：【干貨指南】機器學習必須需要大量數據？小數據集也能有大價值！

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

評論

发布文章

精選推薦
更多

文章

資料

帖子

探索無刷小風扇驅動方案續(xù)航優(yōu)化的 “密碼”--【其利天下】

其利天下技術
17小時前

376 閱讀

SiC MOSFET模塊并聯(lián)應用中的動態(tài)均流問題

三菱電機半導體
21小時前

323 閱讀

ADI創(chuàng)新電源管理器件介紹

貿澤電子
21小時前

339 閱讀

是德科技解讀IEEE P802.3dj最新以太網標準

是德科技快訊
22小時前

324 閱讀

5分鐘學會網絡服務搭建，飛凌i.MX9352 + Linux 6.1實戰(zhàn)示例

飛凌嵌入式
1天前

424 閱讀

TMS320F2407A DSP芯片的USB接口實現(xiàn)

nana
1.22 MB

免費

144下載

magic-boot基于magic-api的快速開發(fā)平臺

你又知道了
0.31 MB

2積分

2下載

Janetsh Janet實現(xiàn)的系統(tǒng)shell

足球上籃
0.12 MB

免費

0下載

適用于 Xilinx? MPSoC 和 FPGA 的可配置多軌PMU TPS650864數據表

李偉
2.59MB

免費

1下載

AS043-FGSLEAKPOC2Z 可燃氣體泄漏檢測儀產品手冊

1.97 MB

免費

2下載

如何使用Banana Pi BPI-M7 瑞芯微RK3588開發(fā)板的CAN功能

sinovoip
1天前

270 閱讀

創(chuàng)龍TL3562-MiniEVM開發(fā)板試用體驗

ElecFans小喇叭
1天前

509 閱讀

【正點原子RK3506】安裝交叉編譯器、adb和編譯運行SOEM控制EtherCAT IO從站

EPTmachine
1天前

454 閱讀

70份基于各種單片機、CAN等等電機控制、仿真、計算等資料

jf_89421697
1天前

522 閱讀

RK3576 vs RK3588：為何越來越多的開發(fā)者轉向RK3576？

瑞芯微方案開發(fā)老王
1天前

677 閱讀

推薦專欄
更多

企業(yè)產品

資料

方案
更多

華秋（原“華強聚豐”）：

電子發(fā)燒友

華秋開發(fā)

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業(yè)應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫(yī)療電子

人工智能

虛擬現(xiàn)實

可穿戴設備

機器人

安全設備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設備

觸控感測

物聯(lián)網

智能電網

區(qū)塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

產品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務

產品

資料

文章

方案

企業(yè)

供應鏈服務

硬件開發(fā)

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態(tài)

加入我們

聯(lián)系我們

舉報投訴

社交網絡

微博

移動端

發(fā)燒友APP

硬聲APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區(qū)合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

電子工程師社區(qū)

1-32層PCB打樣·中小批量

元器件現(xiàn)貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業(yè)動態(tài)

聯(lián)系我們

企業(yè)文化

企業(yè)宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司

長沙市望城經濟技術開發(fā)區(qū)航空路6號手機智能終端產業(yè)園2號廠房3層（0731-88081133）
電子發(fā)燒友 （電路圖） 湘公網安備43011202000918 工商網監(jiān) 湘ICP備2023018690號-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
中文字幕日韩第八页在线
国内精品久久久久久久星辰影视欧美成人免费高清二区三区男女视频免费在线观看嫩草视频国产精品一区

電子發(fā)燒友

中國電子工程師最喜歡的網站

與2931785位工程師會員交流學習
獲取您個性化的科技前沿技術信息
參加活動獲取豐厚的禮品