0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DPCNN,究竟是多么牛逼的網絡呢?

電子工程師 ? 來源:lq ? 2019-01-28 09:22 ? 次閱讀

ACL2017年中,騰訊AI-lab提出了Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN)。論文中提出了一種基于word-level級別的網絡-DPCNN,由于上一篇文章介紹的TextCNN不能通過卷積獲得文本的長距離依賴關系,而論文中DPCNN通過不斷加深網絡,可以抽取長距離的文本依賴關系。實驗證明在不增加太多計算成本的情況下,增加網絡深度就可以獲得最佳的準確率。?

DPCNN結構

究竟是多么牛逼的網絡呢?我們下面來窺探一下模型的芳容。

DPCNN結構細節(jié)

模型是如何通過加深網絡來捕捉文本的長距離依賴關系的呢?下面我們來一一道來。為了更加簡單的解釋DPCNN,這里我先不解釋是什么是Region embedding,我們先把它當作wordembedding。

等長卷積

首先交代一下卷積的的一個基本概念。一般常用的卷積有以下三類:

假設輸入的序列長度為n,卷積核大小為m,步長(stride)為s,輸入序列兩端各填補p個零(zero padding),那么該卷積層的輸出序列為(n-m+2p)/s+1。

(1)窄卷積(narrow convolution):步長s=1,兩端不補零,即p=0,卷積后輸出長度為n-m+1。

(2)寬卷積(wide onvolution):步長s=1,兩端補零p=m-1,卷積后輸出長度n+m-1。

(3)等長卷積(equal-width convolution):步長s=1,兩端補零p=(m-1)/2,卷積后輸出長度為n。如下圖所示,左右兩端同時補零p=1,s=3。

池化

那么DPCNN是如何捕捉長距離依賴的呢?這里我直接引用文章的小標題——Downsampling with the number of featuremaps fixed。

作者選擇了適當?shù)膬蓪拥乳L卷積來提高詞位embedding的表示的豐富性。然后接下來就開始Downsampling(池化)。再每一個卷積塊(兩層的等長卷積)后,使用一個size=3和stride=2進行maxpooling進行池化。序列的長度就被壓縮成了原來的一半。其能夠感知到的文本片段就比之前長了一倍。

例如之前是只能感知3個詞位長度的信息,經過1/2池化層后就能感知6個詞位長度的信息啦,這時把1/2池化層和size=3的卷積層組合起來如圖所示。

固定feature maps(filters)的數(shù)量

為什么要固定feature maps的數(shù)量呢?許多模型每當執(zhí)行池化操作時,增加feature maps的數(shù)量,導致總計算復雜度是深度的函數(shù)。與此相反,作者對feature map的數(shù)量進行了修正,他們實驗發(fā)現(xiàn)增加feature map的數(shù)量只會大大增加計算時間,而沒有提高精度

另外,夕小瑤小姐姐在知乎也詳細的解釋了為什么要固定featuremaps的數(shù)量。有興趣的可以去知乎搜一搜,講的非常透徹。

固定了feature map的數(shù)量,每當使用一個size=3和stride=2進行maxpooling進行池化時,每個卷積層的計算時間減半(數(shù)據(jù)大小減半),從而形成一個金字塔。

這就是論文題目所謂的Pyramid。

好啦,看似問題都解決了,目標成功達成。剩下的我們就只需要重復的進行等長卷積+等長卷積+使用一個size=3和stride=2進行maxpooling進行池化就可以啦,DPCNN就可以捕捉文本的長距離依賴啦!

Shortcut connections with pre-activation

但是!如果問題真的這么簡單的話,深度學習就一下子少了超級多的難點了。

(1) 初始化CNN的時,往往各層權重都初始化為很小的值,這導致了最開始的網絡中,后續(xù)幾乎每層的輸入都是接近0,這時的網絡輸出沒有意義;

(2) 小權重阻礙了梯度的傳播,使得網絡的初始訓練階段往往要迭代好久才能啟動;

(3)就算網絡啟動完成,由于深度網絡中仿射矩陣(每兩層間的連接邊)近似連乘,訓練過程中網絡也非常容易發(fā)生梯度爆炸或彌散問題。

當然,上述這幾點問題本質就是梯度彌散問題。那么如何解決深度CNN網絡的梯度彌散問題呢?當然是膜一下何愷明大神,然后把ResNet的精華拿來用啦!ResNet中提出的shortcut-connection/ skip-connection/ residual-connection(殘差連接)就是一種非常簡單、合理、有效的解決方案。

類似地,為了使深度網絡的訓練成為可能,作者為了恒等映射,所以使用加法進行shortcut connections,即z+f(z),其中f用的是兩層的等長卷積。這樣就可以極大的緩解了梯度消失問題。

另外,作者也使用了pre-activation,這個最初在何凱明的“Identity Mappings in Deep Residual Networks上提及,有興趣的大家可以看看這個的原理。直觀上,這種“線性”簡化了深度網絡的訓練,類似于LSTM中constant errorcarousels的作用。而且實驗證明pre-activation優(yōu)于post-activation。

整體來說,巧妙的結構設計,使得這個模型不需要為了維度匹配問題而擔憂。

Region embedding

同時DPCNN的底層貌似保持了跟TextCNN一樣的結構,這里作者將TextCNN的包含多尺寸卷積濾波器的卷積層的卷積結果稱之為Region embedding,意思就是對一個文本區(qū)域/片段(比如3gram)進行一組卷積操作后生成的embedding。

另外,作者為了進一步提高性能,還使用了tv-embedding (two-views embedding)進一步提高DPCNN的accuracy。

上述介紹了DPCNN的整體架構,可見DPCNN的架構之精美。本文是在原始論文以及知乎上的一篇文章的基礎上進行整理。本文可能也會有很多錯誤,如果有錯誤,歡迎大家指出來!建議大家為了更好的理解DPCNN,看一下原始論文和參考里面的知乎。

用Keras實現(xiàn)DPCNN網絡

這里參考了一下kaggle的代碼,模型一共用了七層,模型的參數(shù)與論文不太相同。這里濾波器通道個數(shù)為64(論文中為256),具體的參數(shù)可以參考下面的代碼,部分我寫了注釋。

def CNN(x): block = Conv1D(filter_nr, kernel_size=filter_size, padding=same, activation=linear, kernel_regularizer=conv_kern_reg, bias_regularizer=conv_bias_reg)(x) block = BatchNormalization()(block) block = PReLU()(block) block = Conv1D(filter_nr, kernel_size=filter_size, padding=same, activation=linear, kernel_regularizer=conv_kern_reg, bias_regularizer=conv_bias_reg)(block) block = BatchNormalization()(block) block = PReLU()(block) return blockdef DPCNN(): filter_nr = 64 #濾波器通道個數(shù) filter_size = 3 #卷積核 max_pool_size = 3 #池化層的pooling_size max_pool_strides = 2 #池化層的步長 dense_nr = 256 #全連接層 spatial_dropout = 0.2 dense_dropout = 0.5 train_embed = False conv_kern_reg = regularizers.l2(0.00001) conv_bias_reg = regularizers.l2(0.00001) comment = Input(shape=(maxlen,)) emb_comment = Embedding(max_features, embed_size, weights=[embedding_matrix], trainable=train_embed)(comment) emb_comment = SpatialDropout1D(spatial_dropout)(emb_comment) #region embedding層 resize_emb = Conv1D(filter_nr, kernel_size=1, padding=same, activation=linear, kernel_regularizer=conv_kern_reg, bias_regularizer=conv_bias_reg)(emb_comment) resize_emb = PReLU()(resize_emb) #第一層 block1 = CNN(emb_comment) block1_output = add([block1, resize_emb]) block1_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block1_output) #第二層 block2 = CNN(block1_output) block2_output = add([block2, block1_output]) block2_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block2_output) #第三層 block3 = CNN(block2_output) block3_output = add([block3, block2_output]) block3_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block3_output) #第四層 block4 = CNN(block3_output) block4_output = add([block4, block3_output]) block4_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block4_output) #第五層 block5 = CNN(block4_output) block5_output = add([block5, block4_output]) block5_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block5_output) #第六層 block6 = CNN(block5_output) block6_output = add([block6, block5_output]) block6_output = MaxPooling1D(pool_size=max_pool_size, strides=max_pool_strides)(block6_output) #第七層 block7 = CNN(block6_output) block7_output = add([block7, block6_output]) output = GlobalMaxPooling1D()(block7_output) #全連接層 output = Dense(dense_nr, activation=linear)(output) output = BatchNormalization()(output) output = PReLU()(output) output = Dropout(dense_dropout)(output) output = Dense(6, activation=sigmoid)(output) model = Model(comment, output) model.summary() model.compile(loss=binary_crossentropy, optimizer=optimizers.Adam(), metrics=[accuracy]) return model

DPCNN實戰(zhàn)

上面我們用keras實現(xiàn)了我們的DPCNN網絡,這里我們借助kaggle的有毒評論文本分類競賽來實戰(zhàn)下我們的DPCNN網絡。

具體地代碼,大家可以去我的GitHub上面找到源碼:

https://github.com/hecongqing/TextClassification/blob/master/DPCNN.ipynb

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 濾波器
    +關注

    關注

    161

    文章

    7854

    瀏覽量

    178566
  • 卷積
    +關注

    關注

    0

    文章

    95

    瀏覽量

    18529
  • 深度學習
    +關注

    關注

    73

    文章

    5511

    瀏覽量

    121362

原文標題:知否?知否?一文看懂深度文本分類之DPCNN原理與代碼

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    圖解:IGBT究竟是什么?

    圖解:IGBT究竟是什么? IGBT究竟是什么?
    發(fā)表于 08-10 08:01

    S參數(shù)究竟是什么?

    S參數(shù)究竟是什么?起決定性作用的S參數(shù)將S參數(shù)擴展到多端口器件和差分器件
    發(fā)表于 03-01 11:46

    我們仿真DDR究竟是仿真什么

    我們仿真DDR究竟是仿真什么?
    發(fā)表于 03-04 07:32

    電感飽和究竟是什么

    電感飽和究竟是什么
    發(fā)表于 03-11 08:13

    真正軟件定義無線電究竟是怎樣的?

    真正軟件定義無線電究竟是怎樣的?
    發(fā)表于 05-14 06:47

    分貝究竟是什么?如何去理解它?

    分貝究竟是什么?如何去理解它?
    發(fā)表于 05-31 07:05

    一文讀懂eMMC究竟是啥?

    eMMC究竟是啥?eMMC長什么樣?eMMC用在哪?主要是干嘛用的?eMMC究竟是如何工作的?
    發(fā)表于 06-18 06:04

    SSD用久了速度會下降,這究竟是為什么?

    SSD用久了速度會下降,這究竟是為什么?造成SSD越用越慢的原因有哪些?
    發(fā)表于 06-18 08:49

    spec究竟是什么?有誰可以分享一下嗎

    spec究竟是什么?哪位同行可以幫忙分享下DFI 5.0的spec?
    發(fā)表于 06-21 07:16

    retain,copy與assign究竟是有什么區(qū)別

    retain,copy與assign究竟是有什么區(qū)別
    發(fā)表于 09-30 09:25

    請問NTC熱敏電阻的B值究竟是什么東西?

    請問NTC熱敏電阻的B值究竟是什么東西?
    發(fā)表于 04-23 10:29

    同步電機的轉數(shù)同步究竟是與什么同步啊?

    同步電機的轉數(shù)同步究竟是與什么同步啊? 所有的同步電機的轉數(shù)都一樣嗎?還是與電機的極對數(shù)有關系?
    發(fā)表于 12-19 06:44

    S參數(shù)究竟是什么?

    S參數(shù)究竟是什么?
    發(fā)表于 11-01 08:24 ?2次下載
    S參數(shù)<b class='flag-5'>究竟是</b>什么?

    ARM和FPGA究竟是如何進行通信的?

    ZYNQ擁有ARM+FPGA這個神奇的架構,那么ARM和FPGA究竟是如何進行通信的?本章通過剖析AXI總線源碼,來一探其中的秘密。
    的頭像 發(fā)表于 02-16 09:26 ?1.4w次閱讀

    串口究竟是什么?

    串口通訊是我們在電力電子設計中使用頻率比較高的一種通訊協(xié)議,那串口究竟是什么?
    的頭像 發(fā)表于 04-12 09:40 ?2w次閱讀