0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

文本分類任務(wù)介紹和傳統(tǒng)機(jī)器學(xué)習(xí)方法

lviY_AI_shequ ? 來源:未知 ? 作者:李倩 ? 2018-07-17 17:03 ? 次閱讀

1. 文本分類任務(wù)介紹

文本分類是自然語言處理的一個(gè)基本任務(wù),試圖推斷出給定的文本(句子、文檔等)的標(biāo)簽或標(biāo)簽集合。文本分類的應(yīng)用非常廣泛。如:

垃圾郵件分類:二分類問題,判斷郵件是否為垃圾郵件

情感分析

二分類問題,判斷文本情感是積極(positive)還是消極(negative)

多分類問題,判斷文本情感屬于{非常消極,消極,中立,積極,非常積極}中的哪一類

新聞主題分類:判斷新聞屬于哪個(gè)類別,如財(cái)經(jīng)、體育、娛樂等

自動(dòng)問答系統(tǒng)中的問句分類

社區(qū)問答系統(tǒng)中的問題分類:多標(biāo)簽分類

更多應(yīng)用:

AI當(dāng)法官: 基于案件事實(shí)描述文本的罰金等級(jí)分類(多分類)和法條分類(多標(biāo)簽分類)。

判斷新聞是否為機(jī)器人所寫: 二分類

不同類型的文本分類往往有不同的評(píng)價(jià)指標(biāo),具體如下:

二分類:accuracy,precision,recall,f1-score,...

多分類: Micro-Averaged-F1, Macro-Averaged-F1, ...

多標(biāo)簽分類:Jaccard相似系數(shù), ...

2. 傳統(tǒng)機(jī)器學(xué)習(xí)方法

傳統(tǒng)的機(jī)器學(xué)習(xí)方法主要利用自然語言處理中的n-gram概念對(duì)文本進(jìn)行特征提取,并且使用TFIDF對(duì)n-gram特征權(quán)重進(jìn)行調(diào)整,然后將提取到的文本特征輸入到Logistics回歸、SVM等分類器中進(jìn)行訓(xùn)練。但是,上述的特征提取方法存在數(shù)據(jù)稀疏和維度爆炸等問題,這對(duì)分類器來說是災(zāi)難性的,并且使得訓(xùn)練的模型泛化能力有限。因此,往往需要采取一些策略進(jìn)行降維:

人工降維:停用詞過濾,低頻n-gram過濾等

自動(dòng)降維:LDA等

值得指出的是,將深度學(xué)習(xí)中的word2vec,doc2vec作為文本特征與上文提取的特征進(jìn)行融合,常??梢蕴岣吣P途取?/p>

3. CNN用于文本分類

論文Convolutional Neural Networks for Sentence Classification提出了使用CNN進(jìn)行句子分類的方法。

3.1 CNN模型推導(dǎo)

一個(gè)句子是由多個(gè)詞拼接而成的,如果一個(gè)句子有n個(gè)詞,且第i個(gè)詞表示為正i,詞;通過embedding后表示為k維的向量,即,則一個(gè)句子為n?*?k的矩陣,可以形式化如下:

一個(gè)包含h個(gè)的詞的詞窗口表示為:

一個(gè)filter是大小為h*k的矩陣,表示為:

通過一個(gè)filter作用一個(gè)詞窗口提取可以提取一個(gè)特征,?如下:

其中,是bias值,f為激活函數(shù)如Relu等。

卷積操作:通過一個(gè)filter在整個(gè)句子上從句首到句尾掃描-遍,提取每個(gè)詞窗口的特征,可以得到一個(gè)特征圖(featuremap),表示如下(這里默認(rèn)不對(duì)句padding):?

池化操作:對(duì)一個(gè)filter提取到的featuremap進(jìn)行maxpooling,得到只即:

若有m個(gè)filter,則通過一層卷積一層池化后可以得到一個(gè)長(zhǎng)度為m的向量:

最后,將向量z輸入到全連接層,得到最終的特征提取向量y(這里的W為全連接層的權(quán)重,注意與filter進(jìn)行區(qū)分):

3.2 優(yōu)化CNN模型

3.2.1 詞向量

隨機(jī)初始化 (CNN-rand)

預(yù)訓(xùn)練詞向量進(jìn)行初始化,在訓(xùn)練過程中固定 (CNN-static)

預(yù)訓(xùn)練詞向量進(jìn)行初始化,在訓(xùn)練過程中進(jìn)行微調(diào) (CNN-non-static)

多通道(CNN-multichannel):將固定的預(yù)訓(xùn)練詞向量和微調(diào)的詞向量分別當(dāng)作一個(gè)通道(channel),卷積操作同時(shí)在這兩個(gè)通道上進(jìn)行,可以類比于圖像RGB三通道。

上圖為模型架構(gòu)示例,在示例中,句長(zhǎng)n=9,詞向量維度k=6,fiter有兩種窗口大小(或者說kernelsize),每種有2個(gè),因此filter總個(gè)數(shù)m=4,其中:

一種的窗口大小h=2(紅色框),卷積后的向量維度為n一h+1=8

另-種窗口大小h=3(黃色框),卷積后的向量維度為n一h+1=7

3.2.2 正則化

Dropout:對(duì)全連接層的輸入z向量進(jìn)行dropout

其中為masking向量(每個(gè)維度值非0即1,可以通過伯努利分布隨機(jī)生成),和向量z進(jìn)行元素與元素對(duì)應(yīng)相乘,讓r向量值為0的位置對(duì)應(yīng)的z向量中的元素值失效(梯度無法更新)。

L2-norms:對(duì)L2正則化項(xiàng)增加限制:當(dāng)正則項(xiàng)1|W112>8時(shí),令|W1l2=s,其中s為超參數(shù)。

3.3 一些結(jié)論

Multichannel vs. Single Channel Models: 雖然作者一開始認(rèn)為多通道可以預(yù)防過擬合,從而應(yīng)該表現(xiàn)更高,尤其是在小規(guī)模數(shù)據(jù)集上。但事實(shí)是,單通道在一些語料上比多通道更好;

Static vs. Non-static Representations: 在大部分的語料上,CNN-non-static都優(yōu)于CNN-static,一個(gè)解釋:預(yù)訓(xùn)練詞向量可能認(rèn)為‘good’和‘bad’類似(可能它們有許多類似的上下文),但是對(duì)于情感分析任務(wù),good和bad應(yīng)該要有明顯的區(qū)分,如果使用CNN-static就無法做調(diào)整了;

Dropout可以提高2%–4%性能(performance);

對(duì)于不在預(yù)訓(xùn)練的word2vec中的詞,使用均勻分布隨機(jī)初始化,并且調(diào)整a使得隨機(jī)初始化的詞向量和預(yù)訓(xùn)練的詞向量保持相近的方差,可以有微弱提升;

可以嘗試其他的詞向量預(yù)訓(xùn)練語料,如Wikipedia[Collobert et al. (2011)]

Adadelta(Zeiler, 2012)和Adagrad(Duchi et al., 2011)可以得到相近的結(jié)果,但是所需epoch更少。

3.4 進(jìn)一步思考CNN

3.4.1 為什么CNN能夠用于文本分類(NLP)?

為什么CNN能夠用于文本分類(NLP)?

filter相當(dāng)于N-gram ?

filter只提取局部特征?全局特征怎么辦?可以融合嗎?

RNN可以提取全局特征

RCNN(下文說明): RNN和CNN的結(jié)合

3.4.2 超參數(shù)怎么調(diào)?

論文A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification提供了一些策略。

用什么樣的詞向量

使用預(yù)訓(xùn)練詞向量比隨機(jī)初始化的效果要好

采取微調(diào)策略(non-static)的效果比固定詞向量(static)的效果要好

無法確定用哪種預(yù)訓(xùn)練詞向量(Google word2vec / GloVe representations)更好,不同的任務(wù)結(jié)果不同,應(yīng)該對(duì)于你當(dāng)前的任務(wù)進(jìn)行實(shí)驗(yàn);

filter窗口大小、數(shù)量

在實(shí)踐中,100到600是一個(gè)比較合理的搜索空間。

每次使用一種類型的filter進(jìn)行實(shí)驗(yàn),表明filter的窗口大小設(shè)置在1到10之間是一個(gè)比較合理的選擇。

首先在一種類型的filter大小上執(zhí)行搜索,以找到當(dāng)前數(shù)據(jù)集的“最佳”大小,然后探索這個(gè)最佳大小附近的多種filter大小的組合。

每種窗口類型的filter對(duì)應(yīng)的“最好”的filter個(gè)數(shù)(feature map數(shù)量)取決于具體數(shù)據(jù)集;

但是,可以看出,當(dāng)feature map數(shù)量超過600時(shí),performance提高有限,甚至?xí)p害performance,這可能是過多的feature map數(shù)量導(dǎo)致過擬合了;

激活函數(shù) (tanh, relu, ...)

Sigmoid, Cube, and tanh cube相較于Relu和Tanh的激活函數(shù),表現(xiàn)很糟糕;

tanh比sigmoid好,這可能是由于tanh具有zero centering property(過原點(diǎn));

與Sigmoid相比,ReLU具有非飽和形式(a non-saturating form)的優(yōu)點(diǎn),并能夠加速SGD的收斂。

對(duì)于某些數(shù)據(jù)集,線性變換(Iden,即不使用非線性激活函數(shù))足夠捕獲詞嵌入與輸出標(biāo)簽之間的相關(guān)性。(但是如果有多個(gè)隱藏層,相較于非線性激活函數(shù),Iden就不太適合了,因?yàn)橥耆镁€性激活函數(shù),即使有多個(gè)隱藏層,組合后整個(gè)模型還是線性的,表達(dá)能力可能不足,無法捕獲足夠信息);

因此,建議首先考慮ReLU和tanh,也可以嘗試Iden

池化策略:最大池化就是最好的嗎

對(duì)于句子分類任務(wù),1-max pooling往往比其他池化策略要好;

這可能是因?yàn)樯舷挛牡木唧w位置對(duì)于預(yù)測(cè)Label可能并不是很重要,而句子某個(gè)具體的n-gram(1-max pooling后filter提取出來的的特征)可能更可以刻畫整個(gè)句子的某些含義,對(duì)于預(yù)測(cè)label更有意義;

(但是在其他任務(wù)如釋義識(shí)別,k-max pooling可能更好。)

正則化

0.1到0.5之間的非零dropout rates能夠提高一些performance(盡管提升幅度很?。?,具體的最佳設(shè)置取決于具體數(shù)據(jù)集;

對(duì)l2 norm加上一個(gè)約束往往不會(huì)提高performance(除了Opi數(shù)據(jù)集);

當(dāng)feature map的數(shù)量大于100時(shí),可能導(dǎo)致過擬合,影響performance,而dropout將減輕這種影響;

在卷積層上進(jìn)行dropout幫助很小,而且較大的dropout rate對(duì)performance有壞的影響。

3.5 字符級(jí)別的CNN用于文本分類

論文Character-level convolutional networks for text classification將文本看成字符級(jí)別的序列,使用字符級(jí)別(Character-level)的CNN進(jìn)行文本分類。

3.5.1 字符級(jí)CNN的模型設(shè)計(jì)

首先需要對(duì)字符進(jìn)行數(shù)字化(quantization)。具體如下:

定義字母表(Alphabet):大小為m(對(duì)于英文m=70m=70,如下圖,之后會(huì)考慮將大小寫字母都包含在內(nèi)作為對(duì)比)

字符數(shù)字化(編碼): "one-hot"編碼

序列(文本)長(zhǎng)度:?(定值)然后論文設(shè)計(jì)了兩種類型的卷積網(wǎng)絡(luò):Large和Small(作為對(duì)照實(shí)驗(yàn))

它們都有9層,其中6層為卷積層(convolutional layer);3層為全連接層(fully-connected layer):

Dropout的概率都為0.5

使用高斯分布(Gaussian distribution)對(duì)權(quán)重進(jìn)行初始化:

最后一層卷積層單個(gè)filter輸出特征長(zhǎng)度(the output frame length)為,推

第一層全連接層的輸入維度(其中1024和256為filter個(gè)數(shù)或者說frame/feature size):

下圖為模型的一個(gè)圖解示例。其中文本長(zhǎng)度為10,第一層卷積的kernel size為3(半透明黃色正方形),卷積個(gè)數(shù)為9(Feature=9),步長(zhǎng)為1,因此Length=10-3+1=8,然后進(jìn)行非重疊的max-pooling(即pooling的stride=size),pooling size為2,因此池化后的Length = 8 / 2 = 4。

3.5.2 字符級(jí)CNN的相關(guān)總結(jié)與思考

字符級(jí)CNN是一個(gè)有效的方法

數(shù)據(jù)集的大小可以為選擇傳統(tǒng)方法還是卷積網(wǎng)絡(luò)模型提供指導(dǎo):對(duì)于幾百上千等小規(guī)模數(shù)據(jù)集,可以優(yōu)先考慮傳統(tǒng)方法,對(duì)于百萬規(guī)模的數(shù)據(jù)集,字符級(jí)CNN開始表現(xiàn)不錯(cuò)。

字符級(jí)卷積網(wǎng)絡(luò)很適用于用戶生成數(shù)據(jù)(user-generated data)(如拼寫錯(cuò)誤,表情符號(hào)等),

沒有免費(fèi)的午餐(There is no free lunch)

中文怎么辦

中文中的同音詞非常多,如何克服?

如果把中文中的每個(gè)字作為一個(gè)字符,那么字母表將非常大

是否可以把中文先轉(zhuǎn)為拼音(pinyin)?

論文Character-level Convolutional Network for Text Classification Applied to Chinese Corpus進(jìn)行了相關(guān)實(shí)驗(yàn)。

將字符級(jí)和詞級(jí)進(jìn)行結(jié)合是否結(jié)果更好

英文如何結(jié)合

中文如何結(jié)合

3.5.3 使用同義詞表進(jìn)行數(shù)據(jù)增強(qiáng)

對(duì)于深度學(xué)習(xí)模型,采用適當(dāng)?shù)臄?shù)據(jù)增強(qiáng)(Data Augmentation)技術(shù)可以提高模型的泛化能力。數(shù)據(jù)增強(qiáng)在計(jì)算機(jī)視覺領(lǐng)域比較常見,例如對(duì)圖像進(jìn)行旋轉(zhuǎn),適當(dāng)扭曲,隨機(jī)增加噪聲等操作。對(duì)于NLP,最理想的數(shù)據(jù)增強(qiáng)方法是使用人類復(fù)述句子(human rephrases of sentences),但是這比較不現(xiàn)實(shí)并且對(duì)于大規(guī)模語料來說代價(jià)昂貴。一個(gè)更自然的選擇是使用詞語或短語的同義詞或同義短語進(jìn)行替換,從而達(dá)到數(shù)據(jù)增強(qiáng)的目的。具體做法如下:

英文同義詞典: from themytheascomponent used in LibreOffice1 project.

http://www.libreoffice.org/

從給定的文本中抽取出所有可以替換的詞,然后隨機(jī)選擇個(gè)進(jìn)行替換,其中r由一個(gè)參數(shù)為p的幾何分布(geometric distribution)確定,即

給定一個(gè)待替換的詞,其同義詞可能有多個(gè)(一個(gè)列表),選擇第s個(gè)的概率也通過另一個(gè)幾何分布確定,即。這樣是為了當(dāng)前詞的同義詞列表中的距離較遠(yuǎn)(s較大)的同義詞被選的概率更小。

論文實(shí)驗(yàn)設(shè)置:p=0.5,q=0.5

4. RNN用于文本分類

策略1:直接使用RNN的最后一個(gè)單元輸出向量作為文本特征

策略2:使用雙向RNN的兩個(gè)方向的輸出向量的連接(concatenate)或均值作為文本特征

策略3:將所有RNN單元的輸出向量的均值pooling或者max-pooling作為文本特征

策略4:層次RNN+Attention,Hierarchical Attention Networks

5. RCNN(RNN+CNN)用于文本分類

論文Recurrent Convolutional Neural Networks for Text Classification設(shè)計(jì)了一種RNN和CNN結(jié)合的模型用于文本分類。

5.1 RCNN模型推導(dǎo)

5.1.1 詞表示學(xué)習(xí)

使用雙向RNN分別學(xué)習(xí)當(dāng)前詞的左上下文表示和右上下文表示再與當(dāng)前詞自身的表示連接,構(gòu)成卷積層的輸入。具體如下:

然后將作為的表示,輸入到激活函數(shù)為tanh,kernel?size為1的卷積層,得到的潛在語義向量(latent?semantic?vector)

將kernelsize設(shè)置為1是因?yàn)?img src="http://file.elecfans.com/web1/M00/57/E4/pIYBAFtNsZyARJX7AAAAz-8o8Hc097.png" />中已經(jīng)包含左右上下文的信息,無需再使用窗口大于1的filter進(jìn)行特征提取。但是需要說明的是,在實(shí)踐中仍然可以同時(shí)使用多種kernel?size的filter,如[1,?2,?3],可能取得更好的效果,一種可能的解釋是窗口大于1的ilter強(qiáng)化了的左右最近的上下文信息。此外,實(shí)踐中可以使用更復(fù)雜的RNN來捕獲的上下文信息如LSTM和GRU等。

5.1 2 文本表示學(xué)習(xí)

經(jīng)過卷積層后,獲得了所有詞的表示,然后在經(jīng)過最大池化層和全連接層得到文本的表示,最后通過softmax層進(jìn)行分類。具體如下:

下圖為上述過程的一個(gè)圖解:

5.2 RCNN相關(guān)總結(jié)

NN vs. traditional methods: 在該論文的所有實(shí)驗(yàn)數(shù)據(jù)集上,神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)方法的效果都要好

Convolution-based vs. RecursiveNN: 基于卷積的方法比基于遞歸神經(jīng)網(wǎng)絡(luò)的方法要好

RCNN vs. CFG and C&J: The RCNN可以捕獲更長(zhǎng)的模式(patterns)

RCNN vs. CNN: 在該論文的所有實(shí)驗(yàn)數(shù)據(jù)集上,RCNN比CNN更好

CNNs使用固定的詞窗口(window of words), 實(shí)驗(yàn)結(jié)果受窗口大小影響

RCNNs使用循環(huán)結(jié)構(gòu)捕獲廣泛的上下文信息

6. 一定要CNN/RNN嗎

上述的深度學(xué)習(xí)方法通過引入CNN或RNN進(jìn)行特征提取,可以達(dá)到比較好的效果,但是也存在一些問題,如參數(shù)較多導(dǎo)致訓(xùn)練時(shí)間過長(zhǎng),超參數(shù)較多模型調(diào)整麻煩等。下面兩篇論文提出了一些簡(jiǎn)單的模型用于文本分類,并且在簡(jiǎn)單的模型上采用了一些優(yōu)化策略。

6.1 深層無序組合方法

論文Deep Unordered Composition Rivals Syntactic Methods for Text Classification提出了NBOW(Neural Bag-of-Words)模型和DAN(Deep Averaging Networks)模型。對(duì)比了深層無序組合方法(Deep Unordered Composition)和句法方法(Syntactic Methods)應(yīng)用在文本分類任務(wù)中的優(yōu)缺點(diǎn),強(qiáng)調(diào)深層無序組合方法的有效性、效率以及靈活性。

6.1.1 Neural Bag-of-Words Models

論文首先提出了一個(gè)最簡(jiǎn)單的無序模型Neural Bag-of-Words Models (NBOWmodel)。該模型直接將文本中所有詞向量的平均值作為文本的表示,然后輸入到softmax 層,形式化表示如下:

6.1.2 Considering Syntax for Composition

一些考慮語法的方法:

Recursive neural networks (RecNNs)

可以考慮一些復(fù)雜的語言學(xué)現(xiàn)象,如否定、轉(zhuǎn)折等 (優(yōu)點(diǎn))

實(shí)現(xiàn)效果依賴輸入序列(文本)的句法樹(可能不適合長(zhǎng)文本和不太規(guī)范的文本)

需要更多的訓(xùn)練時(shí)間

Using a convolutional network instead of a RecNN

時(shí)間復(fù)雜度同樣比較大,甚至更大(通過實(shí)驗(yàn)結(jié)果得出的結(jié)論,這取決于filter大小、個(gè)數(shù)等超參數(shù)的設(shè)置)

6.1.3 Deep Averaging Networks

Deep Averaging Networks (DAN)是在NBOWmodel的基礎(chǔ)上,通過增加多個(gè)隱藏層,增加網(wǎng)絡(luò)的深度(Deep)。下圖為帶有兩層隱藏層的DAN與RecNN模型的對(duì)比。

6.1.4 Word Dropout Improves Robustness

針對(duì)DAN模型,論文提出一種word dropout策略:在求平均詞向量前,隨機(jī)使得文本中的某些單詞(token)失效。形式化表示如下:

Word Dropout可能會(huì)使得某些非常重要的token失效。然而,使用word dropout往往確實(shí)有提升,這可能是因?yàn)?,一些?duì)標(biāo)簽預(yù)測(cè)起到關(guān)鍵性作用的word數(shù)量往往小于無關(guān)緊要的word數(shù)量。例如,對(duì)于情感分析任務(wù),中立(neutral)的單詞往往是最多的。

Word dropout 同樣可以用于其他基于神經(jīng)網(wǎng)絡(luò)的方法。

Word Dropout或許起到了類似數(shù)據(jù)增強(qiáng)(Data Augmentation)的作用?

6.2 fastText

論文Bag of Tricks for Efficient Text Classification提出一個(gè)快速進(jìn)行文本分類的模型和一些trick。

6.2.1 fastText模型架構(gòu)

fastText模型直接對(duì)所有進(jìn)行embedded的特征取均值,作為文本的特征表示,如下圖。

6.2.2 特點(diǎn)

當(dāng)類別數(shù)量較大時(shí),使用Hierachical Softmax

將N-gram融入特征中,并且使用Hashing trick[Weinberger et al.2009]提高效率

7. 最新研究

根據(jù)github repo:state-of-the-art-result-for-machine-learning-problems,下面兩篇論文提出的模型可以在文本分類取得最優(yōu)的結(jié)果(讓AI當(dāng)法官比賽第一名使用了論文Learning Structured Text Representations中的模型):

Learning Structured Text Representations

Attentive Convolution

論文Multi-Task Label Embedding for Text Classification認(rèn)為標(biāo)簽與標(biāo)簽之間有可能有聯(lián)系,所以不是像之前的深度學(xué)習(xí)模型把標(biāo)簽看成one-hot vector,而是對(duì)每個(gè)標(biāo)簽進(jìn)行embedding學(xué)習(xí),以提高文本分類的精度。

References[1] Le and Mikolov - 2014 - Distributed representations of sentences and documents[2] Kim - 2014 - Convolutional neural networks for sentence classification[3] Zhang and Wallace - 2015 - A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification[4] Zhang et al. - 2015 - Character-level convolutional networks for text classification[5] Lai et al. - 2015 - Recurrent Convolutional Neural Networks for Text Classification[6] Iyyer et al. - 2015 - Deep unordered composition rivals syntactic methods for Text Classification[7] Joulin et al. - 2016 - Bag of tricks for efficient text classification[8] Liu and Lapata - 2017 - Learning Structured Text Representations[9] Yin and Schütze - 2017 - Attentive Convolution[10] Zhang et al. - 2017 - Multi-Task Label Embedding for Text Classification

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 文本分類
    +關(guān)注

    關(guān)注

    0

    文章

    18

    瀏覽量

    7306
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8418

    瀏覽量

    132634
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    288

    瀏覽量

    13350

原文標(biāo)題:深度學(xué)習(xí)在文本分類中的應(yīng)用

文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一些解決文本分類問題的機(jī)器學(xué)習(xí)最佳實(shí)踐

    文本分類是一種應(yīng)用廣泛的算法,它是各種用于大規(guī)模處理文本數(shù)據(jù)的軟件系統(tǒng)的核心,常被用于幫助電子郵箱過濾垃圾郵件,幫助論壇機(jī)器人標(biāo)記不當(dāng)評(píng)論。
    的頭像 發(fā)表于 07-31 09:28 ?7295次閱讀

    NLPIR平臺(tái)在文本分類方面的技術(shù)解析

    一下NLPIR大數(shù)據(jù)語義智能分析系統(tǒng)是怎樣實(shí)現(xiàn)文本分類的。NLPIR大數(shù)據(jù)語義智能分析平臺(tái)的文本分類有兩種模式:專家規(guī)則分類機(jī)器學(xué)習(xí)
    發(fā)表于 11-18 17:46

    融合詞語類別特征和語義的短文本分類方法

    針對(duì)短文本內(nèi)容簡(jiǎn)短、特征稀疏等特點(diǎn),提出一種新的融合詞語類別特征和語義的短文本分類方法。該方法采用改進(jìn)的特征選擇方法從短
    發(fā)表于 11-22 16:29 ?0次下載
    融合詞語類別特征和語義的短<b class='flag-5'>文本分類</b><b class='flag-5'>方法</b>

    如何使用Spark計(jì)算框架進(jìn)行分布式文本分類方法的研究

    針對(duì)傳統(tǒng)文本分類算法在面對(duì)日益增多的海量文本數(shù)據(jù)時(shí)效率低下的問題,論文在Spark計(jì)算框架上設(shè)計(jì)并實(shí)現(xiàn)了一種并行化樸素貝葉斯文本分類器,并著重介紹
    發(fā)表于 12-18 14:19 ?3次下載
    如何使用Spark計(jì)算框架進(jìn)行分布式<b class='flag-5'>文本分類</b><b class='flag-5'>方法</b>的研究

    SiATL——最新、最簡(jiǎn)易的遷移學(xué)習(xí)方法

    許多傳統(tǒng)的遷移學(xué)習(xí)方法都是利用預(yù)先訓(xùn)練好的語言模型(LMs)來實(shí)現(xiàn)的,這些模型已經(jīng)非常流行,并且具有翻譯上下文信息的能力、高級(jí)建模語法和語義語言特性,能夠在對(duì)象識(shí)別、機(jī)器翻譯、文本分類
    的頭像 發(fā)表于 03-12 15:13 ?3635次閱讀
    SiATL——最新、最簡(jiǎn)易的遷移<b class='flag-5'>學(xué)習(xí)方法</b>

    運(yùn)用多種機(jī)器學(xué)習(xí)方法比較短文本分類處理過程與結(jié)果差別

    目標(biāo) 從頭開始實(shí)踐中文短文本分類,記錄一下實(shí)驗(yàn)流程與遇到的坑運(yùn)用多種機(jī)器學(xué)習(xí)(深度學(xué)習(xí) + 傳統(tǒng)機(jī)器
    的頭像 發(fā)表于 11-02 15:37 ?5252次閱讀
    運(yùn)用多種<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)方法</b>比較短<b class='flag-5'>文本分類</b>處理過程與結(jié)果差別

    文本分類的一個(gè)大型“真香現(xiàn)場(chǎng)”來了

    ? 文本分類的一個(gè)大型“真香現(xiàn)場(chǎng)”來了:JayJay的推文《超強(qiáng)文本半監(jiān)督MixText》中告訴大家不要浪費(fèi)沒有標(biāo)注過的數(shù)據(jù),但還是需要有標(biāo)注數(shù)據(jù)的!但今天介紹的這篇paper,文本分類
    的頭像 發(fā)表于 02-05 11:02 ?1864次閱讀
    <b class='flag-5'>文本分類</b>的一個(gè)大型“真香現(xiàn)場(chǎng)”來了

    基于深度神經(jīng)網(wǎng)絡(luò)的文本分類分析

    卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制等方法文本分類中的應(yīng)用和發(fā)展,分析多種典型分類方法的特點(diǎn)和性能,從準(zhǔn)確率和運(yùn)行時(shí)間方面對(duì)基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行比較,表明深度神經(jīng)網(wǎng)絡(luò)較
    發(fā)表于 03-10 16:56 ?37次下載
    基于深度神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>文本分類</b>分析

    融合文本分類和摘要的多任務(wù)學(xué)習(xí)摘要模型

    文本摘要應(yīng)包含源文本中所有重要信息,傳統(tǒng)基于編碼器-解碼器架構(gòu)的摘要模型生成的摘要準(zhǔn)確性較低。根據(jù)文本分類文本摘要的相關(guān)性,提出一種多
    發(fā)表于 04-27 16:18 ?11次下載
    融合<b class='flag-5'>文本分類</b>和摘要的多<b class='flag-5'>任務(wù)</b><b class='flag-5'>學(xué)習(xí)</b>摘要模型

    基于不同神經(jīng)網(wǎng)絡(luò)的文本分類方法研究對(duì)比

    海量文本分析是實(shí)現(xiàn)大數(shù)據(jù)理解和價(jià)值發(fā)現(xiàn)的重要手段,其中文本分類作為自然語言處理的經(jīng)典問題受到研究者廣泛關(guān)注,而人工神經(jīng)網(wǎng)絡(luò)在文本分析方面的優(yōu)異表現(xiàn)使其成為目前的主要研究方向。在此背景下,介紹
    發(fā)表于 05-13 16:34 ?49次下載

    一種為小樣本文本分類設(shè)計(jì)的結(jié)合數(shù)據(jù)增強(qiáng)的元學(xué)習(xí)框架

    01 研究背景及動(dòng)機(jī) 近些年,元學(xué)習(xí)已經(jīng)成為解決小樣本問題的主流技術(shù),并且取得不錯(cuò)的成果。然而,由于現(xiàn)有的元學(xué)習(xí)方法大多數(shù)集中在圖像分類上,而對(duì)文本分類上的關(guān)注比較少。與圖像不同,同一
    的頭像 發(fā)表于 05-19 15:54 ?4406次閱讀
    一種為小樣本<b class='flag-5'>文本分類</b>設(shè)計(jì)的結(jié)合數(shù)據(jù)增強(qiáng)的元<b class='flag-5'>學(xué)習(xí)</b>框架

    基于LSTM的表示學(xué)習(xí)-文本分類模型

    的關(guān)鍵。為了獲得妤的文本表示,提高文本分類性能,構(gòu)建了基于LSTM的表示學(xué)習(xí)-文本分類模型,其中表示學(xué)習(xí)模型利用語言模型為
    發(fā)表于 06-15 16:17 ?18次下載

    PyTorch文本分類任務(wù)的基本流程

    文本分類是NLP領(lǐng)域的較為容易的入門問題,本文記錄文本分類任務(wù)的基本流程,大部分操作使用了**torch**和**torchtext**兩個(gè)庫。 ## 1. 文本數(shù)據(jù)預(yù)處理
    的頭像 發(fā)表于 02-22 14:23 ?1107次閱讀

    聯(lián)合學(xué)習(xí)傳統(tǒng)機(jī)器學(xué)習(xí)方法中的應(yīng)用

    聯(lián)合學(xué)習(xí)傳統(tǒng)機(jī)器學(xué)習(xí)方法中的應(yīng)用
    的頭像 發(fā)表于 07-05 16:30 ?780次閱讀
    聯(lián)合<b class='flag-5'>學(xué)習(xí)</b>在<b class='flag-5'>傳統(tǒng)</b><b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)方法</b>中的應(yīng)用

    卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用

    在自然語言處理(NLP)領(lǐng)域,文本分類一直是一個(gè)重要的研究方向。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱CNN)在圖像識(shí)別領(lǐng)域取得了
    的頭像 發(fā)表于 07-01 16:25 ?727次閱讀