基于句式元學(xué)習(xí)的Twitter分類(lèi)
人工智能技術(shù)與咨詢?
本文來(lái)自《北京大學(xué)學(xué)報(bào)(自然科學(xué)版)》,作者閆雷鳴等
摘要?針對(duì)多類(lèi)別的社交媒體短文本分類(lèi)準(zhǔn)確率較低問(wèn)題, 提出一種學(xué)習(xí)多種句式的元學(xué)習(xí)方法, 用于改善 Twitter 文本分類(lèi)性能。將 Twitter 文本聚類(lèi)為多種句式, 各句式結(jié)合原類(lèi)標(biāo)簽, 成為多樣化的新類(lèi)別, 從而原分類(lèi)問(wèn)題轉(zhuǎn)化為較多類(lèi)別的 few-shot 學(xué)習(xí)問(wèn)題, 并通過(guò)訓(xùn)練深層網(wǎng)絡(luò)來(lái)學(xué)習(xí)句式原型編碼。用多個(gè)三分類(lèi)Twitter 數(shù)據(jù)來(lái)檢驗(yàn)所提 Meta-CNN 方法 , 結(jié)果顯示, 該方法的學(xué)習(xí)策略簡(jiǎn)單有效, 即便在樣本數(shù)量不多的情況下, 與傳統(tǒng)機(jī)器學(xué)習(xí)分類(lèi)器和部分深度學(xué)習(xí)分類(lèi)方法相比, Meta-CNN 仍能獲得較好的分類(lèi)準(zhǔn)確率和較高的F1值。
關(guān)鍵詞?元學(xué)習(xí); 少次學(xué)習(xí); 情感分析; 卷積神經(jīng)網(wǎng)絡(luò)
對(duì)微博和Twitter這類(lèi)社交平臺(tái)的短文本評(píng)論信息來(lái)說(shuō), 在多分類(lèi)問(wèn)題上, 即便采用深度學(xué)習(xí)方法, 分類(lèi)準(zhǔn)確率不高仍然是困擾業(yè)界的一個(gè)難題。社交平臺(tái)的文本評(píng)論信息字?jǐn)?shù)少、語(yǔ)法格式自由、大量使用縮略語(yǔ)和新詞語(yǔ)等, 隱喻、反諷和極性遷移等句型經(jīng)常出現(xiàn), 各類(lèi)型樣本數(shù)量分布很不平衡,造成社交平臺(tái)短文本分類(lèi)的困難。以 SemEval 2017的Twitter 分類(lèi)比賽結(jié)果為例, 前三名系統(tǒng)雖然在二分類(lèi)任務(wù)(正向、負(fù)向)上準(zhǔn)確率都超過(guò) 86%, 但是對(duì)于三分類(lèi)問(wèn)題(正向、負(fù)向和中性), 最好的系統(tǒng)準(zhǔn)確率僅為 65.8%, F1-score 為 68.5%[1]。有標(biāo)簽訓(xùn)練樣本不足是性能偏低的主要原因之一。隨著分類(lèi)類(lèi)別的增加, 樣本分布不平衡的情況進(jìn)一步加劇,總體需要的訓(xùn)練樣本進(jìn)一步增加。雖然遷移學(xué)習(xí)策略希望通過(guò)遷移到其他領(lǐng)域, 利用已有的領(lǐng)域知識(shí)來(lái)解決目標(biāo)領(lǐng)域中僅有少量有標(biāo)記樣本的問(wèn)題[2],但由于社交媒體短文本長(zhǎng)度短、形式自由以及常違背語(yǔ)法的特點(diǎn), 難以遷移其他源領(lǐng)域的知識(shí)。分類(lèi)模型的泛化能力不足是另一個(gè)主要原因。由于句型的靈活多變, 詞語(yǔ)的組合形式難以窮盡, 訓(xùn)練樣本不可能覆蓋所有的語(yǔ)義形式, 即測(cè)試樣本中有大量形式?jīng)]有出現(xiàn)在訓(xùn)練樣本中, 因此模型無(wú)法正確識(shí)別。
目前在社交媒體的短文本情感分析方面, 特別是多級(jí)情感分類(lèi)方面的研究, 仍然面臨有標(biāo)簽樣本數(shù)量不足、分類(lèi)模型泛化能力不足的挑戰(zhàn)。本文提出一種適合少樣本、多類(lèi)別的 Twitter 分類(lèi)框架, 該框架基于 few-short learning 策略, 利用 deep CNNs提取樣本的 meta-features, 用于識(shí)別訓(xùn)練樣本中未出現(xiàn)的類(lèi)型, 從而提高分類(lèi)模型的泛化(generalization)能力。
1 相關(guān)研究
詞向量被設(shè)計(jì)成詞的低維實(shí)數(shù)向量, 采用無(wú)監(jiān)督學(xué)習(xí)方法, 從海量的文本語(yǔ)料庫(kù)中訓(xùn)練獲得, 語(yǔ)法作用相似的詞向量之間的距離相對(duì)比較近[3], 這就讓基于詞向量設(shè)計(jì)的一些模型能夠自帶平滑功能, 為應(yīng)用于深層網(wǎng)絡(luò)帶來(lái)便利[4]。一些將詞向量與長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)相結(jié)合的研究都獲得明顯的性能改善[5-6]。Kim[7]設(shè)計(jì)的文本卷積神經(jīng)網(wǎng)絡(luò), 雖然只有一層卷積層, 但其分類(lèi)性能顯著優(yōu)于普通的機(jī)器學(xué)習(xí)分類(lèi)算法, 例如最大熵、樸素貝葉斯分類(lèi)和支持向量機(jī)等。Tang 等[8]基于深度學(xué)習(xí),設(shè)計(jì) Twitter 情感分析系統(tǒng) Cooolll, 將詞向量與反映 Twitter 文法特點(diǎn)的特征(例如是否大寫(xiě)、情感圖標(biāo)、否定詞、標(biāo)點(diǎn)符號(hào)簇集等)進(jìn)行拼接, 以求輸入更多有效的特征, 在 SemEval 2104 國(guó)際語(yǔ)義評(píng)測(cè)競(jìng)賽中獲得第 2 名。深度學(xué)習(xí)方法需要大量的訓(xùn)練樣本, 增加訓(xùn)練樣本是非常有效的提高分類(lèi)準(zhǔn)確率的方法, 但是成本很高, 甚至在很多情況下難以實(shí)施, 制約了基于深度學(xué)習(xí)的文本分類(lèi)方法的性能。
Few-shot 學(xué)習(xí)[9-10]是近年興起的一種新型元學(xué)習(xí)技術(shù), 使用較少樣本訓(xùn)練深層網(wǎng)絡(luò)模型, 主要應(yīng)用于圖像識(shí)別領(lǐng)域, 目前只有非常少的研究將其用于文本分析。這種方法首先以zero-shot (零次)學(xué)習(xí)和 one-shot (一次)學(xué)習(xí)出現(xiàn), 逐步發(fā)展成 few-shot學(xué)習(xí)。此類(lèi)方法的基本思想是, 將圖片特征和圖片注釋的語(yǔ)義特征非線性映射到一個(gè)嵌入空間, 學(xué)習(xí)其距離度量。當(dāng)輸入未知樣本或未出現(xiàn)在訓(xùn)練集中的新類(lèi)別樣本時(shí), 計(jì)算樣本與其他已知類(lèi)別的距離,判斷其可能的類(lèi)別標(biāo)簽。雖然有標(biāo)簽的訓(xùn)練樣本較少, 但此類(lèi)方法仍然在圖像識(shí)別領(lǐng)域(特別是在圖片類(lèi)別達(dá)到數(shù)百到 1000 的分類(lèi)任務(wù)中)獲得成功。Zhang 等[11]研發(fā)了一種基于最大間隔的方法, 用于學(xué)習(xí)語(yǔ)義相似嵌入, 并結(jié)合語(yǔ)義相似, 用已知類(lèi)別的樣本度量未知類(lèi)別樣本間的相似性。Guo 等[12]設(shè)計(jì)了一種新穎的 zero-shot 方法, 引入可遷移的具有多樣性的樣本, 并打上偽標(biāo)簽, 結(jié)合這些遷移樣本訓(xùn)練 SVM, 實(shí)現(xiàn)對(duì)未知類(lèi)別樣本的識(shí)別。Oriol 等[13]基于 metric learning 技術(shù)和深層網(wǎng)絡(luò)的注意力機(jī)制,提出一種 matching 網(wǎng)絡(luò)機(jī)制, 通過(guò)支持集學(xué)習(xí)訓(xùn)練CNN 網(wǎng)絡(luò)。Rezende 等[14]將貝葉斯推理與深層網(wǎng)絡(luò)的特征表示組合起來(lái), 進(jìn)行 one-shot 學(xué)習(xí)。Koch 等[15]訓(xùn)練了兩個(gè)一模一樣的孿生網(wǎng)絡(luò)進(jìn)行圖像識(shí)別, 獲得良好的效果。一些學(xué)者基于“原型” (prototype)概念設(shè)計(jì) few-shot 學(xué)習(xí)方法, 但是對(duì)原型的定義不一致。Snell 等[16]提出原型網(wǎng)絡(luò)概念, 將滿足k近鄰的數(shù)據(jù)對(duì)象非線性映射到一個(gè)嵌入空間, 該空間中的原型是同類(lèi)標(biāo)簽樣本映射的平均值向量, 通過(guò)計(jì)算未知樣本與原型的距離來(lái)判別類(lèi)標(biāo)簽。Blaes等[9]定義的全局原型是一種元分類(lèi)器, 希望利用全局特征對(duì)圖像進(jìn)行分類(lèi)。Hecht 等[17]的研究顯示, 基于原型的深度學(xué)習(xí)方法在訓(xùn)練事件和內(nèi)存開(kāi)銷(xiāo)方面都比普通深度學(xué)習(xí)方法有優(yōu)勢(shì)。
2 文本句式元學(xué)習(xí)
受 meta-learning 和圖像 few-shot 學(xué)習(xí)的啟發(fā),本文提出一種文本句式元學(xué)習(xí)方法?;舅枷霝?將多種典型的語(yǔ)句變化視為新的類(lèi)別和“句式”, 即將原本只有幾種類(lèi)別標(biāo)簽的文本樣本集合, 改造為多種新的類(lèi)別——“句式”style。劃分出更多的類(lèi)別后, 強(qiáng)迫深層模型學(xué)習(xí)細(xì)粒度的語(yǔ)法和語(yǔ)義特征。本文方法包含 4 個(gè)基礎(chǔ)部分:句式提取、訓(xùn)練片段episode 構(gòu)造、句式深層編碼以及分類(lèi)模型 Finetunning。方法框架如圖1所示。
2.1 提取句式
首先, 將較少類(lèi)別的文本分類(lèi)問(wèn)題轉(zhuǎn)化為較多類(lèi)別的 few-shot 學(xué)習(xí)問(wèn)題。本文根據(jù)距離相似度,用k均值聚類(lèi)方法, 將訓(xùn)練樣本劃分為若干簇集,將每個(gè)簇集視為一種文本類(lèi)型, 并進(jìn)一步劃分為句式。
定義1?句式:設(shè)類(lèi)標(biāo)簽有K種,L={1,2,...,K},聚類(lèi)獲得的文本類(lèi)型(句型)有M種,M?K,不同類(lèi)型和不同類(lèi)標(biāo)簽組合為一種新的類(lèi)別, 稱為“句式”(style)。樣本集合由原來(lái)的K種樣本, 重新劃分為N=M×K種句式, 表示為 {sik|1 ≤i≤M,1≤k≤K},新的類(lèi)別標(biāo)簽為L(zhǎng)′={(i,k)|0 <i≤N,k∈L},k為樣本原始類(lèi)標(biāo)簽, 如圖 2 所示。訓(xùn)練集中對(duì)應(yīng)新標(biāo)簽的樣本稱為該句式的支持樣本。
圖1 句式元學(xué)習(xí)框架
Fig.1 Sentence styles meta-learning framework
圖2 句式標(biāo)簽劃分示意圖
Fig.2 Example for sentence style labeling
定義2?元句式:每種句式的支持樣本集合的中心樣本(即代表樣本)稱為元句式。元句式可以用樣本向量的平均值表示。
新的句式數(shù)量大于原來(lái)的類(lèi)別, 相應(yīng)地, 支持每種句式的有標(biāo)簽樣本減少了, 甚至可能有的句式只有一個(gè)樣本。對(duì)這類(lèi)特殊的句式, 可以根據(jù)聚類(lèi)發(fā)現(xiàn)的離群點(diǎn)進(jìn)行添加或刪除。我們需要為每種句式構(gòu)造訓(xùn)練集, 相同句式標(biāo)簽的樣本稱為該句式的“候選支持集”。將這些樣本輸入深層網(wǎng)絡(luò), 再進(jìn)行有監(jiān)督模型訓(xùn)練。需要注意的是, 劃分為多種句式后, 導(dǎo)致每種不同句式的支持樣本數(shù)大大減少。將原分類(lèi)任務(wù)直接轉(zhuǎn)變?yōu)橹С謽颖据^少的多分類(lèi)問(wèn)題, 不利于提高分類(lèi)性能。鑒于此, 本文方法借鑒圖像多分類(lèi)問(wèn)題的 few-shot 學(xué)習(xí)思想, 劃分多種句式的目的不是直接進(jìn)行多分類(lèi)學(xué)習(xí), 而是用于發(fā)現(xiàn)多個(gè)具有代表意義的句型原型“prototype”, 通過(guò)比較未知類(lèi)別樣本與句型 prototype 的距離, 提高分類(lèi)準(zhǔn)確率。
鑒于缺少有標(biāo)簽的句型樣本, 本文采用一種簡(jiǎn)單直接的策略, 根據(jù)語(yǔ)句相似距離, 用k均值聚類(lèi)方法提取句式。用距離相似發(fā)現(xiàn)句式是基于詞向量模型將語(yǔ)句轉(zhuǎn)化為向量。詞向量的優(yōu)點(diǎn)是可在一定程度上表達(dá)語(yǔ)義或語(yǔ)法作用相似, 向量疊加時(shí)仍然可以保持原有相似性。因此, 聚類(lèi)方法不能明確發(fā)現(xiàn)否定句、感嘆句、隱喻和反諷等實(shí)際句型, 但是可以從向量相似的角度, 將語(yǔ)義和結(jié)構(gòu)上相似的樣本聚為一類(lèi)。我們采用 Doc2Vec 模型, 將語(yǔ)句轉(zhuǎn)化為向量, 將不同長(zhǎng)度的語(yǔ)句都轉(zhuǎn)化為相同長(zhǎng)度的向量。實(shí)現(xiàn)過(guò)程如下。
1)分詞, 訓(xùn)練一個(gè) Doc2Vec 模型, 將每個(gè)樣本轉(zhuǎn)化為一個(gè)向量, 長(zhǎng)度為300。
2)設(shè)定k, 調(diào)用k均值算法, 對(duì)文本向量進(jìn)行聚類(lèi)。
3)為每個(gè)樣本分配新的類(lèi)別編號(hào)=聚類(lèi)編號(hào)×10+原類(lèi)別編號(hào); 每種新類(lèi)別為一種“句式”。
4)輸出聚類(lèi)結(jié)果。
2.2 訓(xùn)練片段(episode)的構(gòu)造
在 few-shot 學(xué)習(xí)中, 模型訓(xùn)練過(guò)程由多個(gè)episode 構(gòu)成。k-shot 學(xué)習(xí)包含K個(gè)片段。通常, 對(duì)于N類(lèi)“句式”, 每種句式的樣本都平均劃分為K份,每個(gè) episode 應(yīng)該包含 1 份樣本作為訓(xùn)練集, 以及 1份樣本作為測(cè)試集。為了測(cè)試模型對(duì)新類(lèi)別的識(shí)別能力, 選擇訓(xùn)練集中未出現(xiàn)的“句式”作為測(cè)試集樣本。
2.3 元句式深層編碼
元句式深層編碼即學(xué)習(xí)句式原型?;舅枷胧? 將N種文本句式的樣本向量, 經(jīng)深層網(wǎng)絡(luò)(例如CNN)映射到一個(gè)嵌入空間RD,在DR內(nèi)通過(guò)分類(lèi)算法, 不斷調(diào)整網(wǎng)絡(luò)權(quán)值, 使得該深層網(wǎng)絡(luò)根據(jù)類(lèi)別標(biāo)簽和距離, 學(xué)習(xí)可區(qū)分的不同句式的非線性編碼。句式原型經(jīng)深層編碼, 被映射到一個(gè)非線性空間, 如圖 3 所示, 每個(gè)區(qū)域?qū)?yīng)于一種句式原型,灰色圓點(diǎn)表示該句式的支持樣本, 黑色圓點(diǎn)為該句式的代表點(diǎn), 即元句式。圖 3 中空心圓圈表示一個(gè)未知標(biāo)簽的新樣本經(jīng)編碼進(jìn)入嵌入空間, 可以通過(guò)計(jì)算到各個(gè)原型代表點(diǎn)的距離來(lái)判斷類(lèi)標(biāo)簽。
用于編碼的深層模型, 采用 CNN 網(wǎng)絡(luò)構(gòu)造?;静呗詾? 首先用聚類(lèi)后的、多樣化句式的數(shù)據(jù)有監(jiān)督地訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)多種句式, 然后使用原始數(shù)據(jù)優(yōu)化模型的分類(lèi)性能, 在已有 CNN 權(quán)重的基礎(chǔ)上,訓(xùn)練一個(gè)新的 softmax 分類(lèi)層, 對(duì)原始數(shù)據(jù)進(jìn)行分類(lèi)。
基于 softmax 函數(shù), 分類(lèi)目標(biāo)函數(shù)可以定義為,對(duì)于未知樣本x*,其屬于任意類(lèi)的概率:
根據(jù)極大似然假設(shè), 基于交叉熵的損失函數(shù)為
圖3 句式原型與映射空間
Fig.3 Style prototypes and embedding space
綜上所述, 本文所提方法屬于一種 few-shot 學(xué)習(xí)策略, 可將此類(lèi)方法視為一種元特征學(xué)習(xí)方法,側(cè)重特征向量的學(xué)習(xí), 發(fā)現(xiàn)樣本的原型 prototype,其優(yōu)化函數(shù)通常不以距離為直接目標(biāo), 這與 metriclearning 方法有一定的區(qū)別。在實(shí)現(xiàn)上也與 metriclearning 有所不同, few-shot 學(xué)習(xí)需要基于深層網(wǎng)絡(luò)搭建模型。但是從最新的研究成果[9-10]來(lái)看, 由于few-shot 學(xué)習(xí)通常利用k近鄰思想進(jìn)行最后的分類(lèi),因此 metric-learning 方法對(duì)于 few-shot 有很強(qiáng)的借鑒意義, 二者的融合應(yīng)該是一種必然的趨勢(shì)。本文所提“元句式”的概念, 更類(lèi)似于一種句子“prototype”, 基本思想是發(fā)現(xiàn)并深層編碼這些基本prototype, 計(jì)算樣本與 prototype 樣本的距離, 通過(guò)加權(quán)來(lái)判斷樣本類(lèi)別。
3 實(shí)驗(yàn)
使用 3 個(gè)公開(kāi)的 Twitter 數(shù)據(jù), 驗(yàn)證本文的方法,并對(duì)結(jié)果進(jìn)行分析。實(shí)驗(yàn)服務(wù)器配置為 12 核至強(qiáng)CPU, 256 GB 內(nèi)存, 8顆NVIDIA Tesla K20C GPU,操作系統(tǒng)為 Ubuntu 14.0。代碼基于 Tensor-flow 和Keras, 使用Python2.7實(shí)現(xiàn)。
本文模型的基本結(jié)構(gòu)包括2層1維卷積層、過(guò)濾器 128 個(gè), 過(guò)濾器尺寸為 5, 后接 Max-pooling 層和 Dropout 層, 再接一層全連接的神經(jīng)網(wǎng)絡(luò), 激活函數(shù)選擇 Relu, 最后是一個(gè) softmax 分類(lèi)層。參數(shù)優(yōu)化使用 Adam, 交叉熵作為損失函數(shù), batch size 取50。文本聚類(lèi)時(shí), 利用 gensim 中的 Doc2Vec 工具實(shí)現(xiàn)語(yǔ)句向量化。訓(xùn)練分類(lèi)模型時(shí), 首先使用聚類(lèi)后的、增加了句式標(biāo)簽的數(shù)據(jù)進(jìn)行模型的預(yù)訓(xùn)練, 再使用原始的數(shù)據(jù)集, 用一個(gè)新的 softmax 分類(lèi)層進(jìn)行fine-tunning。
3.1 數(shù)據(jù)集
1)MultiGames。該數(shù)據(jù)集為游戲主題的 Twitter數(shù)據(jù), 共 12780 條, 由人工進(jìn)行情感類(lèi)型標(biāo)注, 包括正向 3952 條、負(fù)向 915 條和中性 7913 條游戲玩家評(píng)論。該數(shù)據(jù)集由加拿大 UNB 大學(xué) Yan 等[18]發(fā)布。該數(shù)據(jù)集中的評(píng)論多俚語(yǔ)、網(wǎng)絡(luò)用語(yǔ)以及部分反話。
2)Semeval_b。該數(shù)據(jù)源自國(guó)際語(yǔ)義評(píng)測(cè)大會(huì)SemEval-2013 發(fā)布的比賽數(shù)據(jù)[19], 后經(jīng)不斷更新,所有數(shù)據(jù)由人工標(biāo)注為正向、負(fù)向和中性 3 種情感類(lèi)別。由于部分 tweets 的鏈接失效, 我們共下載7967條數(shù)據(jù)。
3)SS-Tweet。Sentiment Strength Twitter (SSTweet)數(shù)據(jù)集共包含 4242 條人工標(biāo)注的 tweets 評(píng)論。該數(shù)據(jù)最早由 Thelwall 等[20]發(fā)布, 用于評(píng)估基于SentiStrenth的情感分析方法。Saif 等[21]對(duì)該數(shù)據(jù)重新注釋為正向、負(fù)向和中性 3 種情感類(lèi)別。本文實(shí)驗(yàn)所用數(shù)據(jù)包括 1252 條正向、1037 條負(fù)向和1953條中性評(píng)論。
所有數(shù)據(jù)集均隨機(jī)劃分為 3 個(gè)部分, 驗(yàn)證集和測(cè)試集各占 15%, 其余作為訓(xùn)練集。
3.2 實(shí)驗(yàn)結(jié)果與分析
本文以代價(jià)敏感的線性支持向量機(jī)為基準(zhǔn)方法, 特征提取選擇過(guò)濾停止詞、詞性標(biāo)注(POS)、情感符號(hào) Emoticon 和 Unigram。本文方法命名為Meta-CNN。用于對(duì)比的深度學(xué)習(xí)方法包括基于自動(dòng)編碼器的 DSC[18]、文本 Kim-CNN[7]和一個(gè)兩層一維卷積層構(gòu)造的 CNN 模型 2CNN1D。DSC 方法仍然提取 POS 和 Emoticon特征, 并過(guò)濾停止詞, 然后輸入自動(dòng)編碼器進(jìn)行重編碼。Kim-CNN 雖然僅包含一層卷積操作, 但在文本分類(lèi)中常能獲得較好的準(zhǔn)確率。2CNN1D 的網(wǎng)絡(luò)結(jié)構(gòu)與本文用于預(yù)訓(xùn)練的 CNN 結(jié)構(gòu)相同, 與本文 Meta-CNN 方法進(jìn)行比較, 用于驗(yàn)證 Meta-CNN 是否能夠在雙層 CNN 網(wǎng)絡(luò)基礎(chǔ)上改善分類(lèi)性能?;?CNN 的方法均不做停止詞過(guò)濾等預(yù)處理, 分詞后, 直接使用 Google 的預(yù)訓(xùn)練 word2vec 包 GoogleNews-vectors-negative300-SLIM, 轉(zhuǎn)換為詞向量構(gòu)成的語(yǔ)句矩陣, 詞向量長(zhǎng)度為300。對(duì)所有語(yǔ)句樣本, 利用 Padding 操作將長(zhǎng)度統(tǒng)一轉(zhuǎn)化為 150 個(gè)詞, 不足 150 個(gè)詞時(shí)補(bǔ) 0。各方法獲得的最佳準(zhǔn)確率如表1所示。
由于數(shù)據(jù)分布不均衡, 不同類(lèi)別樣本數(shù)量有較大差距, 特別是負(fù)向標(biāo)簽樣本, 通常比中性標(biāo)簽樣本少很多。數(shù)據(jù)分布的不均衡性對(duì)分類(lèi)器的準(zhǔn)確率有較大的負(fù)面影響。為了更加客觀地進(jìn)行評(píng)價(jià), 參照 SemEval 對(duì)多分類(lèi)問(wèn)題上的評(píng)價(jià)標(biāo)準(zhǔn), 我們使用正向(Positive)、負(fù)向(Negative)樣本的平均 F1 值作為多分類(lèi)任務(wù)的評(píng)價(jià)方法。指標(biāo)計(jì)算方法如下:
各方法的值如表 2 所示。可以看出, 基于深度學(xué)習(xí)方法的準(zhǔn)確率優(yōu)于線性 SVM。本文提出的 Meta-CNN 方法在 3 個(gè)數(shù)據(jù)集上均取得最高的準(zhǔn)確率。與 2CNN1D 分類(lèi)模型相比, 本文 Meta-CNN方法的準(zhǔn)確率大大提高, 說(shuō)明本文方法在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行調(diào)優(yōu), 對(duì)改善分類(lèi)性能是有效的。
樣本數(shù)量對(duì)模型的性能影響明顯。SS-Tweet數(shù)據(jù)的樣本較少, 從 DSC, Kim-CNN 和 2CNN1D的分類(lèi)準(zhǔn)確率來(lái)看, 并未顯著優(yōu)于線性 SVM。但是,本文方法仍然獲得較好的分類(lèi)性能。
句式種類(lèi)k的取值對(duì)本文方法的準(zhǔn)確率有較明顯的影響, 如圖 4 所示。對(duì)于數(shù)據(jù)集 MultiGames, 當(dāng)句式的聚類(lèi)數(shù)k=10 時(shí), 可以獲得 91.6%的準(zhǔn)確率。Semeval_b 和 SS-Tweet 數(shù)據(jù)在k=5 時(shí)獲得較優(yōu)的準(zhǔn)確率。隨著k值增大, 準(zhǔn)確率有所波動(dòng), 總趨勢(shì)下降。這是因?yàn)? 隨著k值增大, 分類(lèi)的類(lèi)別急劇增大, 預(yù)訓(xùn)練模型的分類(lèi)準(zhǔn)確率下降, 從而影響 finetunning時(shí)的模型性能。
表1 準(zhǔn)確率對(duì)比
Table 1 Accuracy comparision
表2 正負(fù)向樣本平均F1對(duì)比
Table 2?
comparision
圖4 句式數(shù)量k對(duì)分類(lèi)性能的影響
Fig.4 Relationship between style numberkand accuracy
從實(shí)驗(yàn)結(jié)果來(lái)看, 在句式劃分基礎(chǔ)上實(shí)現(xiàn)的句式原型學(xué)習(xí), 在一定程度上改善了分類(lèi)性能, 說(shuō)明合理的句式劃分有助于提取句子結(jié)構(gòu)特征, 這些特征的引入改善了文本分類(lèi)性能。但是, 一定程度的句式數(shù)量增加導(dǎo)致類(lèi)別數(shù)量的增加, 顯然對(duì)分類(lèi)性能有負(fù)面影響。本文基于聚類(lèi)的句式劃分方法不能對(duì)句式進(jìn)行精確的劃分, 因此句式數(shù)量越多, 句型特征提取的誤差積累越大。合理的句式數(shù)量需要通過(guò)實(shí)驗(yàn)確定。增加訓(xùn)練樣本數(shù)量是實(shí)踐中一種有效提高分類(lèi)性能的策略。但是, 對(duì)于文本分類(lèi)任務(wù)來(lái)說(shuō), 多少樣本數(shù)量才是足夠的?對(duì)這一問(wèn)題, 目前在理論上沒(méi)有明確的結(jié)論。從實(shí)踐和國(guó)際上一些 Twitter 分類(lèi)競(jìng)賽結(jié)果來(lái)看, 數(shù)萬(wàn)條訓(xùn)練樣本還不足以保證獲得滿意的分類(lèi)性能, 對(duì)于可視為多類(lèi)別分類(lèi)的Twitter 情感程度劃分任務(wù), 準(zhǔn)確率往往只能達(dá)到65%左右。如果成本在可承受的范圍內(nèi), 不能通過(guò)數(shù)百萬(wàn)條訓(xùn)練樣本來(lái)訓(xùn)練分類(lèi)樣本, 那么設(shè)計(jì)少樣本學(xué)習(xí)策略來(lái)提升分類(lèi)器性能, 就成為值得研究的方向。本文就是針對(duì)少樣本的文本分類(lèi)研究的一種嘗試。
4 結(jié)語(yǔ)
本文基于元學(xué)習(xí)和 few-shot 學(xué)習(xí)策略, 提出一種文本元學(xué)習(xí)框架, 通過(guò)學(xué)習(xí)不同的句式特征, 提取更為細(xì)粒度的文本語(yǔ)句特征, 以期改善文本分類(lèi)性能。多個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果證實(shí)了本文所提方法的有效性, 對(duì)于有標(biāo)記樣本較少情況下的多類(lèi)別文本分類(lèi)問(wèn)題, 使用元學(xué)習(xí)策略, 可以改善多類(lèi)別文本分類(lèi)的性能。同時(shí), 本文對(duì)“句式”的定義仍舊比較粗糙, 實(shí)驗(yàn)結(jié)果顯示過(guò)多的句式數(shù)量, 不利于提高分類(lèi)性能。后續(xù)研究方向包括:改造其他 metalearning 方法, 使之適用于文本分類(lèi)任務(wù); 在與本文方法多角度的比較中, 改進(jìn)本文所提方法; 提出更加精細(xì)的句式劃分策略, 以便準(zhǔn)確地提取更多的有益語(yǔ)句特征。
關(guān)注微信公眾號(hào):人工智能技術(shù)與咨詢。了解更多咨詢!
編輯:fqj
評(píng)論
查看更多