0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

建立計(jì)算模型來(lái)預(yù)測(cè)一個(gè)給定博文的抱怨強(qiáng)度

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:南大NLP ? 作者:方銘 ? 2022-11-08 09:54 ? 次閱讀

01

研究動(dòng)機(jī)

抱怨是一種表達(dá)現(xiàn)實(shí)和人類期望之間不一致的言語(yǔ)行為[1]。人們會(huì)根據(jù)情況的嚴(yán)重性和緊迫性,用抱怨來(lái)表達(dá)他們的擔(dān)憂或不滿。輕微的抱怨可以達(dá)到發(fā)泄情緒以促進(jìn)心理健康的目的,但嚴(yán)重的抱怨可能會(huì)導(dǎo)致仇恨甚至欺凌行為[2]。之前的研究主要集中在識(shí)別抱怨是否存在或其類型上,但是分析抱怨強(qiáng)度尤其重要,因?yàn)橐欢ǔ潭鹊谋г箍赡軙?huì)對(duì)公司或組織造成嚴(yán)重的負(fù)面后果。

4b63f274-5e9c-11ed-8abf-dac502259ad0.png

圖1 Jin數(shù)據(jù)集中同類別抱怨博文

在計(jì)算語(yǔ)言學(xué)中,先前的研究主要集中在建立自動(dòng)分類模型來(lái)識(shí)別抱怨是否存在。Jin提供了一個(gè)數(shù)據(jù)集,基于語(yǔ)用學(xué)注釋了不同嚴(yán)重程度的抱怨博文,分別為“沒(méi)有明確的指責(zé)”、“反對(duì)”、“指責(zé)”、“指控”和“責(zé)備”[3]。在這些研究中,我們注意到一個(gè)缺失的部分是測(cè)量抱怨的強(qiáng)度。

為了說(shuō)明這一點(diǎn),我們展示了Jin最新數(shù)據(jù)集中的四個(gè)例子,如圖1所示:“我能向你抱怨我剛剛收到的咖啡嗎?”和“維珍媒體如往常一樣充滿謊言謊言謊言?。?!”,這兩句話被分為同一類型“指控”,但顯然它們?cè)诒г沟某潭壬鲜遣煌摹A硪粋€(gè)例子是,“完全不酷”和“請(qǐng)盡快回復(fù)我的消息?。?!”,這兩句都被歸類為“反對(duì)”,然而,后者明顯提出了更強(qiáng)烈的抱怨。

分析不同的抱怨水平是有利的。公司需要定期監(jiān)控來(lái)自用戶的反饋,因?yàn)槟承┍г箍赡軙?huì)嚴(yán)重影響其產(chǎn)品的聲譽(yù)。組織或政府需要監(jiān)控民眾的抱怨,以了解他們的迫切需求。

02

貢獻(xiàn)

1、我們提出一個(gè)新穎的工作:即自動(dòng)捕捉文本中抱怨強(qiáng)度

2、我們展示了第一個(gè)中文抱怨強(qiáng)度數(shù)據(jù)集,包含來(lái)自微博平臺(tái)的3103條數(shù)據(jù)。

3、通過(guò)一系列分析實(shí)驗(yàn)進(jìn)一步證明研究抱怨強(qiáng)度的必要性和重要性,以及一些有趣的實(shí)證發(fā)現(xiàn)。

4、我們展示了我們的數(shù)據(jù)集如何幫助預(yù)測(cè)社交媒體上博文的流行度。

03

數(shù)據(jù)標(biāo)注

在這項(xiàng)工作中,我們使用Louviere and Woodworth(1991)提出的最佳最差比例法(Best-Worst Scaling, BWS)[4]注釋了抱怨強(qiáng)度。這種方法通過(guò)相互比較,可以比直接評(píng)分產(chǎn)生更穩(wěn)定和細(xì)粒度的分?jǐn)?shù)。類似的方法也被廣泛應(yīng)用于計(jì)算語(yǔ)言學(xué)的各種任務(wù)中,例如測(cè)量攻擊性,親密度等等。我們通過(guò)簡(jiǎn)單的計(jì)數(shù)百分比統(tǒng)計(jì)最終為每個(gè)博文分配抱怨強(qiáng)度評(píng)分,范圍從-1(最不抱怨)到1(最抱怨)。部分標(biāo)注結(jié)果如圖2所示:

4b71a2a2-5e9c-11ed-8abf-dac502259ad0.png

圖2部分?jǐn)?shù)據(jù)標(biāo)注結(jié)果

04

主實(shí)驗(yàn)

我們建立計(jì)算模型來(lái)預(yù)測(cè)一個(gè)給定博文的抱怨強(qiáng)度,使用SVR,Bidirectional LSTM,和BERT, RoBERTa等預(yù)訓(xùn)練模型。我們?cè)趦煞N情況下評(píng)估模型的性能:(1)混合話題(Mix Hashtag),我們將來(lái)自不同話題的微博博文組合在一起;(2)交叉話題(Cross Hashtag),其中訓(xùn)練、開(kāi)發(fā)和測(cè)試集的博文與不同的話題分開(kāi)。我們使用皮爾遜相關(guān)性和MSE(均方誤差)作為我們所有實(shí)驗(yàn)的度量標(biāo)準(zhǔn)。實(shí)驗(yàn)結(jié)果如圖3所示:

4ba3f112-5e9c-11ed-8abf-dac502259ad0.png

圖3用于評(píng)估預(yù)測(cè)抱怨強(qiáng)度的Pearson系數(shù)的r和均方誤差(MSE)

05

分析實(shí)驗(yàn)

抱怨和情緒之間的差異

我們注意到更強(qiáng)烈的抱怨似乎與消極詞匯有關(guān)。先前的研究也指出,抱怨可以被視為一個(gè)有影響的情感維度[2].我們展示在標(biāo)準(zhǔn)情緒數(shù)據(jù)集上訓(xùn)練的模型在我們的抱怨強(qiáng)度預(yù)測(cè)任務(wù)中表現(xiàn)情況,如圖4所示,使用來(lái)自情緒模型的概率分?jǐn)?shù)在我們的抱怨強(qiáng)度預(yù)測(cè)任務(wù)中表現(xiàn)出不錯(cuò)的表現(xiàn),這表明了抱怨和情緒之間的明確聯(lián)系。同時(shí)在我們的標(biāo)注語(yǔ)料庫(kù)上訓(xùn)練的模型優(yōu)于情緒模型,這證明了我們的工作的必要性。

4bca3084-5e9c-11ed-8abf-dac502259ad0.png

圖4抱怨強(qiáng)度預(yù)測(cè)任務(wù)中情緒模型和抱怨模型的表現(xiàn)

抱怨可以加強(qiáng)情感分析任務(wù)

我們將抱怨分?jǐn)?shù)作為一個(gè)附加的特性輸入被添加到模型中。從圖5中,我們觀察到具有抱怨特征的模型比原始模型表現(xiàn)得更好。表明一個(gè)簡(jiǎn)單的附加組件可以提高非神經(jīng)模型和傳統(tǒng)神經(jīng)模型的情緒分類預(yù)測(cè)精度,分析抱怨可以有助于二元情感分析任務(wù)。

4be9dd80-5e9c-11ed-8abf-dac502259ad0.png

圖5二元情緒預(yù)測(cè)的結(jié)果(顯著性測(cè)試p-vlaue < 0.01, t-test)

06

跨語(yǔ)言分析

我們最新收集的抱怨強(qiáng)度數(shù)據(jù)集是中文的,而當(dāng)前現(xiàn)有的數(shù)據(jù)集包含英文推文。這為我們提供了一個(gè)機(jī)會(huì)來(lái)了解在社交媒體上使用中文和英語(yǔ)的人在抱怨上的語(yǔ)言差異。

(1)直接和間接抱怨:中文博文中80%為間接抱怨;相反,英文推文91%的都是直接抱怨。

(2)策略:圖6顯示了不同語(yǔ)言的策略有所不同。我們發(fā)現(xiàn),中文使用者更傾向于不補(bǔ)償策略,而英文使用者最常用的策略是補(bǔ)償策略。

4bf739bc-5e9c-11ed-8abf-dac502259ad0.png

圖6跨語(yǔ)言分析中不同策略所占百分比。

(3)諷刺:10%的中文數(shù)據(jù)包含諷刺,26%的英文數(shù)據(jù)包含諷刺。圖7展示了詞性分析,中文諷刺表達(dá)中名詞比例最高,其次是動(dòng)詞;而在英文諷刺表達(dá)中,動(dòng)詞最多,其次是名詞。此外,英語(yǔ)中的形容詞和副詞比中文的要多。

4c13166e-5e9c-11ed-8abf-dac502259ad0.png

圖7跨語(yǔ)言分析的POS標(biāo)簽的百分比

07

預(yù)測(cè)博文流行度

我們?cè)O(shè)想將抱怨強(qiáng)度分?jǐn)?shù)納入現(xiàn)有的社交媒體監(jiān)控系統(tǒng)中,以提高它們的預(yù)測(cè)準(zhǔn)確性,證明了來(lái)自我們的計(jì)算模型的抱怨強(qiáng)度得分可以幫助估計(jì)社交媒體上的帖子流行度。

我們遵循Szabo的流行度計(jì)算方法[5],使用早期流行度進(jìn)行預(yù)測(cè)的基線,為了顯示我們的抱怨分?jǐn)?shù)的有效性,我們添加了抱怨強(qiáng)度作為一個(gè)新的術(shù)語(yǔ)來(lái)估計(jì)最終的對(duì)數(shù)流行度,公式如下所示:

4c3c4ef8-5e9c-11ed-8abf-dac502259ad0.png

圖8顯示,我們結(jié)合了抱怨密度的方法優(yōu)于基線方法。

4c5bd6b0-5e9c-11ed-8abf-dac502259ad0.png

圖8 RMSE和MAE的流行度預(yù)測(cè)

我們還展示了隨時(shí)間變化的單一話題下的流行度預(yù)測(cè),如圖9所示。我們觀察到,增加了抱怨分?jǐn)?shù)有助于更好地估計(jì)發(fā)布后的流行度,特別是在早期階段。這可能是因?yàn)楸г箍赡軙?huì)吸引用戶的注意力,以便參與討論,從而提高活動(dòng)的流行度。

4c6e7ef0-5e9c-11ed-8abf-dac502259ad0.png

圖9比較實(shí)際的博文流行度和對(duì)單一話題的流行度預(yù)測(cè)

08

總結(jié)

我們提出了第一個(gè)測(cè)量文本抱怨強(qiáng)度的研究。我們構(gòu)建了一個(gè)包含3103篇關(guān)于抱怨的中國(guó)微博文章的語(yǔ)料庫(kù),并使用BWS方法標(biāo)注了抱怨強(qiáng)度評(píng)分。然后,我們證明了我們的語(yǔ)料庫(kù)支持自動(dòng)計(jì)算模型的發(fā)展,以準(zhǔn)確的抱怨強(qiáng)度預(yù)測(cè)。此外,我們還研究了抱怨與情緒之間的聯(lián)系,并對(duì)中文和英文之間的抱怨表達(dá)進(jìn)行了跨語(yǔ)言比較。我們最終證明,我們的抱怨強(qiáng)度得分有助于更好地估計(jì)社交媒體上的博文的流行度。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SVR
    SVR
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    10760

原文標(biāo)題:NAACL'22 Findings | 社交媒體上的抱怨強(qiáng)度分析

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    不同頻率源如何給定頻率

    不同頻率源的頻率給定方式多種多樣,主要取決于變頻器的型號(hào)、功能和應(yīng)用場(chǎng)景。以下是些常見(jiàn)的頻率給定方式及其具體操作方法: 、面板給定 方式
    的頭像 發(fā)表于 09-25 17:26 ?444次閱讀

    介紹FIR濾波模型建立,分4個(gè)步驟

    本帖介紹FIR濾波模型建立,分以下幾個(gè)步驟: 選定濾波結(jié)構(gòu):低通、高通、帶通、帶阻; 選定合適的窗函數(shù),常見(jiàn)的有hamming、hanning、blackman、ExactBlackman
    發(fā)表于 09-04 09:08

    BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的建模步驟

    BP(Backpropagation)神經(jīng)網(wǎng)絡(luò)是種多層前饋神經(jīng)網(wǎng)絡(luò),其核心思想是通過(guò)反向傳播算法來(lái)調(diào)整網(wǎng)絡(luò)中的權(quán)重和偏置,從而實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的預(yù)測(cè)或分類。BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)
    的頭像 發(fā)表于 07-11 16:57 ?1541次閱讀

    matlab預(yù)測(cè)模型怎么用

    MATLAB預(yù)測(cè)模型種基于統(tǒng)計(jì)和數(shù)學(xué)方法的預(yù)測(cè)工具,廣泛應(yīng)用于各種領(lǐng)域,如金融、氣象、生物醫(yī)學(xué)等。本文將介紹MATLAB預(yù)測(cè)
    的頭像 發(fā)表于 07-11 14:33 ?615次閱讀

    MATLAB預(yù)測(cè)模型哪個(gè)好

    在MATLAB中,預(yù)測(cè)模型的選擇取決于數(shù)據(jù)類型、問(wèn)題復(fù)雜度和預(yù)測(cè)目標(biāo)。以下是些常見(jiàn)的預(yù)測(cè)模型
    的頭像 發(fā)表于 07-11 14:31 ?427次閱讀

    如何使用MATLAB創(chuàng)建預(yù)測(cè)模型

    在這篇文章中,我們將討論如何使用MATLAB創(chuàng)建預(yù)測(cè)模型。MATLAB(矩陣實(shí)驗(yàn)室)是種用于數(shù)值計(jì)算、可視化和編程的高級(jí)編程語(yǔ)言和交互式環(huán)境。它廣泛應(yīng)用于工程、科學(xué)研究和金融領(lǐng)域。
    的頭像 發(fā)表于 07-11 14:29 ?682次閱讀

    matlab預(yù)測(cè)模型有哪些

    環(huán)境,使其成為預(yù)測(cè)模型開(kāi)發(fā)和實(shí)現(xiàn)的理想平臺(tái)。本文將詳細(xì)介紹MATLAB中常用的預(yù)測(cè)模型及其應(yīng)用。 線性回歸模型 線性回歸是
    的頭像 發(fā)表于 07-11 14:27 ?769次閱讀

    bp神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型建模步驟

    BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network)是種多層前饋神經(jīng)網(wǎng)絡(luò),其核心思想是通過(guò)反向傳播算法來(lái)調(diào)整網(wǎng)絡(luò)中的權(quán)重和偏置,從而實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的預(yù)測(cè)或分類。本文將詳細(xì)
    的頭像 發(fā)表于 07-11 10:52 ?520次閱讀

    arimagarch模型怎么預(yù)測(cè)

    ARIMA-GARCH模型種時(shí)間序列預(yù)測(cè)方法,它結(jié)合了自回歸積分滑動(dòng)平均(ARIMA)模型和廣義自回歸條件異方差(GARCH)模型。AR
    的頭像 發(fā)表于 07-09 10:22 ?489次閱讀

    神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的構(gòu)建方法

    神經(jīng)網(wǎng)絡(luò)模型作為種強(qiáng)大的預(yù)測(cè)工具,廣泛應(yīng)用于各種領(lǐng)域,如金融、醫(yī)療、交通等。本文將詳細(xì)介紹神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的構(gòu)建方法,包括
    的頭像 發(fā)表于 07-05 17:41 ?666次閱讀

    如何使用PyTorch建立網(wǎng)絡(luò)模型

    PyTorch是個(gè)基于Python的開(kāi)源機(jī)器學(xué)習(xí)庫(kù),因其易用性、靈活性和強(qiáng)大的動(dòng)態(tài)圖特性,在深度學(xué)習(xí)領(lǐng)域得到了廣泛應(yīng)用。本文將從PyTorch的基本概念、網(wǎng)絡(luò)模型構(gòu)建、優(yōu)化方法、實(shí)際應(yīng)用等多個(gè)方面,深入探討使用PyTorch
    的頭像 發(fā)表于 07-02 14:08 ?418次閱讀

    建立神經(jīng)網(wǎng)絡(luò)模型的三個(gè)步驟

    建立神經(jīng)網(wǎng)絡(luò)模型個(gè)復(fù)雜的過(guò)程,涉及到多個(gè)步驟和細(xì)節(jié)。以下是對(duì)建立神經(jīng)網(wǎng)絡(luò)模型的三
    的頭像 發(fā)表于 07-02 11:20 ?939次閱讀

    這個(gè)CRC計(jì)算單元是如何基于固定的生成多項(xiàng)式(0x4C11DB7)來(lái)獲取給定數(shù)據(jù)緩沖區(qū)的CRC碼的?

    這個(gè)CRC計(jì)算單元是如何基于固定的生成多項(xiàng)式(0x4C11DB7)來(lái)獲取給定數(shù)據(jù)緩沖區(qū)的CRC碼的?
    的頭像 發(fā)表于 05-16 16:06 ?859次閱讀

    使用NVIDIA Triton推理服務(wù)器來(lái)加速AI預(yù)測(cè)

    這家云計(jì)算巨頭的計(jì)算機(jī)視覺(jué)和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來(lái)加速 AI 預(yù)測(cè)。
    的頭像 發(fā)表于 02-29 14:04 ?585次閱讀

    異步電機(jī)的磁鏈給定值該怎樣計(jì)算?

    有人說(shuō)用這個(gè)公式U=4.44f*kN*phi,其中U是相電壓額定值,f是額定頻率,kN是定子繞組每相有效匝數(shù),phi就是磁鏈。這里的問(wèn)題是定子繞組每相有效匝數(shù)我不知道呀,是不是有個(gè)大概的范圍呢?向各位請(qǐng)教了。 另外,還有沒(méi)有其他的方法來(lái)計(jì)算磁鏈
    發(fā)表于 01-10 07:38