0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

紹華為云在細(xì)粒度情感分析方面的實(shí)踐

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:DataFunTalk ? 作者:李明磊 ? 2021-03-08 10:40 ? 次閱讀

導(dǎo)讀:隨著移動(dòng)互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)上每天產(chǎn)生大量的文本數(shù)據(jù),蘊(yùn)含著巨大的有價(jià)值信息。情感分析作為自然語(yǔ)言處理中的一個(gè)重要研究方向。在實(shí)踐中有著廣泛的應(yīng)用,如商品評(píng)論分析、政治、金融、旅游等領(lǐng)域中的商品推薦、產(chǎn)品輔助決策、公司政府的輿情監(jiān)測(cè)、服務(wù)評(píng)價(jià)等等。本文主要介紹情感分析的概念、應(yīng)用、任務(wù)和方法,進(jìn)一步會(huì)介紹華為云在細(xì)粒度情感分析方面的實(shí)踐,包括屬性級(jí)情感分析和觀點(diǎn)四元組分析。

主要內(nèi)容包括:

文本情感分析介紹

屬性級(jí)情感分析

觀點(diǎn)四元組分析

總結(jié)

01情感分析介紹

首先介紹下文本情感分析的基本概念。情感分析,主要是識(shí)別媒介中目標(biāo)對(duì)象的情感,這里面可能有兩個(gè)概念比較容易混淆,一個(gè)是sentiment analysis,另一個(gè)是emotion analysis。一般我們說(shuō)的情感分析都是sentiment,主要指的正面和負(fù)面的分析,然后emotion會(huì)更詳細(xì)一些,它不僅包含正負(fù)面,還包含比如說(shuō)生氣、開(kāi)心、高興這些,會(huì)更加細(xì)粒度一些。

我們主要分析sentiment,從分析對(duì)象來(lái)看會(huì)包含文本、圖像、語(yǔ)音,EEG(腦電波)、多模態(tài)分析情感。從任務(wù)方面來(lái)看,不僅是有情感的識(shí)別,還有情感生成的一些任務(wù),像現(xiàn)在有情感對(duì)話的生成,還有虛擬人情感生成。在本報(bào)告中,主要側(cè)重文本方面的情感識(shí)別。

1. 文本情感分析

上面文本情感分析五要素定義是采用劉冰老師的定義,這個(gè)定義分為了實(shí)體 ( entity )、實(shí)體的某一個(gè)方面 ( aspect )、針對(duì)這個(gè)實(shí)體的情感正負(fù)面 ( opinion=sentiment,即情感正負(fù)面也稱作觀點(diǎn)正負(fù)面 )、觀點(diǎn)持有者 ( hold ) 和持有觀點(diǎn)的時(shí)間 ( time ) 這五要素,一般來(lái)說(shuō)hold和time文本很少提及。

另一個(gè)概念一般會(huì)把entity和aspect合并在一起成為一個(gè)target,是針對(duì)我們目標(biāo)對(duì)象的情感或者觀點(diǎn)。例如:“我覺(jué)得華為手機(jī)的拍照非常牛逼”這里面對(duì)應(yīng)的實(shí)體是“華為手機(jī)”,對(duì)應(yīng)的aspect是“拍照”,對(duì)應(yīng)的情感是“非常牛逼”為正面,對(duì)應(yīng)的觀點(diǎn)持有者是“我”,而時(shí)間沒(méi)有提及所以為空。

當(dāng)前的文本情感分析就是根據(jù)輸入文本,然后識(shí)別其中這五要素里的幾個(gè)要素,現(xiàn)在還沒(méi)有相關(guān)工作可以同時(shí)識(shí)別出五個(gè)要素。一般的話現(xiàn)在最簡(jiǎn)單的情感分析是只識(shí)別出這個(gè)文本的觀點(diǎn)/情感,既不包含實(shí)體也不包含aspect并且也不包含觀點(diǎn)持有者,再進(jìn)一步的工作就是識(shí)別出針對(duì)哪一個(gè)aspect(實(shí)體)的觀點(diǎn)(情感)。

這里簡(jiǎn)單介紹一些細(xì)粒度情感分析和我們說(shuō)的一般情感分析的區(qū)別。一般的情感分析都是直接識(shí)別整個(gè)文本的正負(fù)面,然而細(xì)粒度情感分析會(huì)更細(xì)一些,這里面有兩個(gè)概念,一個(gè)是從情感的粒度上會(huì)更細(xì),比如從sentiment到emotion的情感粒度升級(jí),之前我們只分析正負(fù)面,現(xiàn)在除了正負(fù)面還有情緒,如高興、傷心等,從情感這個(gè)維度講這是一種細(xì)粒度情感分析。還有一個(gè)是從分析對(duì)象的角度來(lái)講,之前的情感分析是直接識(shí)別整個(gè)句子或整篇文章的情感,它不區(qū)分情感對(duì)象是誰(shuí),再細(xì)粒度一些的話就需要識(shí)別出整個(gè)句子里面情感針對(duì)的對(duì)象是誰(shuí),它是句子里的某個(gè)實(shí)體或者是某個(gè)實(shí)體的某個(gè)屬性,從這個(gè)角度這也是細(xì)粒度情感分析的一種,我們今天主要側(cè)重第二個(gè)針對(duì)對(duì)象角度的情感分析。

2. 情感分析任務(wù)

下面介紹一下情感分析的各個(gè)任務(wù),這里面分析是情感的識(shí)別,不包含生成,還有前面提到的語(yǔ)音圖片也不涉及。

針對(duì)文本的情感分析會(huì)分成幾個(gè)等級(jí):

詞級(jí)別的情感分析:這個(gè)類似于情感詞典的構(gòu)建,怎么去構(gòu)建一個(gè)大規(guī)模的情感詞典,比如“車禍”這個(gè)詞對(duì)應(yīng)的情感就是負(fù)面的,“生日”這個(gè)詞對(duì)應(yīng)的情感就是正面的。

句子/文檔級(jí)的情感分析:我們現(xiàn)在用比較多的,各大云服務(wù)廠商都會(huì)有的一個(gè)服務(wù),針對(duì)句子或者文檔的情感分析,輸入一句話返回相應(yīng)的情感正負(fù)面,但它不區(qū)分正負(fù)面針對(duì)哪一個(gè)句子里面哪個(gè)實(shí)體或者哪個(gè)對(duì)象。

目標(biāo)級(jí)的情感分析:這是我們今天側(cè)重的目標(biāo)級(jí)的細(xì)粒度情感分析,這里面的目標(biāo)就是上邊說(shuō)的target,它可以是一個(gè)實(shí)體也可以是一個(gè)屬性,還可以是實(shí)體+屬性的組合形式。

對(duì)于目標(biāo)級(jí)的情感分析分為三種:

針對(duì)屬性的情感分析 ( TG-ABSA ):這里面對(duì)象是固定然后只分析里面某幾個(gè)屬性的正負(fù)面,這就會(huì)涉及到兩個(gè)任務(wù),一個(gè)是對(duì)象的屬性識(shí)別,另一個(gè)是該屬性的情感識(shí)別。例如圖中的例子“外觀XXX”,這里的對(duì)象是固定說(shuō)的是手機(jī),我們只需要識(shí)別出其中的屬性外觀、內(nèi)存和性能,然后分別識(shí)別出各個(gè)屬性的情感正負(fù)面。針對(duì)屬性識(shí)別也分成兩個(gè)任務(wù),一是屬性詞的抽取,就是我們要定位出屬性描述詞在文中的位置,另一個(gè)是該屬性描述詞對(duì)應(yīng)的屬性類別,因?yàn)獒槍?duì)某個(gè)屬性的描述可能是“外觀”也可能是“看起來(lái)很好看”,它這個(gè)描述不一定包含顯性的屬性描述詞。針對(duì)情感識(shí)別會(huì)分為觀點(diǎn)詞抽取和觀點(diǎn)分類。

針對(duì)實(shí)體的情感分析 ( TN-ABSA ):這里是文本中只有實(shí)體而沒(méi)有屬性,只針對(duì)實(shí)體的情感進(jìn)行分析,這涉及到的兩個(gè)任務(wù),實(shí)體識(shí)別和情感識(shí)別。實(shí)體識(shí)別分為實(shí)體詞抽取和實(shí)體分類,情感識(shí)別分為觀點(diǎn)詞抽取和觀點(diǎn)分類。

針對(duì)目標(biāo)的情感分析 ( T-ABSA ):這里面的目標(biāo)就是實(shí)體+屬性的組合,例如:“小米性價(jià)比”、“華為拍照”等,這會(huì)比上面兩個(gè)任務(wù)相對(duì)更細(xì)一些。目標(biāo)識(shí)別分為目標(biāo)詞抽取和目標(biāo)分類,情感識(shí)別分為觀點(diǎn)詞抽取和觀點(diǎn)分類。

針對(duì)情感分析,簡(jiǎn)單介紹一些方法簡(jiǎn)史。最早的一個(gè)方法是基于字典加規(guī)則的方式,我們?nèi)斯?gòu)建一個(gè)情感詞典,每個(gè)詞都有對(duì)應(yīng)的正負(fù)面,然后根據(jù)句子中正面詞和負(fù)面詞的數(shù)量,最后做一個(gè)投票,這是一個(gè)最簡(jiǎn)單的方法。后邊就有了基于機(jī)器學(xué)習(xí)的方法,像傳統(tǒng)的機(jī)器學(xué)習(xí)SVM等,將情感詞典和詞袋作為它的一個(gè)特征。再進(jìn)一步就是深度學(xué)習(xí),還有就是現(xiàn)在的基于預(yù)訓(xùn)練語(yǔ)言模型+fine tune的方法,應(yīng)該是現(xiàn)在效果最好的一個(gè)方法。

02屬性級(jí)情感分析

下邊我介紹一下我們其中的一個(gè)工作,屬性級(jí)情感分析(TG-ABSA),這里面實(shí)體是固定的,分析它各個(gè)屬性的正負(fù)面。像上面句子級(jí)情感分析是大部分廠商提供的,比如“買(mǎi)沒(méi)幾天就降價(jià)一點(diǎn)都不開(kāi)心,閃存跑分就五百多點(diǎn)”,這個(gè)整體是負(fù)面,但是它針對(duì)價(jià)格和閃存兩個(gè)屬性都有相應(yīng)情感,這里并沒(méi)有區(qū)分。屬性級(jí)情感分析這個(gè)任務(wù)就是給定屬性的類別集合,然后預(yù)測(cè)它各個(gè)屬性的正負(fù)面。其中,這里的表達(dá)也分為兩種,一種是顯式的觀點(diǎn)表達(dá),另一種是隱式的觀點(diǎn)表達(dá)。顯式的觀點(diǎn)表達(dá)會(huì)顯示提到屬性的屬性詞和觀點(diǎn)詞,比如“手機(jī)內(nèi)存非常大,系統(tǒng)流暢,性價(jià)比非常高”,這里屬性詞“內(nèi)存”、“系統(tǒng)”和“性價(jià)比”都有顯示的提到,而像“手機(jī)太貴了,顏值非常高,一點(diǎn)都不卡”,這里“手機(jī)太貴了”、“一點(diǎn)都不卡”表達(dá)的屬性分別是“價(jià)格”和“性能”,但是沒(méi)有相應(yīng)的屬性詞。

針對(duì)這兩種不同的表達(dá)方式,處理方式是不一樣的,后邊會(huì)介紹一種專門(mén)針對(duì)顯示的方法。

1.屬性級(jí)情感分析—相關(guān)工作介紹

① 無(wú)監(jiān)督方法:

最傳統(tǒng)的一個(gè)方法是無(wú)監(jiān)督的,這種方法的優(yōu)勢(shì)是不需要標(biāo)注數(shù)據(jù),比如使用基于句法解析的方法,先抽取句子里主語(yǔ)謂語(yǔ)賓語(yǔ)的表達(dá)方式,比如“服務(wù)員很漂亮”,通過(guò)抽到的主語(yǔ)“服務(wù)員”和它對(duì)應(yīng)的形容詞“漂亮”,這樣我就可以知道它的評(píng)價(jià)對(duì)象是“服務(wù)員”,觀點(diǎn)是“漂亮”,再根據(jù)查情感詞典知道這是一個(gè)正面的情感,這樣就可以得到針對(duì)服務(wù)員的評(píng)價(jià)是正面的。

這種方法只能處理顯示的表達(dá),如果是隱式的表達(dá),因?yàn)榫渥又袥](méi)有屬性詞,那么通過(guò)句法解析沒(méi)法得到對(duì)應(yīng)的角色,所以無(wú)法分析來(lái)處理隱式的表達(dá)。這種無(wú)監(jiān)督方法的優(yōu)點(diǎn)是不需要標(biāo)數(shù)據(jù),缺點(diǎn)是準(zhǔn)確率相對(duì)低一些,沒(méi)法處理隱式表達(dá)。

② 閱讀理解方法:

最近的一個(gè)工作是復(fù)旦邱錫鵬老師組提出的基于深度學(xué)習(xí)的方法,分析一個(gè)句子里面各個(gè)屬性的正負(fù)面,他把這個(gè)問(wèn)題轉(zhuǎn)化成一個(gè)閱讀理解的問(wèn)題,本來(lái)一個(gè)句子有N個(gè)屬性集合,他把句子和屬性轉(zhuǎn)換成句子-屬性 pair。輸入一個(gè)句子,這里面aspect可以描述成閱讀理解的一個(gè)問(wèn)你題,比如“針對(duì)外觀評(píng)價(jià)是怎么樣的”,這樣轉(zhuǎn)換成問(wèn)答對(duì)的方式,然后基于Bert來(lái)識(shí)別這個(gè)問(wèn)答對(duì)正負(fù)面的答案,這是一個(gè)比較新的工作。

這種方式的優(yōu)勢(shì)是比較靈活,屬性可以無(wú)限的擴(kuò)充,不管是新增或者減少屬性,都可以用這種方法直接取處理,而且準(zhǔn)確率還比較高。但是這種方法的缺點(diǎn)就是它的效率相對(duì)要低一些,因?yàn)槿绻蠳個(gè)屬性,在預(yù)測(cè)的時(shí)候,它需要預(yù)測(cè)N次才能得到結(jié)果。

2.屬性級(jí)情感分析—方案介紹

我們提出了一個(gè)基于類似多標(biāo)簽,多任務(wù)的方法。整個(gè)任務(wù)給定屬性類別集合,然后預(yù)測(cè)每個(gè)屬性的正負(fù)面。

這里面的難點(diǎn)是,首先我們大框架使用的是有監(jiān)督的方法,因?yàn)樽罱K我們想要把應(yīng)用部署到華為云的服務(wù)上,所以準(zhǔn)確率要求是比較高的,要求達(dá)到90%以上,一般無(wú)監(jiān)督的方法無(wú)法滿足,所以還是需要有監(jiān)督的方法。這就需要標(biāo)注數(shù)據(jù),如果是多個(gè)屬性它的一個(gè)問(wèn)題就是標(biāo)注起來(lái)比較困難,比如說(shuō)一個(gè)手機(jī)評(píng)論可能會(huì)涉及到二三十個(gè)屬性或者說(shuō)甚至上百種屬性,如果要標(biāo)數(shù)據(jù)的話,這會(huì)非常的困難。我們的方法不同于傳統(tǒng)的多標(biāo)簽分類,像文本多標(biāo)簽分類任務(wù)的類別有政治、經(jīng)濟(jì)、新聞,該任務(wù)只涉及標(biāo)簽是否出現(xiàn),但這里不一樣的地方是它不僅涉及到屬性是否出現(xiàn),還要預(yù)測(cè)出屬性的正負(fù)面,相當(dāng)于每個(gè)屬性都要預(yù)測(cè)出它的三個(gè)標(biāo)簽—正面、負(fù)面和未出現(xiàn)。相當(dāng)于每個(gè)屬性是一個(gè)多分類任務(wù)而不是一個(gè)二分類任務(wù)。之前那種多標(biāo)簽分類,一般最后會(huì)把每個(gè)標(biāo)簽轉(zhuǎn)化成logits,這里的話用這種方法就沒(méi)辦法處理。然后還有就是隱式表達(dá)。

我們解決的技術(shù)思路是,把它轉(zhuǎn)換成一個(gè)Multi-task多分類任務(wù),每個(gè)屬性都處理成一個(gè)多分類的任務(wù),所以它輸出不是二分類而是一個(gè)多分類。在標(biāo)注數(shù)據(jù)的過(guò)程中,我們引入主動(dòng)學(xué)習(xí)的思路,先標(biāo)注一批少量的數(shù)據(jù),然后用模型對(duì)剩余未標(biāo)注的做一個(gè)預(yù)測(cè),然后再對(duì)那些置信度比較低的再去人工審核標(biāo)注這些數(shù)據(jù),如果置信度比較高的就不用再標(biāo)了,這樣的話可以提高標(biāo)注效率。另一個(gè)方法是,如果一個(gè)樣本同時(shí)標(biāo)注多個(gè)屬性,這個(gè)標(biāo)注成本是很高的,我們引入Label mask的思路,就是在訓(xùn)練的時(shí)候 某幾個(gè)屬性可能標(biāo)也可能沒(méi)標(biāo),如果沒(méi)標(biāo)的話就把這個(gè)屬性mask掉,然后在計(jì)算loss的時(shí)候該屬性就不參與計(jì)算了,只將那些已經(jīng)標(biāo)注的屬性參與loss計(jì)算和反向傳播的計(jì)算,這樣的一個(gè)好處就是我在真正標(biāo)注樣本的時(shí)候想標(biāo)注哪幾個(gè)屬性就標(biāo)注哪幾個(gè)屬性,不用每個(gè)樣本的所有屬性都要標(biāo)注,這樣標(biāo)注就更加靈活,可以先針對(duì)某一個(gè)屬性只標(biāo)注它,標(biāo)完該屬性后再標(biāo)另一個(gè)屬性,這實(shí)際上是一個(gè)很靈活的標(biāo)注。

使用這個(gè)方法的一個(gè)優(yōu)勢(shì)是,它最終基于深度學(xué)習(xí)模型,準(zhǔn)確率比較高,也支持隱式的表達(dá),因?yàn)樯疃葘W(xué)習(xí)可以編碼各種語(yǔ)義的表達(dá),還有一個(gè)就是我們這種方法可以提高標(biāo)注效率。在中間編碼這塊可以是基于bert、roberta這種預(yù)訓(xùn)練語(yǔ)言模型,最終輸出使用label mask的方法。

3. 屬性級(jí)情感分析—結(jié)果

上面是我們最終的實(shí)驗(yàn)結(jié)果,針對(duì)汽車領(lǐng)域測(cè)試樣本大概有7000多個(gè),每個(gè)樣本平均的屬性數(shù)量是4.27個(gè),其中預(yù)定義的屬性集合是8個(gè),最終可以看到每個(gè)屬性的準(zhǔn)確率都是很高的,基本上達(dá)到90%以上。針對(duì)手機(jī)領(lǐng)域的結(jié)果基本上也是每個(gè)屬性F值基本上能達(dá)到將近90%。

右上角的圖是針對(duì)每個(gè)屬性預(yù)測(cè)的標(biāo)簽的置信度的閾值,隨著閾值的上升,命中的屬性(即預(yù)測(cè)的標(biāo)簽的置信度在閾值以上的屬性)準(zhǔn)確率也在上升,而Attribute Hit Rate(即預(yù)測(cè)標(biāo)簽的置信度在閾值以上的屬性占比)也隨著閾值的上升而下降,即有些屬性預(yù)測(cè)的標(biāo)簽的置信度低于閾值,但是命中的屬性預(yù)測(cè)出標(biāo)簽的準(zhǔn)確率是慢慢上升的,這個(gè)也是符合我們的一般認(rèn)知的。這個(gè)的一個(gè)好處是最終產(chǎn)品上線之后,用戶要求有一部分不需要人工審核,另一部分則需要人工審核,當(dāng)達(dá)到某個(gè)閾值之后,他們就可以不用參與人工審核。通過(guò)調(diào)節(jié)閾值,讓某些屬性的指標(biāo)達(dá)到了這個(gè)閾值,比如準(zhǔn)確率都達(dá)到95%,這一部分就不需要人工審核。

4. 屬性級(jí)情感分析—應(yīng)用案例

這是我們基于多屬性情感分析的一個(gè)應(yīng)用案例,這是汽車領(lǐng)域的案例,針對(duì)網(wǎng)上很多的汽車領(lǐng)域的評(píng)論,我們可以分析汽車在八個(gè)屬性維度上的正負(fù)面評(píng)價(jià)。上圖左上角里紅色的線就是一個(gè)行業(yè)的平均水平,藍(lán)色的線是針對(duì)這個(gè)車它的各個(gè)維度的雷達(dá)圖像,這樣就可以很方便地對(duì)比出不同車型,它的一個(gè)好壞??梢苑奖阌脩粼诋a(chǎn)品選型的時(shí)候做一個(gè)對(duì)比,也可以方便廠家針對(duì)評(píng)論本身對(duì)他們的產(chǎn)品做相應(yīng)的改進(jìn)。

03觀點(diǎn)四元組分析

1.四元組觀點(diǎn)挖掘—介紹

上面講到的雖然可以分析出各個(gè)屬性的正負(fù)面,但是它的一個(gè)缺點(diǎn)是沒(méi)辦法定位出針對(duì)某個(gè)屬性具體評(píng)價(jià)的屬性描述詞位置和觀點(diǎn)描述的位置,因?yàn)橛行┯脩舨粌H想要找到屬性正負(fù)面,還要找到它對(duì)應(yīng)的評(píng)價(jià)位置,所以我們這個(gè)工作是針對(duì)觀點(diǎn)四元組進(jìn)行挖掘的。

觀點(diǎn)四元組挖掘這個(gè)任務(wù)不僅要分析出各個(gè)屬性的正負(fù)面,還要定位出它屬性描述詞的位置以及觀點(diǎn)描述詞的位置。比如“手機(jī)內(nèi)存非常大”中屬性描述詞定位到“內(nèi)存”,評(píng)價(jià)詞定位“非常大”,對(duì)于“性價(jià)比非常高”這句話,屬性描述詞定位到“性價(jià)比”,觀點(diǎn)描述定位到“非常高”,不僅要識(shí)別出屬性的類別還要定位到位置,所以這里一共有四個(gè)要素要預(yù)測(cè)出來(lái),分別是屬性詞、屬性類別、評(píng)價(jià)詞和評(píng)價(jià)極性,其中屬性類別和評(píng)價(jià)極性在前面的工作已經(jīng)做到了。

2.四元組觀點(diǎn)挖掘—方案

針對(duì)這個(gè)任務(wù),我們提出了一個(gè)基于抽取加分類的聯(lián)合模型,上圖是我們現(xiàn)在采用的框架,底層是基于編碼的模型,可以是bert或者roberta等,然后將句子編碼成一個(gè)向量表示。

圖中左邊這側(cè)是用于定位屬性描述位置和觀點(diǎn)描述位置的,是一個(gè)序列標(biāo)注模型,比如這里B_A是屬性描述詞起始位置,I_A則是在屬性描述詞中間的位置,例如這里“內(nèi)存”和“顏色”都是屬性描述詞。在這里最上層用的是CRF序列標(biāo)注模型來(lái)進(jìn)行屬性描述詞的抽取。圖中右邊這側(cè)對(duì)應(yīng)的跟上面的工作有點(diǎn)類似了,有N個(gè)屬性對(duì)應(yīng)有N個(gè)輸出,然后對(duì)應(yīng)每個(gè)屬性預(yù)測(cè)它的正負(fù)面和未出現(xiàn)這幾類。左邊做屬性詞抽取,右邊做屬性正負(fù)面預(yù)測(cè),最終可以輸出每個(gè)屬性的四元組(屬性類別,屬性描述詞,觀點(diǎn)描述詞,觀點(diǎn)類別)。

3.四元組觀點(diǎn)挖掘—數(shù)據(jù)標(biāo)注

這里的比較耗時(shí)間的工作就是數(shù)據(jù)標(biāo)注,因此我們專門(mén)做了四元組觀點(diǎn)挖掘的數(shù)據(jù)標(biāo)注平臺(tái)。上面“簡(jiǎn)單”這個(gè)分類標(biāo)簽是為了解決標(biāo)注過(guò)程中有些不同標(biāo)注人員他可能對(duì)同一個(gè)樣本就會(huì)有沖突,他覺(jué)得這個(gè)樣本比較難標(biāo)或者好標(biāo)的話這里就是用這進(jìn)行區(qū)分,如果樣本好標(biāo)會(huì)打個(gè)“簡(jiǎn)單”的分類標(biāo)簽,如果讓他覺(jué)得不確定,他會(huì)不打“簡(jiǎn)單”的標(biāo)簽,即“復(fù)雜”標(biāo)簽。因?yàn)槲覀儤?biāo)的屬性比較多,涉及到差不多三四十個(gè)屬性,這里做了一個(gè)對(duì)屬性做了大致的分類。

這里的標(biāo)注任務(wù)是類似于關(guān)系抽取里面3元組的標(biāo)注任務(wù),先標(biāo)注屬性描述詞,然后再標(biāo)注它的觀點(diǎn)描述詞,這里面它兩個(gè)其實(shí)是形成一個(gè)搭配關(guān)系,這個(gè)類似于一個(gè)三元組中實(shí)體和實(shí)體及他們的關(guān)系,只不過(guò)這里的關(guān)系是一種搭配的關(guān)系,將它們連起來(lái)就可以了,最后再加上它對(duì)應(yīng)的正負(fù)面以及屬性描述詞對(duì)應(yīng)的屬性類別,這樣每個(gè)樣本的四元組就標(biāo)出來(lái)了。

上圖左邊是我們標(biāo)注大概兩萬(wàn)條手機(jī)評(píng)論的數(shù)據(jù)分布,其實(shí)可以看到數(shù)據(jù)分布式非常不均衡的。這個(gè)是拿到真實(shí)用戶在線上評(píng)論的數(shù)據(jù),有些評(píng)論會(huì)偏的非常多,然而有些類別評(píng)論會(huì)非常少。上圖右邊是針對(duì)所有屬性對(duì)應(yīng)正負(fù)面的分布,這個(gè)也是非常不均衡的,正面的評(píng)論比較多,負(fù)面的評(píng)論會(huì)相對(duì)少很多。

4.四元組觀點(diǎn)挖掘—結(jié)果

上圖為我們最終的評(píng)價(jià)結(jié)果,因?yàn)樗且粋€(gè)四元組既包含分類也包含抽取,對(duì)于評(píng)價(jià)指標(biāo)我們用了一個(gè)Fuzzy F1值。我們對(duì)每一個(gè)屬性加正負(fù)面標(biāo)簽作為一個(gè)評(píng)價(jià)對(duì)象,比如“外觀正”作為一個(gè)評(píng)價(jià)對(duì)象,然后去找它對(duì)應(yīng)的位置,計(jì)算這個(gè)位置它們字符的重合率(包括觀點(diǎn)描述詞和屬性描述詞的重合率)這樣去算它的F值。EM F1值是預(yù)測(cè)描述詞的位置完全精準(zhǔn)匹配,稍微有一點(diǎn)不對(duì)也算錯(cuò),這個(gè)比前面的指標(biāo)更加嚴(yán)格。

編碼器這部分我們嘗試了幾個(gè)不同的編碼器,包括bert、roberta還有nezha等。由于我們有很多未標(biāo)注的數(shù)據(jù),基于這些數(shù)據(jù)我們做了領(lǐng)域的預(yù)訓(xùn)練,然后再進(jìn)行fine tune。右圖展示了不同指標(biāo)下的結(jié)果,可以看到在未標(biāo)注數(shù)據(jù)上進(jìn)行領(lǐng)域預(yù)訓(xùn)練的話是可以帶了一個(gè)點(diǎn)的提升,F(xiàn)uzzy F1能達(dá)到0.79。另外,這個(gè)評(píng)估指標(biāo)對(duì)于人的實(shí)際感知不太直觀,我們隨機(jī)抽取500條數(shù)據(jù)進(jìn)行人工評(píng)價(jià)。

人工評(píng)價(jià)的過(guò)程是每個(gè)樣本預(yù)測(cè)出每個(gè)屬性標(biāo)簽和正負(fù)面且包括它們的位置,將這樣的四元組抽取出來(lái)進(jìn)行人工評(píng)價(jià),判斷預(yù)測(cè)是否合理,如果合理標(biāo)記為1,如果不合理則標(biāo)記為0,這樣來(lái)看人工對(duì)模型預(yù)測(cè)的指標(biāo)判斷。人工評(píng)價(jià)的準(zhǔn)確率是非常高的,差不多96%的準(zhǔn)確率,即人工認(rèn)為預(yù)測(cè)是合理的。這兩個(gè)結(jié)果差別是比較大的,但也是比較合理的,因?yàn)樵跀?shù)據(jù)標(biāo)注過(guò)程中,不同標(biāo)注人員對(duì)觀點(diǎn)描述詞的位置以及屬性描述的位置也可是會(huì)有歧義。比如“外觀非常好看”這句話,有些人觀點(diǎn)描述詞會(huì)標(biāo)“好看”,有些人就會(huì)標(biāo)“非常好看”,這其實(shí)對(duì)最終預(yù)測(cè)結(jié)果影響不大,但是如果用字符重合率的方法,那會(huì)嚴(yán)重影響計(jì)算這個(gè)指標(biāo),所以說(shuō)它兩個(gè)差異比較大也是合理的。

5.四元組觀點(diǎn)挖掘—Demo

上圖是我們一個(gè)簡(jiǎn)單的demo,輸入一個(gè)樣本,生成對(duì)應(yīng)每個(gè)屬性的正負(fù)面,當(dāng)點(diǎn)擊某個(gè)屬性的時(shí)候它對(duì)應(yīng)的評(píng)價(jià)詞位置就可以高亮出來(lái),紅色代表屬性描述詞,綠色代表觀點(diǎn)描述詞。上面說(shuō)的人工評(píng)價(jià)就是這些結(jié)果預(yù)測(cè)出來(lái)后,人工看看預(yù)測(cè)是否合理。

04總結(jié)

本文主要介紹了情感分析的一些基本任務(wù),包括文本、語(yǔ)音、圖像還有生成、識(shí)別。對(duì)于文本情感分析任務(wù)做了詳細(xì)介紹,重點(diǎn)介紹了兩個(gè)工作,一個(gè)是屬性級(jí)情感分析,這個(gè)是給定屬性集合情況下,預(yù)測(cè)每個(gè)屬性的正負(fù)面,我們將它構(gòu)建成了一個(gè)多任務(wù)分類。另一個(gè)工作比上面的粒度更細(xì)一點(diǎn),不僅要預(yù)測(cè)出屬性正負(fù)面,還要定位出它具體的屬性描述詞和觀點(diǎn)描述詞的位置,我們把它做成了一個(gè)抽取加分類的多任務(wù)聯(lián)合模型,既包括抽取也包括分類。

對(duì)于未來(lái)的趨勢(shì),我們?cè)趯?shí)際做的過(guò)程中發(fā)現(xiàn)大家在工業(yè)界會(huì)碰到標(biāo)注數(shù)據(jù)成本非常高的問(wèn)題,每一個(gè)任務(wù)基本上我們需要標(biāo)將近兩萬(wàn)條數(shù)據(jù),所以最終的效果準(zhǔn)確率是比較高的。另一方面,對(duì)于模型加速這部分,由于使用深度學(xué)習(xí)像bert這種預(yù)訓(xùn)練模型,它的推理成本還是比較高的,我們?nèi)A為可以對(duì)硬件進(jìn)行底層適配。對(duì)于領(lǐng)域遷移未來(lái)也是關(guān)注重點(diǎn),怎么能從更低成本從某一領(lǐng)域遷移到另一個(gè)領(lǐng)域,比如從汽車領(lǐng)域遷移到手機(jī)領(lǐng)域,或者從手機(jī)領(lǐng)域遷移到房地產(chǎn)領(lǐng)域等等。

另外,還有自監(jiān)督去訓(xùn)練超大規(guī)模的模型,比如像bert、roberta還有最近GPT3等等,這也是未來(lái)的趨勢(shì),然后再考慮如何將知識(shí)圖譜加入到大模型當(dāng)中進(jìn)行知識(shí)增強(qiáng)來(lái)提升模型理解的效果。還有就是多模態(tài)這部分,怎么把圖像、文本或者語(yǔ)音這些信息輔助來(lái)提升模型的效果。因?yàn)槿嗽趯W(xué)習(xí)的時(shí)候不僅參考了文本的信息,還有視覺(jué)方面的信息等等?,F(xiàn)在對(duì)于多模態(tài)情感分析我們也有一些工作正在做,比如說(shuō)從視頻中分析出一個(gè)人的情感,既考慮人臉的圖像信息,也考慮他語(yǔ)音的一些信息,比如語(yǔ)氣等等。

原文標(biāo)題:【情感分析】華為云細(xì)粒度文本情感分析及應(yīng)用

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47514

    瀏覽量

    239229
  • 華為云
    +關(guān)注

    關(guān)注

    3

    文章

    2654

    瀏覽量

    17501

原文標(biāo)題:【情感分析】華為云細(xì)粒度文本情感分析及應(yīng)用

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    EBSD粒度測(cè)量中的分析和應(yīng)用

    EBSD技術(shù)WC粉末晶粒度測(cè)量中的應(yīng)用晶粒尺寸分布是評(píng)價(jià)碳化鎢(WC)粉末質(zhì)量的關(guān)鍵因素,它直接影響材料的物理特性。電子背散射衍射技術(shù)(EBSD),作為一種尖端的晶體學(xué)分析手段,能夠詳盡地揭示W(wǎng)C
    的頭像 發(fā)表于 01-10 11:00 ?131次閱讀
    EBSD<b class='flag-5'>在</b>晶<b class='flag-5'>粒度</b>測(cè)量中的<b class='flag-5'>分析</b>和應(yīng)用

    鼎科技與華為簽約化工工藝優(yōu)化合作

    。雙方將攜手合作,共同打造具有國(guó)際水準(zhǔn)、安全可靠的化工工藝優(yōu)化解決方案。 根據(jù)協(xié)議,鼎科技與華為將充分發(fā)揮各自在算法創(chuàng)新、算力支撐、大模型研發(fā)等方面的技術(shù)優(yōu)勢(shì)。雙方將圍繞甲醇精餾裝
    的頭像 發(fā)表于 12-09 13:55 ?405次閱讀

    華納:VFS提升文件系統(tǒng)性能方面的具體實(shí)踐

    VFS(Virtual File System)通過(guò)提供統(tǒng)一的接口和抽象層,使得操作系統(tǒng)能夠以高效的方式管理和訪問(wèn)不同的文件系統(tǒng)。以下是一些VFS提升文件系統(tǒng)性能方面的具體實(shí)踐示例: 統(tǒng)一的系統(tǒng)
    的頭像 發(fā)表于 11-27 15:59 ?205次閱讀

    基于LSTM神經(jīng)網(wǎng)絡(luò)的情感分析方法

    能力而受到廣泛關(guān)注。 1. 引言 情感分析商業(yè)智能、客戶服務(wù)、社交媒體監(jiān)控等領(lǐng)域具有廣泛的應(yīng)用。傳統(tǒng)的情感分析方法依賴于手工特征提取和機(jī)器
    的頭像 發(fā)表于 11-13 10:15 ?588次閱讀

    Perforce Helix Core通過(guò)ISO 26262認(rèn)證!為汽車軟件開(kāi)發(fā)團(tuán)隊(duì)提供無(wú)限可擴(kuò)展性、細(xì)粒度安全性、文件快速訪問(wèn)等

    News!Helix Core通過(guò)ISO 26262認(rèn)證,符合汽車系統(tǒng)開(kāi)發(fā)所需的安全和可靠性標(biāo)準(zhǔn),助力汽車軟件安全合規(guī)!具備無(wú)限可擴(kuò)展性、細(xì)粒度安全性、文件快速訪問(wèn)...是眾多汽車OEM和供應(yīng)商的首選版本控制工具。
    的頭像 發(fā)表于 11-12 14:41 ?859次閱讀
    Perforce Helix Core通過(guò)ISO 26262認(rèn)證!為汽車軟件開(kāi)發(fā)團(tuán)隊(duì)提供無(wú)限可擴(kuò)展性、<b class='flag-5'>細(xì)粒度</b>安全性、文件快速訪問(wèn)等

    如何設(shè)定機(jī)器人語(yǔ)義地圖的細(xì)粒度級(jí)別

    和區(qū)域與封閉的語(yǔ)義標(biāo)簽集對(duì)應(yīng)的工作。然而,封閉集檢測(cè)能夠表示的概念集方面存在固有的限制,并且不能很好地處理自然語(yǔ)言的內(nèi)在歧義性和可變性。為了克服這些限制,一組新的方法開(kāi)始利用視覺(jué)語(yǔ)言基礎(chǔ)模型進(jìn)行開(kāi)放集語(yǔ)義理解。這
    的頭像 發(fā)表于 11-12 10:54 ?364次閱讀
    如何設(shè)定機(jī)器人語(yǔ)義地圖的<b class='flag-5'>細(xì)粒度</b>級(jí)別

    UPS電源與EPS電源功能和應(yīng)用方面的區(qū)別

    電子發(fā)燒友網(wǎng)站提供《UPS電源與EPS電源功能和應(yīng)用方面的區(qū)別.pdf》資料免費(fèi)下載
    發(fā)表于 10-31 10:17 ?4次下載

    計(jì)算平臺(tái)的最佳實(shí)踐

    計(jì)算平臺(tái)的最佳實(shí)踐涉及多個(gè)方面,以確保高效、安全、可擴(kuò)展和成本優(yōu)化的環(huán)境。以下是一些關(guān)鍵的最佳實(shí)踐: 一、
    的頭像 發(fā)表于 10-24 09:17 ?388次閱讀

    工業(yè)智能網(wǎng)關(guān)在數(shù)據(jù)上方面的作用、優(yōu)勢(shì)以及實(shí)施策略

    的管理效率、安全性和智能化水平。本文將詳細(xì)探討工業(yè)智能網(wǎng)關(guān)在數(shù)據(jù)上方面的作用、優(yōu)勢(shì)以及實(shí)施策略。 工業(yè)智能網(wǎng)關(guān)概述 工業(yè)智能網(wǎng)關(guān)是一種用于工業(yè)環(huán)境中的設(shè)備,能夠連接多種網(wǎng)絡(luò)和設(shè)備,實(shí)現(xiàn)數(shù)據(jù)不同網(wǎng)絡(luò)間的轉(zhuǎn)換和傳輸
    的頭像 發(fā)表于 09-03 13:15 ?324次閱讀

    大數(shù)據(jù)軍事方面的應(yīng)用

    智慧華盛恒輝大數(shù)據(jù)軍事方面的應(yīng)用廣泛且深入,涵蓋了戰(zhàn)爭(zhēng)決策、情報(bào)分析、裝備研發(fā)、后勤保障、科研方法、管理水平、作戰(zhàn)能力和信息化建設(shè)等多個(gè)方面。以下是對(duì)這些應(yīng)用的詳細(xì)歸納: 智慧華盛恒
    的頭像 發(fā)表于 07-16 09:44 ?1160次閱讀

    華為HDC 2024看點(diǎn) 華為盤(pán)古大模型5.0正式發(fā)布

    華為開(kāi)發(fā)者大會(huì)2024(HDC 2024)上,華為常務(wù)董事、華為CEO張平安正式發(fā)布盤(pán)古大模型5.0,全系列、多模態(tài)、強(qiáng)思維三個(gè)
    的頭像 發(fā)表于 06-23 11:41 ?1381次閱讀
    <b class='flag-5'>華為</b>HDC 2024看點(diǎn)  <b class='flag-5'>華為</b><b class='flag-5'>云</b>盤(pán)古大模型5.0正式發(fā)布

    大數(shù)據(jù)軍事方面的應(yīng)用有哪些

    智慧華盛恒輝大數(shù)據(jù)軍事方面的應(yīng)用涵蓋了多個(gè)方面,這些應(yīng)用不僅提高了軍事管理的效率和水平,也極大地提升了軍隊(duì)的作戰(zhàn)能力和情報(bào)獲取能力。以下是大數(shù)據(jù)軍事
    的頭像 發(fā)表于 06-23 10:34 ?1106次閱讀

    微信大模型擴(kuò)容并開(kāi)源,推出首個(gè)中英雙語(yǔ)文生圖模型,參數(shù)規(guī)模達(dá)15億

    基于Diffusion Transformer的混元DiT是一種文本到圖像生成模塊,具備中英細(xì)粒度理解能力,能與用戶進(jìn)行多輪對(duì)話,根據(jù)上下文生成并完善圖像。
    的頭像 發(fā)表于 05-14 17:10 ?770次閱讀

    fpga通信方面的應(yīng)用

    FPGA通信方面的應(yīng)用非常廣泛,以下是一些主要的應(yīng)用場(chǎng)景。
    的頭像 發(fā)表于 03-27 14:10 ?1180次閱讀

    ICLR 2024 清華/新國(guó)大/澳門(mén)大學(xué)提出一模通吃的多粒度圖文組合檢索MUG:通過(guò)不確定性建模,兩行代碼完成部署

    如上圖所示,不再采用嚴(yán)格的一對(duì)一匹配,而是促使模型專注于一對(duì)多匹配,即從細(xì)粒度過(guò)渡到粗粒度。因此,首先引入了一個(gè)用于噪聲增強(qiáng)的Augmenter來(lái)生成抖動(dòng),這個(gè)模塊直接作用于最終的特征空間。
    的頭像 發(fā)表于 01-25 16:53 ?682次閱讀
    ICLR 2024 清華/新國(guó)大/澳門(mén)大學(xué)提出一模通吃的多<b class='flag-5'>粒度</b>圖文組合檢索MUG:通過(guò)不確定性建模,兩行代碼完成部署