在IJCAI-2019期間舉辦的騰訊TAIC晚宴和Booth Talk中,來(lái)自TEG數(shù)據(jù)平臺(tái)的張長(zhǎng)旺向大家介紹了自己所在用戶畫(huà)像組的前沿科研結(jié)果:
1. 非監(jiān)督短文本層級(jí)分類;
2. 大規(guī)模復(fù)雜網(wǎng)絡(luò)挖掘和圖表示學(xué)習(xí)。
其所在團(tuán)隊(duì)積極與學(xué)術(shù)界科研合作,并希望有夢(mèng)想、愛(ài)學(xué)習(xí)的實(shí)力派加入,共同研究和應(yīng)用半監(jiān)督/弱監(jiān)督/無(wú)監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)、大規(guī)模復(fù)雜網(wǎng)絡(luò)挖掘和圖表示學(xué)習(xí)等做大數(shù)據(jù)挖掘。
科研結(jié)果1:非監(jiān)督短文本層級(jí)分類
首先以下用戶和AI算法的對(duì)話,顯示了現(xiàn)實(shí)業(yè)務(wù)中使用現(xiàn)有監(jiān)督文本分類算法的遇到的一些困境和問(wèn)題:
算法需要海量訓(xùn)練數(shù)據(jù)
算法模型用戶不可控
算法不能很好的適應(yīng)類目的變化
我們分析現(xiàn)有監(jiān)督算法的主要問(wèn)題在于沒(méi)有真正的知識(shí), 沒(méi)有對(duì)于文本和類目的真正的理解?,F(xiàn)有算法只是在學(xué)習(xí)大量人工標(biāo)注訓(xùn)練樣本里面的模式。為了解決這個(gè)問(wèn)題,我們啟動(dòng)了一個(gè)叫做: 基于關(guān)鍵詞知識(shí)與類目知識(shí)的非監(jiān)督短文本層級(jí)分類的探索項(xiàng)目。
項(xiàng)目的主要思想是引入關(guān)鍵詞和類目?jī)煞N知識(shí)來(lái)幫助算法理解關(guān)鍵詞和類目的含義。然后基于知識(shí)進(jìn)行文本的分類和標(biāo)注。關(guān)鍵詞知識(shí)主要來(lái)自3個(gè)方面包括:關(guān)鍵詞的網(wǎng)絡(luò)搜索上下文、關(guān)鍵詞的百科上下文、關(guān)鍵詞到類目詞的后驗(yàn)關(guān)聯(lián)概率。我們提出類目語(yǔ)義表達(dá)式來(lái)支持用戶表達(dá)豐富的類目本身和類目之間的關(guān)系的語(yǔ)義。這兩樣知識(shí)的引入幫助算法擺脫了對(duì)于大量人工標(biāo)注訓(xùn)練樣本的依賴,同時(shí)算法分類的過(guò)程做到了人工可理解,人工可控制。
基于關(guān)鍵詞和類目知識(shí)的無(wú)監(jiān)督文本層級(jí)分類算法流程如下:
對(duì)文本提取關(guān)鍵詞
根據(jù)關(guān)鍵詞知識(shí)計(jì)算關(guān)鍵詞到類目詞的相關(guān)度詞向量
根據(jù)關(guān)鍵詞的相關(guān)度詞向量計(jì)算文本的相關(guān)度詞向量
根據(jù)文本的相關(guān)度詞向量和類目語(yǔ)義表達(dá)式計(jì)算文本與每個(gè)類目的匹配度
每個(gè)文本被分為與之匹配度最高的類目
通過(guò)在兩個(gè)文本分類數(shù)據(jù)集合上面的實(shí)驗(yàn),我們發(fā)現(xiàn),我們自研的算法能夠在沒(méi)有訓(xùn)練樣本的情況下提供質(zhì)量可用的結(jié)果,其一級(jí)類目準(zhǔn)確率能夠達(dá)到80%,并且明顯高于現(xiàn)有其他非監(jiān)督算法。
科研結(jié)果2:大規(guī)模復(fù)雜網(wǎng)絡(luò)挖掘和圖表示學(xué)習(xí)
Network Representation Learning 或者說(shuō) Graph Embedding 是復(fù)雜網(wǎng)絡(luò)最新的研究課題,意在通過(guò)神經(jīng)網(wǎng)絡(luò)模型,把圖結(jié)構(gòu)向量化,為節(jié)點(diǎn)分類、鏈路預(yù)測(cè)、社團(tuán)發(fā)現(xiàn)等挖掘任務(wù)提供方便有效的特征,以克服圖結(jié)構(gòu)難以應(yīng)用到機(jī)器學(xué)習(xí)算法中的難題。
本次我們?cè)贗JCAI發(fā)表的學(xué)術(shù)論文“Identifying Illicit Accounts in Large Scale E-payment Networks - A Graph Representation Learning Approach”創(chuàng)新性提出結(jié)合邊屬性的圖卷積神經(jīng)網(wǎng)絡(luò)模型,彌補(bǔ)了現(xiàn)有算法無(wú)法利用邊屬性為節(jié)點(diǎn)分類提供更多信息的不足。
現(xiàn)有的圖學(xué)習(xí)算法,絕大部分都忽視了邊上信息的價(jià)值。在這里我們提出了一種可以把邊的信息傳輸?shù)焦?jié)點(diǎn)表示結(jié)果的改進(jìn)的GCN算法。算法主要思路是在做GCN里面周邊鄰居節(jié)點(diǎn)向量的聚合計(jì)算之前,把每個(gè)節(jié)點(diǎn)連接邊的Embedding向量拼接在對(duì)應(yīng)鄰居節(jié)點(diǎn)的Embedding向量后面。實(shí)驗(yàn)顯示,我們的算法對(duì)于金融分類問(wèn)題具有更優(yōu)的結(jié)果。我們團(tuán)隊(duì)正在進(jìn)一步優(yōu)化模型,正在研發(fā)利用時(shí)序的GCN模型,以可以利用邊的時(shí)序交互信息,從而更好的表示動(dòng)態(tài)網(wǎng)絡(luò)。
同時(shí),數(shù)平數(shù)據(jù)中心研發(fā)的Angel參數(shù)服務(wù)器平臺(tái),針對(duì)關(guān)系型數(shù)據(jù)結(jié)構(gòu),在計(jì)算性能上對(duì)圖算法做了優(yōu)化,極大加速了PageRank等算法的計(jì)算速度,比如計(jì)算用戶中心度的Closeness算法,性能比基于Spark GraphX的算法提升了6.7倍。下圖顯示對(duì)于大型圖的計(jì)算,我們Angle框架的速度具有明顯的優(yōu)勢(shì)。
我們所在團(tuán)隊(duì)積極與學(xué)術(shù)界科研合作,并希望有夢(mèng)想、愛(ài)學(xué)習(xí)的實(shí)力派加入,共同研究和應(yīng)用半監(jiān)督/弱監(jiān)督/無(wú)監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)、復(fù)雜網(wǎng)絡(luò)挖掘和圖表示學(xué)習(xí)做大數(shù)據(jù)挖掘。
-
算法
+關(guān)注
關(guān)注
23文章
4613瀏覽量
92957 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8893瀏覽量
137464
原文標(biāo)題:IJCAI2019報(bào)告:基于無(wú)監(jiān)督學(xué)習(xí)和圖學(xué)習(xí)的大數(shù)據(jù)挖掘
文章出處:【微信號(hào):Tencent_TEG,微信公眾號(hào):騰訊技術(shù)工程官方號(hào)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論