我們幾乎每天都會(huì)接收到各種各樣的推薦信息,從新聞、購物到吃飯、娛樂。個(gè)性化推薦系統(tǒng)作為一種信息過濾的重要手段,可以依據(jù)我們的習(xí)慣和愛好推薦合適的服務(wù)。但傳統(tǒng)的推薦系統(tǒng)容易出現(xiàn)稀疏性和冷啟動(dòng)的問題,而知識(shí)圖譜作為一種新興類型的輔助信息,近幾年逐漸引起了研究人員的關(guān)注,本文將向大家介紹知識(shí)圖譜的相關(guān)知識(shí)以及知識(shí)圖譜在推薦系統(tǒng)中可能的應(yīng)用價(jià)值。一起來學(xué)習(xí)一下吧!
小王是一名程序員。早上八點(diǎn),他被鬧鈴叫醒,拿起手機(jī)開始瀏覽手機(jī)上的新聞APP推薦的最新消息:
隨后,小王想起昨晚放在購物車?yán)锏男€沒有下單。于是,他打開了某購物APP,查看了一下自己的購物車:
但是他覺得下面推薦的板鞋似乎更適合自己,于是他買了一雙。
吃完早飯,小王坐地鐵去上班。地鐵上無聊的小王打開了某音樂APP,系統(tǒng)已經(jīng)為他選好了推薦的歌曲:
到了公司后,小王開始繼續(xù)寫沒有完成的代碼,但是始終無法把參數(shù)調(diào)到滿意的水平。有些煩躁的小王想歇一歇,于是打開了某資訊APP,看了幾個(gè)為他推薦的話題:
就在他認(rèn)真閱讀的時(shí)候,經(jīng)理注意到了他不在干活,很生氣,于是嚴(yán)肅地批評(píng)了小王。小王感到很委屈,這時(shí)手機(jī)里的某求職類APP給他發(fā)來了推送:
小王覺得這幾個(gè)職位都挺適合自己的,于是心里有了跳槽的打算。到了午飯時(shí)間,小王打開了某外賣APP,查看了一下系統(tǒng)推薦的附近餐廳:
小王一邊吃著剛剛送來的外賣,一邊瀏覽著某娛樂類APP,查看適合晚上和女朋友一起觀看的演出推薦:
晚上看完演出,小王和女朋友都非常滿意,覺得這個(gè)APP的系統(tǒng)推薦很棒。
推薦系統(tǒng)
跟小王一樣,我們幾乎每個(gè)人每天都會(huì)使用多個(gè)APP中的推薦功能,這些功能的背后都是個(gè)性化推薦系統(tǒng)(personalized recommender systems)。隨著互聯(lián)網(wǎng)技術(shù)和產(chǎn)業(yè)的迅速發(fā)展,接入互聯(lián)網(wǎng)的服務(wù)器數(shù)量和網(wǎng)頁數(shù)量也呈指數(shù)級(jí)上升。用戶面臨著海量的信息,傳統(tǒng)的搜索算法只能呈現(xiàn)給用戶(user)相同的物品(item)排序結(jié)果,無法針對(duì)不同用戶的興趣愛好提供相應(yīng)的服務(wù)。信息爆炸使得信息的利用率反而降低,這種現(xiàn)象被稱為信息超載(information overload)。
推薦問題從本質(zhì)上說就是代替用戶評(píng)估其從未看過、接觸過和使用過的物品,包括書籍、電影、新聞、音樂、餐館、旅游景點(diǎn)等。推薦系統(tǒng)作為一種信息過濾的重要手段,是當(dāng)前解決信息超載問題的最有效的方法之一,是面向用戶的互聯(lián)網(wǎng)產(chǎn)品的核心技術(shù)。
推薦系統(tǒng)的任務(wù)和難點(diǎn)
按照預(yù)測(cè)對(duì)象的不同,推薦系統(tǒng)一般可以分成兩類:一類是評(píng)分預(yù)測(cè)(rating prediction),例如在電影類應(yīng)用中,系統(tǒng)需要預(yù)測(cè)用戶對(duì)電影的評(píng)分,并以此為根據(jù)推送其可能喜歡的電影。這種場(chǎng)景下的用戶反饋信息表達(dá)了用戶的喜好程度,因此這種信息也叫顯式反饋(explicit feedback);另一類是點(diǎn)擊率預(yù)測(cè)(click-through rateprediction),例如在新聞?lì)悜?yīng)用中,系統(tǒng)需要預(yù)測(cè)用戶點(diǎn)擊某新聞的概率來優(yōu)化推薦方案。這種場(chǎng)景下的用戶反饋信息只能表達(dá)用戶的行為特征(點(diǎn)擊/未點(diǎn)擊),而不能反映用戶的喜愛程度,因此這種信息也叫隱式反饋(implicit feedback)。
傳統(tǒng)的推薦系統(tǒng)只使用用戶和物品的歷史交互信息(顯式或隱式反饋)作為輸入,這會(huì)帶來兩個(gè)問題:一,在實(shí)際場(chǎng)景中,用戶和物品的交互信息往往是非常稀疏(sparse)的。例如,一個(gè)電影類APP可能包含了上萬部電影,然而一個(gè)用戶打過分的電影可能平均只有幾十部。使用如此少量的已觀測(cè)數(shù)據(jù)來預(yù)測(cè)大量的未知信息,會(huì)極大地增加算法的過擬合(overfitting)風(fēng)險(xiǎn);二,對(duì)于新加入的用戶或者物品,由于系統(tǒng)沒有其歷史交互信息,因此無法進(jìn)行準(zhǔn)確地建模和推薦,這種情況也叫做冷啟動(dòng)問題(cold start problem)。
解決稀疏性和冷啟動(dòng)問題的一個(gè)常見思路是在推薦算法中額外引入一些輔助信息(side information)作為輸入。輔助信息可以豐富對(duì)用戶和物品的描述、增強(qiáng)推薦算法的挖掘能力,從而有效地彌補(bǔ)交互信息的稀疏或缺失。常見的輔助信息包括:
社交網(wǎng)絡(luò)(social networks):一個(gè)用戶對(duì)某個(gè)物品感興趣,他的朋友可能也會(huì)對(duì)該物品感興趣;
用戶/物品屬性(attributes):擁有同種屬性的用戶可能會(huì)對(duì)同一類物品感興趣;
圖像/視頻/音頻/文本等多媒體信息(multimedia):例如商品圖片、電影預(yù)告片、音樂、新聞標(biāo)題等;
上下文(context):用戶-物品交互的時(shí)間、地點(diǎn)、當(dāng)前會(huì)話信息等。
……
如何根據(jù)具體推薦場(chǎng)景的特點(diǎn)將各種輔助信息有效地融入推薦算法一直是推薦系統(tǒng)研究領(lǐng)域的熱點(diǎn)和難點(diǎn),如何從各種輔助信息中提取有效的特征也是推薦系統(tǒng)工程領(lǐng)域的核心問題。
知識(shí)圖譜
在各種輔助信息中,知識(shí)圖譜作為一種新興類型的輔助信息近幾年逐漸引起了研究人員的關(guān)注。知識(shí)圖譜(knowledge graph)是一種語義網(wǎng)絡(luò),其結(jié)點(diǎn)(node)代表實(shí)體(entity)或者概念(concept),邊(edge)代表實(shí)體/概念之間的各種語義關(guān)系(relation)。一個(gè)知識(shí)圖譜由若干個(gè)三元組(h、r、t)組成,其中h和t代表一條關(guān)系的頭結(jié)點(diǎn)和尾節(jié)點(diǎn),r代表關(guān)系。
上圖展示的三元組表達(dá)了“陳凱歌導(dǎo)演了霸王別姬”這樣一條事實(shí),其中h=陳凱歌、t=霸王別姬、r=導(dǎo)演。
知識(shí)圖譜包含了實(shí)體之間豐富的語義關(guān)聯(lián),為推薦系統(tǒng)提供了潛在的輔助信息來源。知識(shí)圖譜在諸多推薦場(chǎng)景中都有應(yīng)用的潛力,例如電影、新聞、景點(diǎn)、餐館、購物等。和其它種類的輔助信息相比,知識(shí)圖譜的引入可以讓推薦結(jié)果更加具有以下特征:
精確性(precision)。知識(shí)圖譜為物品引入了更多的語義關(guān)系,可以深層次地發(fā)現(xiàn)用戶興趣;
多樣性(diversity)。知識(shí)圖譜提供了不同的關(guān)系連接種類,有利于推薦結(jié)果的發(fā)散,避免推薦結(jié)果局限于單一類型;
可解釋性(explainability)。知識(shí)圖譜可以連接用戶的歷史記錄和推薦結(jié)果,從而提高用戶對(duì)推薦結(jié)果的滿意度和接受度,增強(qiáng)用戶對(duì)推薦系統(tǒng)的信任。
這里值得一提的是知識(shí)圖譜和物品屬性的區(qū)別。物品屬性可以看成是在知識(shí)圖譜中和某物品直接相連的一跳(1-hop)的節(jié)點(diǎn),即一個(gè)弱化版本的知識(shí)圖譜。事實(shí)上,一個(gè)完整的知識(shí)圖譜可以提供物品之間更深層次和更長范圍內(nèi)的關(guān)聯(lián),例如,“《霸王別姬》-張國榮-香港-梁朝偉-《無間道》”。正因?yàn)橹R(shí)圖譜的維度更高,語義關(guān)系更豐富,它的處理也因此比物品屬性要更加復(fù)雜和困難。
一般來說,現(xiàn)有的可以將知識(shí)圖譜引入推薦系統(tǒng)的工作分為兩類:
以LibFM[1]為代表的通用的基于特征的推薦方法(generic feature-based methods)。這類方法統(tǒng)一地把用戶和物品的屬性作為推薦算法的輸入。例如,LibFM將某個(gè)用戶和某個(gè)物品的所有屬性記為x,然后令該用戶和物品之間的交互強(qiáng)度y(x)依賴于屬性中所有的一次項(xiàng)和二次項(xiàng):
基于該類方法的通用性,我們可以將知識(shí)圖譜弱化為物品屬性,然后應(yīng)用該類方法即可。當(dāng)然,這種做法的缺點(diǎn)也顯而易見:它并非專門針對(duì)知識(shí)圖譜設(shè)計(jì),因此無法高效地利用知識(shí)圖譜的全部信息。例如,該類方法難以利用多跳的知識(shí),也難以引入關(guān)系(relation)的信息。
以PER [2]、MetaGraph[3]為代表的基于路徑的推薦方法(path-based methods)。該類方法將知識(shí)圖譜視為一個(gè)異構(gòu)信息網(wǎng)絡(luò)(heterogeneous information network),然后構(gòu)造物品之間的基于meta-path或meta-graph的特征。簡單地說,meta-path是連接兩個(gè)實(shí)體的一條特定的路徑,比如“演員->電影->導(dǎo)演->電影->演員”這條meta-path可以連接兩個(gè)演員,因此可以視為一種挖掘演員之間的潛在關(guān)系的方式。這類方法的優(yōu)點(diǎn)是充分且直觀地利用了知識(shí)圖譜的網(wǎng)絡(luò)結(jié)構(gòu),缺點(diǎn)是需要手動(dòng)設(shè)計(jì)meta-path或meta-graph,這在實(shí)踐中難以到達(dá)最優(yōu);同時(shí),該類方法無法在實(shí)體不屬于同一個(gè)領(lǐng)域的場(chǎng)景(例如新聞推薦)中應(yīng)用,因?yàn)槲覀儫o法為這樣的場(chǎng)景預(yù)定義meta-path或meta-graph。
知識(shí)圖譜特征學(xué)習(xí)
知識(shí)圖譜特征學(xué)習(xí)(Knowledge Graph Embedding)為知識(shí)圖譜中的每個(gè)實(shí)體和關(guān)系學(xué)習(xí)得到一個(gè)低維向量,同時(shí)保持圖中原有的結(jié)構(gòu)或語義信息。事實(shí)上,知識(shí)圖譜特征學(xué)習(xí)是網(wǎng)絡(luò)特征學(xué)習(xí)(network embedding)的一個(gè)子領(lǐng)域,因?yàn)橹R(shí)圖譜包含特有的語義信息,所以知識(shí)圖譜特征學(xué)習(xí)比通用的網(wǎng)絡(luò)特征學(xué)習(xí)需要更細(xì)心和針對(duì)性的模型設(shè)計(jì)。一般而言,知識(shí)圖譜特征學(xué)習(xí)的模型分類兩類:
基于距離的翻譯模型(distance-based translational models)。這類模型使用基于距離的評(píng)分函數(shù)評(píng)估三元組的概率,將尾節(jié)點(diǎn)視為頭結(jié)點(diǎn)和關(guān)系翻譯得到的結(jié)果。這類方法的代表有TransE、TransH、TransR等;
基于語義的匹配模型(semantic-based matching models)。這類模型使用基于相似度的評(píng)分函數(shù)評(píng)估三元組的概率,將實(shí)體和關(guān)系映射到隱語義空間中進(jìn)行相似度度量。這類方法的代表有SME、NTN、MLP、NAM等。
由于知識(shí)圖譜特征學(xué)習(xí)為每個(gè)實(shí)體和特征學(xué)習(xí)得到了一個(gè)低維向量,而且在向量中保持了原圖的結(jié)構(gòu)和語義信息,所以一組好的實(shí)體向量可以充分且完全地表示實(shí)體之間的相互關(guān)系,因?yàn)榻^大部分機(jī)器學(xué)習(xí)算法都可以很方便地處理低維向量輸入。因此,利用知識(shí)圖譜特征學(xué)習(xí),我們可以很方便地將知識(shí)圖譜引入各種推薦系統(tǒng)算法中。概括地說,知識(shí)圖譜特征學(xué)習(xí)可以:
降低知識(shí)圖譜的高維性和異構(gòu)性;
增強(qiáng)知識(shí)圖譜應(yīng)用的靈活性;
減輕特征工程的工作量;
減少由于引入知識(shí)圖譜帶來的額外計(jì)算負(fù)擔(dān)。
在本篇中,我們分別介紹了推薦系統(tǒng)、知識(shí)圖譜、以及知識(shí)圖譜在推薦系統(tǒng)中的應(yīng)用價(jià)值。作為推薦算法的輔助信息,知識(shí)圖譜的引入可以極大地提高推薦系統(tǒng)的精準(zhǔn)性、多樣性和可解釋性。在下周的文章中,我們將詳述將知識(shí)圖譜引入推薦系統(tǒng)的各種思路與實(shí)現(xiàn),敬請(qǐng)期待!
參考文獻(xiàn)
[1] Factorization machines with libfm
[2] Personalized entity recommendation: A heterogeneous information network approach
[3] Meta-graph based recommendation fusion over heterogeneous information networks
[4] Knowledge graph embedding: A survey of approaches and applications
-
推薦系統(tǒng)
+關(guān)注
關(guān)注
1文章
43瀏覽量
10078 -
知識(shí)圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7709
原文標(biāo)題:推薦算法不夠精準(zhǔn)?讓知識(shí)圖譜來解決
文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論