知識(shí)圖譜的最新進(jìn)展、關(guān)鍵技術(shù)和挑戰(zhàn)
人工智能技術(shù)與咨詢?
本文來(lái)自《?工程科學(xué)學(xué)報(bào)?》,作者馬忠貴等
隨著知識(shí)的不斷積累和科學(xué)的飛速發(fā)展,人類社會(huì)進(jìn)行了多次改變社會(huì)結(jié)構(gòu)的重大生產(chǎn)力革命。最近的生產(chǎn)力革命正是由Web技術(shù)發(fā)展引發(fā)的信息革命。伴隨著Web技術(shù)不斷地演進(jìn)與發(fā)展,人類即將邁向基于知識(shí)互聯(lián)的嶄新“Web3.0”時(shí)代[1]。受語(yǔ)義網(wǎng)絡(luò)(Semantic network)和語(yǔ)義網(wǎng)(Semantic web)的啟發(fā),Google公司提出了知識(shí)圖譜(Knowledge graph)[2],目的是為了提高搜索引擎的智能能力,增強(qiáng)用戶的搜索質(zhì)量和體驗(yàn)。隨后,這一概念被傳播開(kāi)來(lái),并廣泛應(yīng)用于醫(yī)療、教育、金融、電商等行業(yè)中,推動(dòng)人工智能從感知智能向認(rèn)知智能跨越。目前,已經(jīng)涌現(xiàn)出一大批知識(shí)圖譜,其中國(guó)外具有代表性的有YAGO[3]、DBpedia[4]、Freebase[5]、NELL[6]、Probase[7]等;國(guó)內(nèi)出現(xiàn)了開(kāi)放知識(shí)圖譜項(xiàng)目OpenKG[8],中文知識(shí)圖譜CN-DBpedia[9]、zhishi.me[10]等。知識(shí)圖譜的本質(zhì)是連接實(shí)體間關(guān)系的圖,即揭示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò)[11],普遍采用資源描述框架(Resource description framework,RDF)來(lái)描述知識(shí)。知識(shí)圖譜全生命周期主要包括3種關(guān)鍵技術(shù):(1)從樣本源中獲取數(shù)據(jù),并將其表示為結(jié)構(gòu)化知識(shí)的知識(shí)抽取與表示技術(shù);(2)融合異源知識(shí)的知識(shí)融合技術(shù);(3)根據(jù)知識(shí)圖譜中已有的知識(shí)進(jìn)行知識(shí)推理和質(zhì)量評(píng)估。
近幾年,越來(lái)越多的學(xué)者將目光聚焦在了認(rèn)知智能上,知識(shí)圖譜受到越來(lái)越廣泛的關(guān)注。除了知識(shí)圖譜的技術(shù)文章爆發(fā)式增長(zhǎng)之外,綜述文章也越來(lái)越多。文獻(xiàn)[11]針對(duì)知識(shí)圖譜的相關(guān)技術(shù)進(jìn)行了全面解析,文獻(xiàn)[12-13]綜述了知識(shí)圖譜核心技術(shù)的研究進(jìn)展以及典型應(yīng)用,文獻(xiàn)[14]總結(jié)了面向知識(shí)圖譜的推理方法并展望了未來(lái)的研究方向,文獻(xiàn)[15]定義知識(shí)圖譜與本體的關(guān)系并簡(jiǎn)述了已開(kāi)發(fā)的國(guó)內(nèi)外知識(shí)圖譜。2019年年末和2020年年初,國(guó)內(nèi)有3本知識(shí)圖譜的專著問(wèn)世[16-18],我們有了寫作本論文的動(dòng)機(jī)。與已有的綜述文獻(xiàn)相比,本文的主要貢獻(xiàn)如下:梳理了知識(shí)圖譜全生命周期技術(shù),從知識(shí)抽取與表示、知識(shí)融合、知識(shí)推理、知識(shí)應(yīng)用4個(gè)層面展開(kāi)綜述,建立方法論思維。限于篇幅,針對(duì)知識(shí)圖譜的4個(gè)關(guān)鍵技術(shù)進(jìn)行了取舍,重點(diǎn)介紹了知識(shí)融合與知識(shí)推理技術(shù)的最新進(jìn)展。同時(shí),簡(jiǎn)要介紹了知識(shí)圖譜目前的挑戰(zhàn)并展望了未來(lái)的發(fā)展方向。
1.?? 知識(shí)抽取與表示
對(duì)于知識(shí)圖譜而言,首要的問(wèn)題是:如何從海量的數(shù)據(jù)提取有用信息并將得到的信息有效表示并儲(chǔ)存,就是所謂的知識(shí)抽取與表示技術(shù)。知識(shí)抽取與表示,也可以稱為信息抽取,其目標(biāo)主要是從樣本源中抽取特定種類的信息,例如實(shí)體、關(guān)系和屬性,并將這些信息通過(guò)一定形式表達(dá)并儲(chǔ)存。對(duì)于知識(shí)圖譜,一般而言采用RDF描述知識(shí),形式上將有效信息表示為(主語(yǔ),謂語(yǔ),賓語(yǔ))三元組的結(jié)構(gòu),某些文獻(xiàn)中也表示為(頭實(shí)體,關(guān)系,尾實(shí)體)的結(jié)構(gòu)。針對(duì)信息抽取種類的不同,知識(shí)抽取又可分為實(shí)體抽取、關(guān)系抽取以及屬性抽取。圖1展示了知識(shí)圖譜的技術(shù)架構(gòu)。
圖? 1? 知識(shí)圖譜的技術(shù)架構(gòu)
Figure? 1.? Architecture of the Knowledge Graph
實(shí)體抽取也稱為命名實(shí)體識(shí)別,主要目標(biāo)是從樣本源中識(shí)別出命名實(shí)體。實(shí)體是知識(shí)圖譜最基本的元素,實(shí)體抽取的完整性、準(zhǔn)確率、召回率將直接影響知識(shí)圖譜的質(zhì)量[12]。文獻(xiàn)[19]將實(shí)體抽取的方法歸納為3種:(1)基于規(guī)則與詞典的方法。通常需要為目標(biāo)實(shí)體編寫相應(yīng)的規(guī)則,然后在原始語(yǔ)料中進(jìn)行匹配,Quimbaya等[20]提出了一個(gè)基于詞典的實(shí)體抽取方法,并應(yīng)用于電子健康記錄。(2)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。主要利用數(shù)據(jù)來(lái)對(duì)模型進(jìn)行訓(xùn)練,然后再利用訓(xùn)練好的模型去識(shí)別實(shí)體,Liu等[21]將K近鄰(K-nearest neighbors,KNN)算法和線性條件隨機(jī)場(chǎng)(Conditional random fields,CRF)模型結(jié)合來(lái)識(shí)別實(shí)體。(3)面向開(kāi)放域的抽取方法。主要是針對(duì)海量網(wǎng)絡(luò)數(shù)據(jù),Jain與Pennacchiotti[22]提出通過(guò)已知實(shí)體的語(yǔ)義特征來(lái)識(shí)別命名實(shí)體,并提出實(shí)體聚類的無(wú)監(jiān)督開(kāi)放域聚類算法。Zhang與Elhadad[23]提出一個(gè)無(wú)監(jiān)督的實(shí)體抽取方法,利用術(shù)語(yǔ)、語(yǔ)料庫(kù)統(tǒng)計(jì)信息以及淺層語(yǔ)法知識(shí)從生物醫(yī)學(xué)中抽取實(shí)體。
通過(guò)實(shí)體抽取獲取的實(shí)體之間往往是離散且無(wú)關(guān)聯(lián)的。通過(guò)關(guān)系抽取,可以建立起實(shí)體間的語(yǔ)義鏈接。關(guān)系抽取技術(shù)主要分為3種:(1)基于模板的關(guān)系抽取。使用模板通過(guò)人工或者機(jī)器學(xué)習(xí)的方法抽取實(shí)體關(guān)系,雖然準(zhǔn)確率高且針對(duì)性強(qiáng),但是其也具有不適用于大規(guī)模數(shù)據(jù)集、低召回率、難以維護(hù)等缺點(diǎn)。(2)基于監(jiān)督學(xué)習(xí)的關(guān)系抽取。將大量人工標(biāo)注的數(shù)據(jù)送入模型中訓(xùn)練,劉克彬等[24]根據(jù)本體知識(shí)庫(kù)訓(xùn)練模型,在開(kāi)放數(shù)據(jù)集中對(duì)關(guān)系進(jìn)行抽取,取得了極高的準(zhǔn)確率。Sun與Han[25]提出了名為FTK(Feature-enriched tree kernel)的模型,利用設(shè)計(jì)好的有效特征訓(xùn)練,計(jì)算關(guān)系實(shí)例相似度并通過(guò)支持向量機(jī)對(duì)關(guān)系進(jìn)行分類。(3)基于半監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)的關(guān)系抽取。基于少量人工標(biāo)注數(shù)據(jù)或者無(wú)標(biāo)注數(shù)據(jù),使用最大期望(Expectation maximization)等算法的半監(jiān)督關(guān)系抽取方法進(jìn)行關(guān)系抽取。Sun與Grishman[26]提出名為L(zhǎng)GCo-Testing的主動(dòng)學(xué)習(xí)系統(tǒng),F(xiàn)u與Grishman[27]則進(jìn)一步優(yōu)化了這個(gè)系統(tǒng)。Ji等[28]提出基于句子級(jí)注意力和實(shí)體描述的神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型APCNNS。該模型實(shí)際采用了多示例學(xué)習(xí)的策略,將同一關(guān)系的樣例句子組成樣例包,關(guān)系分類是基于樣例包的特征進(jìn)行的。實(shí)驗(yàn)結(jié)果表明,該模型可以有效地提高遠(yuǎn)程監(jiān)督關(guān)系抽取的準(zhǔn)確率。在采用多示例學(xué)習(xí)策略時(shí),有可能出現(xiàn)整個(gè)樣例包都包含大量噪聲的情況。針對(duì)這一問(wèn)題,F(xiàn)eng等[29]提出了基于強(qiáng)化學(xué)習(xí)的關(guān)系分類模型CNN-RL(Convolutional neural networks and reinforcement learning),該模型包括2個(gè)重要模塊:樣例選擇器和關(guān)系分類器。實(shí)驗(yàn)結(jié)果表明:該模型獲得了比句子級(jí)卷積神經(jīng)網(wǎng)絡(luò)和樣例包級(jí)關(guān)系分類模型更好的結(jié)果。最近的工作通過(guò)強(qiáng)化學(xué)習(xí)來(lái)處理句子級(jí)的去噪,這種學(xué)習(xí)將來(lái)自遠(yuǎn)程監(jiān)督的標(biāo)簽視為事實(shí)。然而,很少有工作專注于直接校正噪聲標(biāo)簽的標(biāo)簽級(jí)降噪。Sun等[30]提出了一種基于強(qiáng)化學(xué)習(xí)的標(biāo)簽去噪方法,用于遠(yuǎn)程監(jiān)督關(guān)系提取。該模型由兩個(gè)模塊組成:抽取網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。標(biāo)簽去噪的核心是在策略網(wǎng)絡(luò)中設(shè)計(jì)一個(gè)策略來(lái)獲取潛在標(biāo)簽,可以在其中選擇使用遠(yuǎn)距離監(jiān)督標(biāo)簽或從抽取網(wǎng)絡(luò)預(yù)測(cè)標(biāo)簽的操作。實(shí)驗(yàn)結(jié)果表明,強(qiáng)化學(xué)習(xí)對(duì)于噪聲標(biāo)簽的校正是有效的,并且所提出的方法可以勝過(guò)最新的關(guān)系抽取系統(tǒng)。
屬性抽取的目標(biāo)是補(bǔ)全實(shí)體信息,通過(guò)從樣本源中獲取實(shí)體屬性信息或?qū)傩灾怠?shí)體屬性可以看作是屬性值與實(shí)體間的一種關(guān)系,因而可以通過(guò)關(guān)系抽取的解決思路來(lái)獲得。Wu與Weld[31]利用百科類網(wǎng)站的半結(jié)構(gòu)化數(shù)據(jù),訓(xùn)練抽取模型,之后將抽取模型應(yīng)用在非結(jié)構(gòu)化數(shù)據(jù)中抽取屬性。Chang等[32]提出了基于張量分解的關(guān)系抽取方法,這一方法也可以應(yīng)用在屬性抽取中,通過(guò)利用關(guān)于實(shí)體種類相應(yīng)的領(lǐng)域知識(shí)來(lái)更好地獲得實(shí)體所缺少的屬性值。
2.?? 知識(shí)融合
通過(guò)知識(shí)抽取與表示,初步獲得了數(shù)量可觀的形式化知識(shí)。由于知識(shí)來(lái)源的不同,導(dǎo)致知識(shí)的質(zhì)量參差不齊,知識(shí)之間存在著沖突或者重疊。此時(shí)初步建立的知識(shí)圖譜,知識(shí)的數(shù)量和質(zhì)量都有待提高。應(yīng)用知識(shí)融合技術(shù)對(duì)多源知識(shí)進(jìn)行處理,一方面提升知識(shí)圖譜的質(zhì)量,另一方面豐富知識(shí)的存量。Zhao等[33]對(duì)最新的知識(shí)融合進(jìn)行了綜述。早期的知識(shí)融合是通過(guò)傳統(tǒng)的數(shù)據(jù)融合方法完成,Dong等[34]比較了傳統(tǒng)的數(shù)據(jù)融合方法,選擇了幾種方法改良,并應(yīng)用到知識(shí)融合中。隨著知識(shí)圖譜的飛速發(fā)展,目前也出現(xiàn)了專門的知識(shí)融合方法。下面從實(shí)體消歧、實(shí)體對(duì)齊和知識(shí)合并3個(gè)方面進(jìn)行綜述。
2.1?? 實(shí)體消歧
對(duì)于知識(shí)圖譜中的每一個(gè)實(shí)體都應(yīng)有清晰的指向,即明確對(duì)應(yīng)某個(gè)現(xiàn)實(shí)世界中存在的事物。初步構(gòu)建的知識(shí)圖譜中,因數(shù)據(jù)來(lái)源復(fù)雜,存在著同名異義的實(shí)體。例如,名稱為“喬丹”的實(shí)體既可以指美國(guó)著名籃球運(yùn)動(dòng)員,也可以指葡萄牙足球運(yùn)動(dòng)員,還可以指某個(gè)運(yùn)動(dòng)品牌。為了確保每一個(gè)實(shí)體有明確的含義,采用實(shí)體消歧技術(shù)來(lái)使得同名實(shí)體得以區(qū)分。
利用已有的知識(shí)庫(kù)和知識(shí)圖譜中隱含的信息來(lái)幫助進(jìn)行語(yǔ)義消歧,Han與Zhao[35]提出使用維基百科(Wikipedia)作為背景知識(shí),通過(guò)利用Wikipedia的語(yǔ)義知識(shí),例如社會(huì)關(guān)系來(lái)更精確地衡量實(shí)體間的相似性,從而提升實(shí)體消歧的效果。Sen[36]提出了主題模型,利用知識(shí)庫(kù)中存在的文本信息,學(xué)習(xí)共有實(shí)體組來(lái)實(shí)現(xiàn)實(shí)體集體消歧。Guo與Barbosa[37]基于語(yǔ)義相似性的自然概念提出了兩個(gè)針對(duì)集體消歧的方法。通過(guò)在知識(shí)庫(kù)上知識(shí)子圖中隨機(jī)游走得到的概率分布來(lái)表示實(shí)體和文檔的語(yǔ)義,之后基于迭代的貪婪逼近算法和學(xué)習(xí)排序的方法來(lái)進(jìn)行實(shí)體消歧任務(wù)。Zhu與Iglesias[38]提出了基于語(yǔ)義上下文相似度的命名實(shí)體消歧方法,基于上下文和知識(shí)圖譜中實(shí)體的信息詞之間的語(yǔ)義相似度來(lái)進(jìn)行實(shí)體消歧。另外還提出了Category2Vec模型,將目錄也用嵌入向量的形式表示出來(lái)。主要思想是候選實(shí)體和上下文單詞間應(yīng)存在語(yǔ)義聯(lián)系,利用該聯(lián)系來(lái)幫助選出正確的實(shí)體。
在線百科全書(shū)由專家和網(wǎng)絡(luò)用戶編寫,有著高覆蓋率和結(jié)構(gòu)信息豐富的特點(diǎn)。Shen等[39]提出LINDEN(A framework for Linking named entities with knowledge base?via?semantic knowledge)模型,同時(shí)利用Wikipedia和WordNet,基于文本相似性和主題一致性進(jìn)行實(shí)體消歧。Ratinov等[40]提出名為GLOW(Global and local approaches of Wikipedia)的系統(tǒng),GLOW組合捕捉實(shí)體指稱與Wikipedia題目間的相關(guān)性的本地模型和選擇準(zhǔn)確歧義語(yǔ)境的方法。統(tǒng)計(jì)Wikipedia中實(shí)體的頻率作為候選實(shí)體的排序依據(jù)。Alokaili與Menai[41]提出了基于支持向量機(jī)的集成學(xué)習(xí)來(lái)解決實(shí)體消歧問(wèn)題,使用不同的支持向量機(jī)的核函數(shù)來(lái)學(xué)習(xí)不同的集成學(xué)習(xí)算法,例如bagging、boosing、voting等。具體流程是將命名實(shí)體作為輸入,根據(jù)Wikipedia中的知識(shí)生成候選實(shí)體,構(gòu)造特征向量,最后送入集成學(xué)習(xí)模塊里完成實(shí)體消歧。
值得一提的是,Agarwal等[42]提出了利用時(shí)間的實(shí)體消歧思路,通過(guò)計(jì)算實(shí)體的時(shí)序特征來(lái)和輸入的命名實(shí)體上下文的時(shí)序比較,即使命名實(shí)體的上下文提供的信息不充分也可以完成實(shí)體消歧任務(wù)。Dong[43]將基于相似度特征的隨機(jī)森林模型和基于XGBoost、基于邏輯回歸以及基于神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行比較,隨機(jī)森林模型不僅擁有極高的準(zhǔn)確率和召回率,且不像XGBoost和神經(jīng)網(wǎng)絡(luò)那樣容易受到超參數(shù)的影響,在實(shí)體消歧任務(wù)中表現(xiàn)突出。
2.2?? 實(shí)體對(duì)齊
在現(xiàn)實(shí)生活中,一個(gè)事物對(duì)應(yīng)著不止一個(gè)稱呼,例如,“中華人民共和國(guó)”和“中國(guó)”都對(duì)應(yīng)于同一個(gè)實(shí)體。在知識(shí)圖譜中也同樣存在著同義異名的實(shí)體,通過(guò)實(shí)體對(duì)齊,將這些實(shí)體指向同一客觀事物。蘇佳林等[44]提出基于決策樹(shù)的自適應(yīng)屬性選擇的實(shí)體對(duì)齊方法。通過(guò)聯(lián)合學(xué)習(xí)將實(shí)體嵌入表示在一個(gè)向量空間后,由信息增益選出最優(yōu)約束屬性,訓(xùn)練實(shí)體對(duì)齊模型,計(jì)算最優(yōu)約束屬性相似度和實(shí)體語(yǔ)義相似度完成實(shí)體對(duì)齊。
Cheng等[45]提出了一個(gè)全自動(dòng)的實(shí)體對(duì)齊框架,包括候選實(shí)體生成器、選擇器和清理器,利用搜索引擎使用者的查詢信息和查詢后的點(diǎn)擊記錄,計(jì)算出實(shí)體間的相似度,完成實(shí)體對(duì)齊任務(wù)。Pantel等[46]提出了一個(gè)大規(guī)模相似性模型,在MapReduce框架下實(shí)施并且部署了超過(guò)2000億從互聯(lián)網(wǎng)上爬取得到的單詞。通過(guò)計(jì)算5億terms得到的相似度矩陣來(lái)進(jìn)行實(shí)體對(duì)齊任務(wù)。Chakrabarti等[47]通過(guò)一個(gè)同義發(fā)現(xiàn)框架將實(shí)體相似性作為輸入生成一個(gè)滿足簡(jiǎn)單自然屬性的同義詞,提出了兩種新的相似性度量法,并通過(guò)在bing系統(tǒng)上實(shí)際應(yīng)用,發(fā)現(xiàn)可以有效識(shí)別同義詞。Mudgal等[48]綜述了基于深度學(xué)習(xí)的實(shí)體對(duì)齊方法,通過(guò)將這些方法分類,分別組合設(shè)計(jì)空間中屬性嵌入、屬性相似度表示、分類的各個(gè)方法,得到最具代表性的平滑倒詞頻(Smooth inverse frequency,SIF)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)、Attention和Hybrid共4種解決方案。
針對(duì)基于嵌入表示的實(shí)體對(duì)齊,Sun等[49]提出自舉的方法解決標(biāo)記訓(xùn)練數(shù)據(jù)不足的問(wèn)題。根據(jù)全局最優(yōu)目標(biāo)來(lái)標(biāo)記可能的對(duì)齊,并在迭代中將其加入到訓(xùn)練數(shù)據(jù)中,不斷訓(xùn)練嵌入表示模型。Guan等[50]發(fā)現(xiàn)基于監(jiān)督學(xué)習(xí)的實(shí)體對(duì)齊方法,普遍在取得標(biāo)簽數(shù)據(jù)上需要花費(fèi)大量時(shí)間,無(wú)監(jiān)督學(xué)習(xí)方法的表現(xiàn)則很大程度地依賴于驗(yàn)證集上復(fù)雜的相似度衡量方式。Zhang等[51]從實(shí)體的多視角出發(fā),利用實(shí)體的名稱、實(shí)體間的關(guān)系、實(shí)體的屬性的組合策略來(lái)學(xué)習(xí)實(shí)體的嵌入,并根據(jù)實(shí)體的表示來(lái)完成實(shí)體對(duì)齊任務(wù)。
2.3?? 知識(shí)合并
實(shí)體消歧和實(shí)體對(duì)齊更多的是關(guān)注知識(shí)圖譜中的實(shí)體,從實(shí)體層面上通過(guò)各種方法來(lái)提升知識(shí)圖譜的知識(shí)質(zhì)量。知識(shí)合并則是從知識(shí)圖譜整體層面上進(jìn)行知識(shí)的融合,基于現(xiàn)存的知識(shí)庫(kù)和知識(shí)圖譜來(lái)擴(kuò)大知識(shí)圖譜的規(guī)模,豐富其中蘊(yùn)含的知識(shí)。然而現(xiàn)存的知識(shí)庫(kù)或者知識(shí)圖譜都是各種機(jī)構(gòu)或者組織根據(jù)自己的需求設(shè)計(jì)創(chuàng)建,其中的知識(shí)也存在著多樣性和異構(gòu)性,并且存在很多知識(shí)上的重復(fù)和錯(cuò)誤,因而需要使用知識(shí)合并技術(shù)來(lái)解決這些問(wèn)題[52]。知識(shí)圖譜的合并需要解決2個(gè)層面的問(wèn)題:數(shù)據(jù)層的合并和模式層的合并[53]。知識(shí)合并過(guò)程中可能出現(xiàn)的來(lái)自兩個(gè)數(shù)據(jù)源的同一實(shí)體的屬性值卻不相同的現(xiàn)象,我們稱這種知識(shí)合并過(guò)程中出現(xiàn)的現(xiàn)象為知識(shí)沖突。針對(duì)知識(shí)沖突問(wèn)題,可以采用沖突檢測(cè)與消解以及真值發(fā)現(xiàn)等技術(shù)進(jìn)行消除,再將各個(gè)來(lái)源的知識(shí)關(guān)聯(lián)合并為一個(gè)知識(shí)圖譜。
沖突消解目前的研究方向是利用圖譜自身存在的特征,Trisedya等[54]利用屬性元組生成屬性特征嵌入向量。使用成分函數(shù)來(lái)表示屬性。將多個(gè)屬性值都轉(zhuǎn)化為單一向量,并將相似的屬性映射為相似的向量表示。利用這些屬性特征嵌入向量將兩個(gè)圖譜中的實(shí)體嵌入轉(zhuǎn)化到同一個(gè)空間中,計(jì)算實(shí)體的相似性。Chen等[55]針對(duì)多語(yǔ)言知識(shí)圖譜的合并,提出了利用實(shí)體描述的基于嵌入的半監(jiān)督跨語(yǔ)言學(xué)習(xí)方法,在一個(gè)大規(guī)模數(shù)據(jù)集上通過(guò)迭代的方式聯(lián)合訓(xùn)練一個(gè)多語(yǔ)言知識(shí)圖譜嵌入模型和一個(gè)文字描述嵌入模型,訓(xùn)練模型完成圖譜的合并。Cao等[56]提出多通道圖神經(jīng)網(wǎng)絡(luò)模型,通過(guò)多個(gè)通道將兩個(gè)知識(shí)圖譜進(jìn)行魯棒編碼。在每個(gè)通道中通過(guò)不同的關(guān)系加權(quán)方案來(lái)編碼知識(shí)圖譜,使用知識(shí)圖譜補(bǔ)全和跨知識(shí)圖譜注意力策略來(lái)分別修剪每個(gè)圖譜中的獨(dú)有實(shí)體,通過(guò)池化技術(shù)組合這些通道。
3.?? 知識(shí)推理與質(zhì)量評(píng)估
知識(shí)推理技術(shù)可以提升知識(shí)圖譜的完整性和準(zhǔn)確性。傳統(tǒng)的知識(shí)推理方法擁有極高的準(zhǔn)確率,但無(wú)法適配大規(guī)模知識(shí)圖譜。針對(duì)知識(shí)圖譜數(shù)據(jù)量大、關(guān)系復(fù)雜的特點(diǎn),提出了面向大規(guī)模知識(shí)圖譜的知識(shí)推理方法,并歸納為以下4類[14,?57]:(1)基于圖結(jié)構(gòu)和統(tǒng)計(jì)規(guī)則挖掘的推理;(2)基于知識(shí)圖譜表示學(xué)習(xí)的推理;(3)基于神經(jīng)網(wǎng)絡(luò)的推理;(4)混合推理。
3.1?? 基于圖結(jié)構(gòu)和統(tǒng)計(jì)規(guī)則挖掘的推理
受傳統(tǒng)推理地啟發(fā),基于知識(shí)圖譜的圖結(jié)構(gòu)以及挖掘蘊(yùn)藏在知識(shí)圖譜中的規(guī)則進(jìn)行推理的方法得以提出,并在知識(shí)推理任務(wù)上取得一定效果。Lao與Cohen[58]提出了路徑排序算法(Path ranking algorithm,PRA),將實(shí)體間的路徑作為特征,通過(guò)隨機(jī)行走算法來(lái)計(jì)算實(shí)體間是否存在潛在的關(guān)系。Wang等[59]設(shè)計(jì)了耦合路徑排序算法(Coupled path ranking algorithm,CPRA),并提出一種全新的逐次聚合的策略,通過(guò)這一策略使得具有強(qiáng)相關(guān)度的關(guān)系聚合在一起。使用多任務(wù)學(xué)習(xí)策略預(yù)測(cè)聚合后的關(guān)系。Xiong等[60]針對(duì)多跳關(guān)系路徑的學(xué)習(xí)提出使用強(qiáng)化學(xué)習(xí)的框架,設(shè)計(jì)了一個(gè)具有連續(xù)基于知識(shí)圖譜嵌入狀態(tài)的策略Agent,通過(guò)Agent在知識(shí)圖譜的向量空間中尋找最有潛力的關(guān)系加入路徑完成推理。
Cohen[61]針對(duì)如何將知識(shí)整合到梯度學(xué)習(xí)的系統(tǒng)的問(wèn)題,描述了一個(gè)概率演繹的數(shù)據(jù)庫(kù)Tensorlog,通過(guò)可微分的過(guò)程來(lái)進(jìn)行推理。Yang等[62]研究了基于學(xué)習(xí)一階概率邏輯規(guī)則進(jìn)行知識(shí)庫(kù)推理的問(wèn)題。受到Tensorlog的啟發(fā),提出了名為神經(jīng)邏輯規(guī)劃的框架,將一階邏輯規(guī)則的參數(shù)和結(jié)構(gòu)整合到一個(gè)端到端的可微分模型中。設(shè)計(jì)了一個(gè)帶Attention機(jī)制和存儲(chǔ)功能的神經(jīng)控制系統(tǒng)來(lái)學(xué)習(xí)組合那些用于完成推理的規(guī)則。Kampffmeyer等[63]提出深度圖傳播模型,在利用圖結(jié)構(gòu)的便利的同時(shí)解決知識(shí)過(guò)于稀疏的問(wèn)題。
3.2?? 基于知識(shí)圖譜表示學(xué)習(xí)的推理
表示模型將知識(shí)圖譜中相應(yīng)的實(shí)體和關(guān)系用向量、矩陣或者張量的形式表示,表示后進(jìn)行運(yùn)算完成知識(shí)推理任務(wù)。因其簡(jiǎn)單高效且適應(yīng)于大規(guī)模知識(shí)圖譜推理的特點(diǎn)而不斷發(fā)展。
3.2.1?? 基于距離的推理模型
Bordes等[64]提出了TransE模型,將所有的實(shí)體和關(guān)系表示為同一個(gè)空間下的向量,假設(shè)事實(shí)元組中頭實(shí)體向量和關(guān)系向量之和應(yīng)該約等于尾實(shí)體的向量。通過(guò)隨機(jī)替換事實(shí)元組中的某一項(xiàng)來(lái)構(gòu)建負(fù)例。計(jì)算元組中頭向量和關(guān)系向量的和向量與尾向量的距離作為候選實(shí)體的得分。盡管TransE模型簡(jiǎn)單且有效,但其仍然具有許多缺陷,因而衍生出很多基于該模型的方法。Wang等[65]提出TransH模型,每一個(gè)關(guān)系都有一個(gè)特定的超平面,頭實(shí)體向量和尾實(shí)體向量投影至特定的關(guān)系超平面計(jì)算事實(shí)元組得分。Lin等[66]提出TransR模型,針對(duì)特定關(guān)系引入了空間。Xiao等[67]提出了ManifoldE模型,引入了特定關(guān)系參數(shù)。尾實(shí)體向量有效范圍是以頭實(shí)體向量和關(guān)系實(shí)體向量的和向量為中心,以特定關(guān)系參數(shù)為半徑的一個(gè)超球面。Feng等[68]提出的TransF模型和ManifoldE模型有著相似的思路,放寬了TransE中對(duì)實(shí)體關(guān)系向量的要求,僅需要頭實(shí)體向量位于尾實(shí)體向量和負(fù)的關(guān)系向量的和向量的方向上,同時(shí)尾實(shí)體向量也位于頭實(shí)體向量和關(guān)系向量的和向量的方向上。
Kzaemi與Poole[69]提出SimplE模型,允許實(shí)體擁有兩個(gè)獨(dú)立學(xué)習(xí)的向量表示,而關(guān)系由一個(gè)向量表示。Ebisu與Ichise[70]提出了TorusE嵌入模型,將TransE的思想應(yīng)用在李群(Lie group)理論中的圓環(huán)面上,即在圓環(huán)面上計(jì)算表示向量間的距離來(lái)取得元組得分。Xu與Li[71]提出DihEdral模型,針對(duì)性地增強(qiáng)了知識(shí)推理的可解釋性,通過(guò)離散值將關(guān)系建模成組的元素,顯著地縮小了解空間。Sun等[72]提出RotatE模型,將關(guān)系看作是從頭實(shí)體向量向尾實(shí)體向量的旋轉(zhuǎn),元組得分通過(guò)計(jì)算旋轉(zhuǎn)后的頭實(shí)體向量和尾實(shí)體向量的距離得到Zhang等[73]引入超復(fù)數(shù)的概念,提出了QuatE模型,通過(guò)一個(gè)擁有三個(gè)虛部的超復(fù)數(shù)來(lái)表示知識(shí)圖譜中的實(shí)體和關(guān)系。與RotatE想法類似,QuatE模型將關(guān)系看作超復(fù)數(shù)平面下頭實(shí)體到尾實(shí)體的旋轉(zhuǎn)。
3.2.2?? 基于語(yǔ)義匹配的推理模型
Nickel等[74]提出的RESCAL模型將實(shí)體和向量聯(lián)系起來(lái),從而捕捉其中隱含的語(yǔ)義,潛在因子間的相互作用建模后得到關(guān)系表示矩陣,計(jì)算實(shí)體向量與關(guān)系矩陣的乘積來(lái)得到元組得分。Yang等[75]提出DistMult模型,每一個(gè)關(guān)系都表示為向量,再將向量轉(zhuǎn)化為對(duì)角矩陣,通過(guò)計(jì)算頭尾實(shí)體向量與關(guān)系對(duì)角矩陣的乘積得到元組的得分。Trouillon等[76]提出Complex模型,引入復(fù)數(shù)嵌入針對(duì)不對(duì)稱關(guān)系建模。在Complex模型中,實(shí)體和關(guān)系都由復(fù)平面中的向量表示,計(jì)算頭實(shí)體向量和根據(jù)關(guān)系向量建立的對(duì)角矩陣以及尾實(shí)體向量的共軛這三者的乘積,結(jié)果的實(shí)部作為元組的得分。Liu等[77]提出ANALOGY模型,利用實(shí)體和關(guān)系的類比性質(zhì)來(lái)建模,實(shí)體由嵌入空間中的向量表示,將關(guān)系矩陣處理得到一系列稀疏的對(duì)角矩陣,減少了關(guān)系矩陣的參數(shù)。將頭尾實(shí)體向量與關(guān)系矩陣的積作為元組得分。
Balazevic等[78]提出了基于KKT(Karush Kuhn Tucker)分解的tuckER模型,將所有實(shí)體和關(guān)系分別表示為行向量嵌入矩陣,從這兩個(gè)矩陣中取出頭尾實(shí)體向量和關(guān)系向量,將這些向量和一個(gè)核心張量相乘得到元組的得分。針對(duì)大部分現(xiàn)存的基于知識(shí)圖譜嵌入的模型,Kristiadi等[79]研究了如何將文字信息整合到現(xiàn)存的表示模型中去,提出了LiteralE模型,在實(shí)體的嵌入表示上加入文字信息,用實(shí)體表示和文字信息的聯(lián)合表示取代原本模型的單獨(dú)的實(shí)體表示。Zhang等[80]提出了CrossE模型,基于向量表示實(shí)體和關(guān)系,生成多個(gè)元組的特定嵌入即交互嵌入。由交互表示和尾實(shí)體的嵌入表示的匹配程度給出元組得分。
基于表示學(xué)習(xí)的知識(shí)推理模型的比較如表1所示。
表? 1? 部分基于表示學(xué)習(xí)的知識(shí)推理模型
Table? 1.? Some knowledge reasoning models based on representation learning
Method | Scoring function | The entity representations | The relation representation |
---|---|---|---|
TransE |
?∥h+t?r∥1/2?‖h+t?r‖1/2 |
h,t∈Rdh,t∈Rd |
r∈Rdr∈Rd |
ManifoldE |
?(∥h+t?r∥22?θ2r)2?(‖h+t?r‖22?θr2)2 |
h,t∈Rdh,t∈Rd |
r∈Rdr∈Rd |
SimplE |
12(?hei,vr,tej?+?hej,vr?1,tei?)12(?hei,vr,tej?+?hej,vr?1,tei?) |
he,te∈Rdhe,te∈Rd |
vr∈Rdvr∈Rd |
RotatE |
∥h°r?t∥‖h°r?t‖ |
h,t∈Cdh,t∈Cd |
r∈Cdr∈Cd |
QuatE |
h?r|r|?th?r|r|?t |
h,t∈Hdh,t∈Hd |
r∈Hdr∈Hd |
RESCAL |
hTMrthTMrt |
h,t∈Rdh,t∈Rd |
Mr∈Rd×dMr∈Rd×d |
DistMult |
hTdiag(r)thTdiag(r)t |
h,t∈Rdh,t∈Rd |
r∈Rdr∈Rd |
ComplEx |
Re(hTdiag(r)tˉ)Re(hTdiag(r)tˉ) |
h,t∈Cdh,t∈Cd |
r∈Cdr∈Cd |
ANALOGY |
hTMrthTMrt |
h,t∈Rdh,t∈Rd |
Mr∈Rd×dMr∈Rd×d |
CrossE |
σ(tanh(cr°h+cr°h°r+b)tT)σ(tanh(cr°h+cr°h°r+b)tT) |
h,t∈Rdh,t∈Rd |
r∈Rdr∈Rd |
3.3?? 基于神經(jīng)網(wǎng)絡(luò)的推理
基于神經(jīng)網(wǎng)絡(luò)的推理方法將知識(shí)圖譜中事實(shí)元組表示為向量形式送入神經(jīng)網(wǎng)絡(luò)中,通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)不斷提高事實(shí)元組的得分,最終通過(guò)輸出得分選擇候選實(shí)體完成推理。Socher等[81]提出適應(yīng)于實(shí)體間關(guān)系推理的神經(jīng)張量網(wǎng)絡(luò)(Neural tensor networks,NTN)模型,用雙線性張量層取代神經(jīng)網(wǎng)絡(luò)層,實(shí)體通過(guò)連續(xù)的詞向量平均表示進(jìn)而提升模型的表現(xiàn)。Neelakantan等[82]使用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)建模知識(shí)圖譜中的分布式語(yǔ)義的多跳路徑。Das等[83]主要是將符號(hào)邏輯推理中豐富的多步推理與神經(jīng)網(wǎng)絡(luò)的泛化能力相結(jié)合。通過(guò)學(xué)習(xí)實(shí)體、關(guān)系和實(shí)體的種類來(lái)聯(lián)合推理,并使用神經(jīng)注意力建模來(lái)整合多跳路徑。在單層RNN中分享參數(shù)來(lái)表示所有關(guān)系的邏輯組成。Graves等[84]建立了可微神經(jīng)計(jì)算機(jī)模型,將神經(jīng)網(wǎng)絡(luò)和記憶系統(tǒng)結(jié)合起來(lái),將通過(guò)樣本學(xué)習(xí)到的知識(shí)儲(chǔ)存起來(lái)并進(jìn)行快速知識(shí)推理。
Dettmers等[85]針對(duì)知識(shí)圖譜中大規(guī)模與過(guò)擬合的問(wèn)題,設(shè)計(jì)了參數(shù)簡(jiǎn)潔且計(jì)算高效的二維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional 2D,ConvE)模型。Vashishth等[86]基于特征排列、新的特征變形以及循環(huán)卷積提出InteractE模型。InteractE模型通過(guò)使用多種排列輸入,更簡(jiǎn)單的特征變形方法以及循環(huán)卷積來(lái)取得比ConvE更顯著的效果。
3.4?? 混合推理
對(duì)于上面的幾類知識(shí)推理的方法,各有其優(yōu)勢(shì)與缺點(diǎn),于是考慮結(jié)合多種方法的優(yōu)勢(shì)來(lái)提升推理效果,進(jìn)而提出了混合推理方法。Guo等[87]提出學(xué)習(xí)規(guī)則增強(qiáng)關(guān)系來(lái)補(bǔ)全知識(shí)圖譜的方法,使用規(guī)則來(lái)進(jìn)一步改善傳統(tǒng)關(guān)系學(xué)習(xí)得到的推理結(jié)果,提升知識(shí)推理的準(zhǔn)確性。Lu等[88]提出了基于強(qiáng)化學(xué)習(xí)建模的邏輯概率的知識(shí)表示和推理模型,同時(shí)在已知的知識(shí)和由強(qiáng)化學(xué)習(xí)整合的經(jīng)驗(yàn)上進(jìn)行推理來(lái)訓(xùn)練強(qiáng)化學(xué)習(xí)的Agent。Xie等[89]提出一種利用實(shí)體描述的知識(shí)表示學(xué)習(xí)的方法,使用了連續(xù)詞袋模型和深度卷積模型來(lái)編碼實(shí)體的描述語(yǔ)義。之后進(jìn)一步學(xué)習(xí)通過(guò)三元組和三元組中實(shí)體的描述來(lái)學(xué)習(xí)表示知識(shí)。并利用學(xué)習(xí)到的知識(shí)來(lái)完成知識(shí)推理任務(wù)。Wang[90]提出規(guī)則嵌入神經(jīng)網(wǎng)絡(luò)(The rule-embedded neural network,ReNN)。ReNN基于局部的推理檢測(cè)局部模式,由局部模式領(lǐng)域知識(shí)的規(guī)則來(lái)生成規(guī)則調(diào)制映射。針對(duì)規(guī)則引起的優(yōu)化問(wèn)題,采用兩階段優(yōu)化策略。引入規(guī)則解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)必須受限于數(shù)據(jù)集的問(wèn)題,從而提升了推理的準(zhǔn)確率。
Zhang等[91]提出了一個(gè)名為IterE的迭代學(xué)習(xí)嵌入和規(guī)則的框架,目標(biāo)是同時(shí)學(xué)習(xí)實(shí)體嵌入表示和規(guī)則,并利用它們各自的優(yōu)勢(shì)來(lái)彌補(bǔ)對(duì)方的不足。Nie與Sun[92]組合了隱形特征和圖特征的優(yōu)勢(shì)提出了一個(gè)名為文本強(qiáng)化型知識(shí)圖譜嵌入(Text-enhanced knowledge graph embedding,TKGE)的組合模型,通過(guò)實(shí)體、關(guān)系和文本來(lái)提升推理的表現(xiàn)。Guan等[93]基于一個(gè)常識(shí)圖的常識(shí)概念信息提出了一個(gè)常識(shí)伴隨的知識(shí)圖譜嵌入(Knowledge graph embedding with concepts,KEC)模型,將來(lái)自于知識(shí)圖譜的事實(shí)元組通過(guò)常識(shí)概念信息修正,從而使得模型不僅僅關(guān)注實(shí)體間的關(guān)聯(lián)性還有實(shí)體存在的常識(shí)概念。因此這個(gè)模型具有明確的語(yǔ)義性。
4類知識(shí)推理方法對(duì)比如表2所示。
表? 2? 4類知識(shí)推理方法對(duì)比
Table? 2.? Comparisons of 4 kinds of knowledge reasoning methods
Reasoning methods | Advantage | Disadvantage | Typical model |
---|---|---|---|
Knowledge reasoning based on graph structure and statistical rule mining | The advantages of graph structure and rules can significantly improve the accuracy of knowledge reasoning |
Large-scale knowledge graphs have complex graph structures and rules are not easy to obtain; noise rules can mislead knowledge reasoning |
PRA AMIE TensoLog |
Knowledge reasoning based on representation learning |
Simple and efficient, suitable for large-scale knowledge graph |
Does not consider the deeper information in the knowledge graph, which limits its accuracy of reasoning | RESCAL TransE |
Knowledge reasoning based on the neural network |
Outstanding learning ability and reasoning ability |
High complexity, huge number of parameters, and poor interpretability | NTN |
Knowledge reasoning based on hybrid methods |
Combines the advantages of several inference methods, so its performance is excellent |
Most methods are just shallow fusion, not taking full advantage of their respective methods |
TKGE |
3.5?? 質(zhì)量評(píng)估
通過(guò)質(zhì)量評(píng)估技術(shù)來(lái)對(duì)新知識(shí)進(jìn)行篩選,是構(gòu)建知識(shí)圖譜中必不可少的環(huán)節(jié)。Mendes等[94]提出了Sieve,用于簡(jiǎn)化生成高質(zhì)量數(shù)據(jù)的任務(wù),并整合進(jìn)了鏈接數(shù)據(jù)整合框架(Linked data integration framework,LDIF)中,包括一個(gè)質(zhì)量評(píng)估模型和一個(gè)數(shù)據(jù)融合模型。質(zhì)量評(píng)估主要利用用戶選擇的質(zhì)量因子,通過(guò)用戶配置的得分函數(shù)生成質(zhì)量得分。數(shù)據(jù)融合使用質(zhì)量得分來(lái)處理用戶設(shè)置的沖突消解任務(wù)。Fader等[95]基于來(lái)自網(wǎng)絡(luò)或Wikipedia的1000個(gè)句子中人工標(biāo)注的實(shí)例來(lái)訓(xùn)練ReVerb系統(tǒng)的置信函數(shù),通過(guò)一個(gè)邏輯回歸分類器來(lái)評(píng)估每一個(gè)通過(guò)ReVerb系統(tǒng)抽取得到的實(shí)例的置信度。Google的Knowledge vault項(xiàng)目[96],通過(guò)統(tǒng)計(jì)全球網(wǎng)絡(luò)中抽取數(shù)據(jù)的頻率作為評(píng)估信息可信度的依據(jù),并通過(guò)已有知識(shí)庫(kù)中的知識(shí)來(lái)修正可信度,這一方法有效降低了評(píng)估數(shù)據(jù)結(jié)果的不確定性,從而提升了知識(shí)的質(zhì)量水平。Tan等[97]提出了一個(gè)名為CQUAL(Contribution quality predictor)的方法來(lái)自動(dòng)預(yù)測(cè)用戶提交至知識(shí)庫(kù)的知識(shí)的質(zhì)量,主要依據(jù)提交用戶的領(lǐng)域、提交歷史、以及歷史準(zhǔn)確率等數(shù)據(jù)。實(shí)驗(yàn)表明這一方法擁有很高的準(zhǔn)確率和召回率。
4.?? 知識(shí)圖譜應(yīng)用
知識(shí)圖譜技術(shù)提出之后,因其具有的語(yǔ)義處理和開(kāi)放互聯(lián)的能力,以及其簡(jiǎn)潔靈活的表達(dá)方式等優(yōu)勢(shì),受到了廣泛關(guān)注。知識(shí)圖譜技術(shù)的發(fā)展得益于自然語(yǔ)言處理、互聯(lián)網(wǎng)等技術(shù)的發(fā)展,而不斷完善的知識(shí)圖譜技術(shù)也可以應(yīng)用到自然語(yǔ)言處理、智能問(wèn)答系統(tǒng)、智能推薦系統(tǒng)等技術(shù)中,進(jìn)一步促進(jìn)這些技術(shù)的發(fā)展,而這些技術(shù)以及知識(shí)圖譜技術(shù)又可以進(jìn)一步應(yīng)用在諸如醫(yī)療、金融、電商等垂直行業(yè)或領(lǐng)域內(nèi),幫助促進(jìn)行業(yè)發(fā)展[16-17]。
構(gòu)建完備的知識(shí)圖譜可以幫助自然語(yǔ)言理解技術(shù)發(fā)展。針對(duì)文本分類問(wèn)題,Wang等[98]首先利用知識(shí)庫(kù)中的知識(shí)將短文本概念化,獲得短文本的嵌入表示后送入卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類。Lagon等[99]提出了知識(shí)圖譜語(yǔ)言模型,一種擁有從知識(shí)圖譜中選擇和復(fù)制知識(shí)的神經(jīng)語(yǔ)言模型。
智能問(wèn)答系統(tǒng)可以依靠知識(shí)圖譜中的知識(shí)來(lái)回答查詢。Bauer等[100]利用關(guān)系路徑從常識(shí)網(wǎng)絡(luò)中獲取背景常識(shí)知識(shí),之后利用多注意力機(jī)制完成多跳推理并通過(guò)一個(gè)指針生成譯碼器來(lái)合成問(wèn)題的答案。朱宗奎等[101]針對(duì)中文知識(shí)圖譜問(wèn)答系統(tǒng),將BERT(Bidirectional encoder representations from transformers)模型和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合,之后通過(guò)條件隨機(jī)場(chǎng)模型來(lái)預(yù)測(cè)字符標(biāo)簽,從而識(shí)別出問(wèn)題中的實(shí)體并鏈接到知識(shí)網(wǎng)絡(luò)中,最后完成答案的搜索。
知識(shí)圖譜可作為外部信息整合至推薦系統(tǒng)中,使得推薦系統(tǒng)獲得推理能力。通過(guò)利用知識(shí)圖譜中諸如實(shí)體、關(guān)系的信息,許多研究進(jìn)一步基于嵌入正則化來(lái)提升推薦效果。Wang等[102]將圖注意網(wǎng)絡(luò)應(yīng)用于實(shí)體–關(guān)系和用戶–物品圖的協(xié)作知識(shí)圖譜上,提出了名為知識(shí)圖譜注意力網(wǎng)絡(luò)的模型,在端到端的模式下通過(guò)嵌入傳播和基于注意的聚合對(duì)建模知識(shí)圖譜中的高階連通性建模。
在垂直行業(yè)或領(lǐng)域內(nèi),知識(shí)圖譜已開(kāi)始應(yīng)用。在醫(yī)療領(lǐng)域,通過(guò)提供更加精確規(guī)范的行業(yè)數(shù)據(jù)以及更加豐富的表達(dá),幫助非行業(yè)相關(guān)人員獲取醫(yī)療知識(shí)的同時(shí)也幫助行業(yè)人員更直觀快捷獲取所需醫(yī)療知識(shí)。在金融領(lǐng)域,借助知識(shí)圖譜檢測(cè)數(shù)據(jù)的不一致性,來(lái)識(shí)別潛在的欺詐風(fēng)險(xiǎn)。同時(shí),利用知識(shí)圖譜技術(shù)分析招股書(shū)、年報(bào)、公司公告等金融報(bào)告,建立公司和人物的關(guān)系,在此基礎(chǔ)上做更進(jìn)一步的研究和更優(yōu)的決策。在電商領(lǐng)域,阿里巴巴已經(jīng)通過(guò)應(yīng)用知識(shí)圖譜,建立商品間的關(guān)聯(lián)信息,為用戶提供更全面的商品信息和更智能化的推薦,從而提升用戶的購(gòu)物服務(wù)與體驗(yàn)。同時(shí),知識(shí)圖譜也在教育、科研、軍事等領(lǐng)域中廣泛應(yīng)用。
5.?? 知識(shí)圖譜在知識(shí)融合、推理與應(yīng)用中的挑戰(zhàn)與展望
自谷歌提出知識(shí)圖譜概念至今,這項(xiàng)技術(shù)一直受到廣泛的關(guān)注。隨著深度學(xué)習(xí)、自然語(yǔ)言處理等相關(guān)領(lǐng)域的發(fā)展,知識(shí)圖譜的研究熱度不斷增加。不可忽略的是,知識(shí)圖譜發(fā)展至今,知識(shí)融合、知識(shí)推理等知識(shí)圖譜關(guān)鍵技術(shù)以及知識(shí)圖譜的應(yīng)用仍面臨許多挑戰(zhàn)。
知識(shí)融合技術(shù)是知識(shí)圖譜的關(guān)鍵技術(shù)之一。知識(shí)融合主要任務(wù)是將新獲得的知識(shí)融入知識(shí)圖譜中。保證知識(shí)圖譜知識(shí)準(zhǔn)確率的前提下高效地引入新知識(shí),是知識(shí)融合的關(guān)鍵。存在的挑戰(zhàn)如下:(1)為了保證融合后知識(shí)圖譜的質(zhì)量,首先要提升知識(shí)評(píng)估的能力?,F(xiàn)存的知識(shí)評(píng)估方法大都是針對(duì)靜態(tài)知識(shí)進(jìn)行評(píng)估,缺少動(dòng)態(tài)知識(shí)評(píng)估手段是目前知識(shí)評(píng)估面臨的一大挑戰(zhàn)。(2)要解決由自然語(yǔ)言的特殊性引發(fā)的知識(shí)冗余和缺失問(wèn)題。當(dāng)知識(shí)圖譜不能準(zhǔn)確將具有同義異名的實(shí)體對(duì)齊或?qū)⑼惲x的實(shí)體消歧就會(huì)導(dǎo)致知識(shí)圖譜中出現(xiàn)知識(shí)冗余或缺失。(3)目前,因自然語(yǔ)言的復(fù)雜性,在單一語(yǔ)言的背景下實(shí)體對(duì)齊和實(shí)體消歧的準(zhǔn)確率仍然有待提高,針對(duì)多語(yǔ)言實(shí)體對(duì)齊或消歧更是一大挑戰(zhàn)。
知識(shí)推理技術(shù)也是知識(shí)圖譜的關(guān)鍵技術(shù)之一,通過(guò)已知的知識(shí)推理獲得新知識(shí)來(lái)完善知識(shí)圖譜。存在的挑戰(zhàn)如下:(1)知識(shí)推理的主要對(duì)象多是二元關(guān)系,通常處理多元關(guān)系的方法是將其拆分為二元關(guān)系進(jìn)行推理,然而將多元關(guān)系拆分會(huì)損失結(jié)構(gòu)信息,如何盡可能完整地利用多元關(guān)系中復(fù)雜的隱含信息推理是知識(shí)推理的一大挑戰(zhàn)。(2)現(xiàn)有的知識(shí)推理往往都是基于大量高質(zhì)量的數(shù)據(jù)集訓(xùn)練推理模型,在相應(yīng)的測(cè)試集中測(cè)試優(yōu)化模型來(lái)完成推理。除了數(shù)據(jù)集獲取成本高的問(wèn)題,通過(guò)數(shù)據(jù)集訓(xùn)練的模型的泛化能力也極為有限,而現(xiàn)實(shí)世界中人類通過(guò)少量樣本學(xué)習(xí)即可完成推理。如何模仿人腦機(jī)制實(shí)現(xiàn)小樣本或零樣本學(xué)習(xí)知識(shí)推理也是一大挑戰(zhàn)。(3)知識(shí)圖譜中知識(shí)的有效性往往受到時(shí)間空間等動(dòng)態(tài)因素約束,如何合理利用知識(shí)的動(dòng)態(tài)約束信息完成動(dòng)態(tài)推理也是知識(shí)推理的一大挑戰(zhàn)。
知識(shí)的表達(dá)、存儲(chǔ)與查詢將是貫穿知識(shí)圖譜應(yīng)用始終的問(wèn)題。存在的挑戰(zhàn)如下:(1)目前,應(yīng)用在行業(yè)領(lǐng)域的知識(shí)圖譜因?yàn)楹艽蟪潭壬弦蕾嚾斯さ膮⑴c構(gòu)建,成本高昂。大多數(shù)研究工作主要針對(duì)知識(shí)圖譜的半自動(dòng)構(gòu)建[103],如何自動(dòng)構(gòu)建高質(zhì)量知識(shí)圖譜是知識(shí)圖譜應(yīng)用所面臨的一大挑戰(zhàn)。(2)知識(shí)擁有指導(dǎo)功能,利用知識(shí)圖譜中的知識(shí)引導(dǎo)機(jī)器學(xué)習(xí)中的數(shù)據(jù)學(xué)習(xí),從而降低數(shù)據(jù)依賴打破數(shù)據(jù)紅利損耗殆盡后的僵局,是知識(shí)圖譜應(yīng)用面臨的一大挑戰(zhàn)。(3)利用人類易懂的符號(hào)化知識(shí)圖譜,解釋各類機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)的過(guò)程,補(bǔ)足其在可解釋性方面的短板,也是知識(shí)圖譜應(yīng)用面臨的一大挑戰(zhàn)。(4)未來(lái),能否應(yīng)用知識(shí)圖譜中的知識(shí),作為已知的經(jīng)驗(yàn),通過(guò)訓(xùn)練構(gòu)建人工智能層面上的心智模型,同樣是知識(shí)圖譜應(yīng)用的一大挑戰(zhàn)。
知識(shí)圖譜意在模仿人類的認(rèn)知方式,構(gòu)建屬于機(jī)器的知識(shí)庫(kù),是實(shí)現(xiàn)機(jī)器認(rèn)知智能的關(guān)鍵技術(shù),也是網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代中利用大數(shù)據(jù)的關(guān)鍵技術(shù)。本文從知識(shí)圖譜構(gòu)建過(guò)程中的關(guān)鍵技術(shù)出發(fā),簡(jiǎn)略研究了知識(shí)的抽取與表示,重點(diǎn)分析了知識(shí)融合和知識(shí)推理技術(shù)的研究成果。然而眾多研究成果實(shí)用性不強(qiáng),知識(shí)圖譜雖然已經(jīng)出現(xiàn)了諸如Magi[104]這樣的理論實(shí)踐者,但距離知識(shí)圖譜成為機(jī)器大腦知識(shí)庫(kù)、實(shí)現(xiàn)機(jī)器認(rèn)知智能的終極目標(biāo)還有不小的距離。未來(lái)的研究中,基于網(wǎng)絡(luò)數(shù)據(jù)自動(dòng)構(gòu)建的知識(shí)圖譜將成為主流。因而需要進(jìn)一步提高知識(shí)抽取、知識(shí)融合和知識(shí)推理技術(shù)的準(zhǔn)確性,確保獲取知識(shí)的質(zhì)量;同時(shí)提高這些技術(shù)的效率,從而保證面對(duì)大規(guī)模數(shù)據(jù)量級(jí)時(shí)的實(shí)用性。同時(shí),知識(shí)圖譜雖然已經(jīng)在公安情報(bào)分析、反金融欺詐等實(shí)際問(wèn)題中開(kāi)始應(yīng)用,但是其具有的巨大潛力仍有待挖掘,如何將知識(shí)圖譜技術(shù)應(yīng)用在生活中的各個(gè)方面,也將是未來(lái)的主要研究方向。除此之外,目前存在著的大量知識(shí)圖譜,大多有著結(jié)構(gòu)或者語(yǔ)言上的差異,這種差異增大了知識(shí)圖譜應(yīng)用的難度,制定行業(yè)規(guī)范、整合各個(gè)知識(shí)圖譜、構(gòu)建通用知識(shí)圖譜,也是未來(lái)知識(shí)圖譜研究的方向之一。
?【轉(zhuǎn)載聲明】轉(zhuǎn)載目的在于傳遞更多信息。如涉及作品版權(quán)和其它問(wèn)題,請(qǐng)?jiān)?0日內(nèi)與本號(hào)聯(lián)系,我們將在第一時(shí)間刪除!
編輯:fqj
評(píng)論
查看更多