摘要
知識(shí)圖譜是一種基于圖的結(jié)構(gòu)化知識(shí)表示方式。如何構(gòu)造大規(guī)模高質(zhì)量的知識(shí)圖譜, 是研究和實(shí)踐面臨的一個(gè)重要問(wèn)題。提出了一種基于互聯(lián)網(wǎng)群體智能的協(xié)同式知識(shí)圖譜構(gòu)造方法。該方法的核心是一個(gè)持續(xù)運(yùn)行的回路, 其中包含自由探索、自動(dòng)融合、主動(dòng)反饋3個(gè)活動(dòng)。在自由探索活動(dòng)中, 每一參與者獨(dú)立進(jìn)行知識(shí)圖譜的構(gòu)造活動(dòng)。在自動(dòng)融合活動(dòng)中, 所有參與者的個(gè)體知識(shí)圖譜被實(shí)時(shí)融合在一起, 形成群體知識(shí)圖譜。在主動(dòng)反饋活動(dòng)中, 支撐環(huán)境根據(jù)每一參與者的個(gè)體知識(shí)圖譜和當(dāng)前時(shí)刻的群體知識(shí)圖譜, 向該參與者推薦特定的知識(shí)圖譜片段信息, 以提高其構(gòu)造知識(shí)圖譜的效率。針對(duì)這3個(gè)活動(dòng), 建立了一種層次式的個(gè)體知識(shí)圖譜表示機(jī)制, 提出了一種以最小化廣義熵為目標(biāo)的個(gè)體知識(shí)圖譜融合算法, 設(shè)計(jì)了情境無(wú)關(guān)和情境相關(guān)兩種類型的信息反饋方式。為了驗(yàn)證所提方法及關(guān)鍵技術(shù)的可行性, 設(shè)計(jì)并實(shí)施了3種類型的實(shí)驗(yàn): 僅包含結(jié)構(gòu)信息的仿真圖融合實(shí)驗(yàn)、大規(guī)模真實(shí)知識(shí)圖譜的融合實(shí)驗(yàn), 以及真實(shí)知識(shí)圖譜的協(xié)同式構(gòu)造實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明, 該知識(shí)圖譜融合算法能夠有效利用知識(shí)圖譜的結(jié)構(gòu)信息以及節(jié)點(diǎn)的語(yǔ)義信息, 形成高質(zhì)量的知識(shí)圖譜融合方案; 基于“探索-融合-反饋”回路的協(xié)同方法能夠提升群體構(gòu)造知識(shí)圖譜的規(guī)模和個(gè)體構(gòu)造知識(shí)圖譜的效率, 并展現(xiàn)出較好的群體規(guī)??蓴U(kuò)展性。
知識(shí)圖譜(knowledge graph)是一種基于圖(graph)的結(jié)構(gòu)化知識(shí)表示方式。 一個(gè)圖通常由一組節(jié)點(diǎn)以及節(jié)點(diǎn)間的關(guān)系構(gòu)成。 采用圖的方式對(duì)知識(shí)進(jìn)行表示, 反映了一種以關(guān)系為核心的知識(shí)觀, 即知識(shí)蘊(yùn)含在關(guān)系中。
人類文明發(fā)展到目前的階段, 已經(jīng)累積形成了海量的知識(shí)資源。 其中, 相當(dāng)部分的知識(shí)以自然語(yǔ)言這種非結(jié)構(gòu)化的方式存在。 隨著人類社會(huì)的持續(xù)發(fā)展, 人類知識(shí)的規(guī)模和復(fù)雜度也在不斷增長(zhǎng)。 持續(xù)增長(zhǎng)的非結(jié)構(gòu)化知識(shí)資源對(duì)知識(shí)的管理、傳播與再生產(chǎn)的負(fù)面影響日益顯著。 通過(guò)將知識(shí)表示為一組節(jié)點(diǎn)及其之間的關(guān)系, 知識(shí)圖譜能夠幫助人類和計(jì)算機(jī)更好地管理、理解與使用海量的知識(shí)資源, 對(duì)于促進(jìn)人類文明的持續(xù)發(fā)展具有重要意義。
設(shè)想一項(xiàng)知識(shí)圖譜構(gòu)造任務(wù): 建立《紅樓夢(mèng)》一書中所有人物之間的關(guān)系圖。 粗略一想, 大概有如下幾種方式去完成這項(xiàng)任務(wù)。
一個(gè)人手工完成。 找到一本《紅樓夢(mèng)》圖書, 逐頁(yè)閱讀, 提取其中的人物及人物之間的關(guān)系信息。 可以想象, 即使是一個(gè)對(duì)紅樓夢(mèng)非常了解的人, 也需要耗費(fèi)數(shù)月甚至更長(zhǎng)的時(shí)間去完成這一任務(wù)。 即便如此, 也不能保證結(jié)果的正確性和完整性。
基于軟件算法的自動(dòng)構(gòu)造。 采用某種自然語(yǔ)言處理算法, 自動(dòng)從《紅樓夢(mèng)》的文字信息中抽取出人物關(guān)系信息。 這是一個(gè)看起來(lái)非常完美的解決方案。 但其有效性依賴于一個(gè)基本假設(shè), 即自然語(yǔ)言處理算法在該問(wèn)題上具備了相當(dāng)于(或超過(guò))人類個(gè)體的自然語(yǔ)言理解及分析能力。 目前的技術(shù)進(jìn)展還不能滿足這一假設(shè)。
基于軟件算法的自動(dòng)構(gòu)造+人工修正。 這種方式將上述兩種方式結(jié)合起來(lái), 能夠進(jìn)一步提高所構(gòu)造的知識(shí)圖譜的質(zhì)量。
幾個(gè)好友一起手工完成。 幾個(gè)好友分別閱讀《紅樓夢(mèng)》的不同章節(jié), 提取其中的人物關(guān)系信息。 與單人方式相比, 采用多人方式去完成這項(xiàng)任務(wù), 在滿足如下條件的情況下會(huì)有更高的效率: 一, 這幾個(gè)好友對(duì)紅樓夢(mèng)有一定程度的了解; 二, 這幾個(gè)好友愿意花費(fèi)一段時(shí)間全身心地投入到這項(xiàng)任務(wù)中; 三, 按照章節(jié)的方式去分工, 不會(huì)導(dǎo)致人物關(guān)系信息的大量丟失; 四, 這幾個(gè)好友具有良好的協(xié)同能力。
在互聯(lián)網(wǎng)環(huán)境下, 還有另外一種方式去完成這項(xiàng)任務(wù), 即采用協(xié)同式眾包的方式。 這種方式大概可以理解為是“幾個(gè)好友一起手工完成”在互聯(lián)網(wǎng)技術(shù)支持下的規(guī)模擴(kuò)展版本。 在互聯(lián)網(wǎng)技術(shù)的支持下, 任何個(gè)體都可以自由加入到這項(xiàng)任務(wù)中, 在其中貢獻(xiàn)自己所知道的紅樓夢(mèng)人物關(guān)系信息片段, 或?qū)ζ渌藙?chuàng)建的信息片段的正確性/準(zhǔn)確性進(jìn)行判斷; 然后, 通過(guò)某種方式將所有參與者提交的信息片段拼接在一起, 形成完整的紅樓夢(mèng)人物關(guān)系圖。 本文關(guān)注的也正是這樣一種知識(shí)圖譜構(gòu)造方式。
需要指出的是, 這種協(xié)同式眾包與目前主流的兩種眾包實(shí)踐(即競(jìng)爭(zhēng)性眾包、微任務(wù)眾包)具有一定的差異性。 首先, 協(xié)同式眾包不是競(jìng)爭(zhēng)性眾包。 所謂競(jìng)爭(zhēng)性眾包, 是指由若干團(tuán)隊(duì)各自獨(dú)立地完成一項(xiàng)任務(wù), 然后通過(guò)某種方式確定完成質(zhì)量最好的一個(gè)團(tuán)隊(duì), 向其支付酬金; 其他團(tuán)隊(duì)的工作結(jié)果不會(huì)被采納, 也不會(huì)獲得任何酬金。 而在協(xié)同式眾包中, 協(xié)同的特點(diǎn)更顯著一些, 競(jìng)爭(zhēng)的特點(diǎn)則相對(duì)微弱。 其次, 協(xié)同式眾包也不完全是微任務(wù)眾包。 所謂微任務(wù)眾包, 是指眾包任務(wù)本身就是由一組離散的微任務(wù)組成。 例如, 對(duì)于“為一個(gè)圖片庫(kù)中的所有圖片添加文字標(biāo)注”這一眾包任務(wù), 其實(shí)際上是由一組“為一個(gè)特定圖片添加文字標(biāo)注”的微任務(wù)所組成; 完成了所有的微任務(wù), 就相當(dāng)于完成了這一眾包任務(wù)。 在協(xié)同式眾包中, 可能并不存在一組事先定義的子問(wèn)題, 而是由參與者自發(fā)地識(shí)別出當(dāng)前眾包任務(wù)的子問(wèn)題并提交相應(yīng)的解決方案信息。 另外, 與微任務(wù)眾包相比, 協(xié)同式眾包還增加了信息拼接的內(nèi)容, 即需要采用某種方式把不同個(gè)體提交的片段信息拼接在一起。 相比較而言, 協(xié)同式眾包是一種更關(guān)注協(xié)同、更為智能的眾包。 在本文中, 我們將這種類型的眾包定位為一種互聯(lián)網(wǎng)群體智能, 進(jìn)而將這種構(gòu)造知識(shí)圖譜的方式稱為“基于互聯(lián)網(wǎng)群體智能的知識(shí)圖譜構(gòu)造”。
抽象而言, 本文探索采用基于互聯(lián)網(wǎng)人類群體智能的方式來(lái)構(gòu)造知識(shí)圖譜并促使其持續(xù)演化, 即通過(guò)人類個(gè)體基于互聯(lián)網(wǎng)的大規(guī)模群體協(xié)同, 來(lái)構(gòu)造和演化知識(shí)圖譜。 在該方式中, 每一人類個(gè)體都可以自由加入到知識(shí)圖譜的構(gòu)造活動(dòng)中, 在其中貢獻(xiàn)自己的力量, 形成某種形式的大規(guī)模群體協(xié)同。 該方式的可行性體現(xiàn)在3個(gè)方面。 (1) 在互聯(lián)網(wǎng)環(huán)境下, 涌現(xiàn)出了面向眾多復(fù)雜問(wèn)題求解的群體智能現(xiàn)象, 為基于群體智能的知識(shí)圖譜構(gòu)造和演化提供了參考性示例。 (2) 人類個(gè)體, 在某種意義上, 是一個(gè)天然的高質(zhì)量自然語(yǔ)言分析程序。 (3) 知識(shí)圖譜具有的圖結(jié)構(gòu), 使得知識(shí)圖譜的構(gòu)造問(wèn)題具有良好的可分解性, 使得每一參與者都可以低成本地參與到知識(shí)圖譜的構(gòu)造活動(dòng)中: 每一參與者可以把自己知道的信息轉(zhuǎn)化為相應(yīng)的知識(shí)圖譜片段; 然后自動(dòng)化算法對(duì)個(gè)體片段信息進(jìn)行拼接, 形成更為完整的知識(shí)圖譜。 這種基于群體智能的知識(shí)圖譜構(gòu)造方式, 其核心技術(shù)難點(diǎn)在于如何對(duì)大規(guī)模參與者群體提交的海量信息片段進(jìn)行有效的融合與反饋, 使得在群體層面上形成一致、準(zhǔn)確的高質(zhì)量知識(shí)圖譜。
具體而言, 本文提出了一種基于群體智能的知識(shí)圖譜構(gòu)造方法。 該方法的核心是一個(gè)持續(xù)運(yùn)行的回路(如圖 1所示), 稱為“探索-融合-反饋”[1]回路。 該回路包含了3個(gè)并行的活動(dòng): 自由探索、自動(dòng)融合、主動(dòng)反饋。 其中, 第1個(gè)活動(dòng)由人類參與者實(shí)施, 后兩個(gè)活動(dòng)由支撐環(huán)境自動(dòng)實(shí)施。 在自由探索活動(dòng)中, 每一參與知識(shí)圖譜構(gòu)造的人類個(gè)體獨(dú)立進(jìn)行知識(shí)圖譜的構(gòu)造活動(dòng), 不與其他參與者發(fā)生直接的交互。 在任一時(shí)刻, 對(duì)于每一參與者而言, 其探索活動(dòng)的輸出是一個(gè)個(gè)體知識(shí)圖譜。 在自動(dòng)融合活動(dòng)中, 支撐環(huán)境實(shí)時(shí)地將所有參與者當(dāng)前各自的探索結(jié)果融合在一起, 形成當(dāng)前時(shí)刻的群體知識(shí)圖譜。 在主動(dòng)反饋活動(dòng)中, 支撐環(huán)境根據(jù)每一參與者當(dāng)前的個(gè)體知識(shí)圖譜以及當(dāng)前的群體知識(shí)圖譜, 向該參與者推薦特定的知識(shí)圖譜片段信息, 以提高其構(gòu)造知識(shí)圖譜的效率。 每一參與者自主決定是否接受、拒絕或忽略支撐環(huán)境提供的反饋信息。 參與者對(duì)反饋信息的響應(yīng)會(huì)被記錄下來(lái), 用于評(píng)估個(gè)體的知識(shí)偏好以及群體對(duì)特定信息的接受程度。
圖 1 基于群體智能的知識(shí)圖譜構(gòu)造框
為了驗(yàn)證所提方法及關(guān)鍵技術(shù)的可行性, 我們?cè)O(shè)計(jì)并實(shí)施了3種類型的實(shí)驗(yàn): 僅包含結(jié)構(gòu)信息的仿真圖融合實(shí)驗(yàn)、大規(guī)模真實(shí)知識(shí)圖譜的融合實(shí)驗(yàn)以及真實(shí)知識(shí)圖譜的協(xié)同式構(gòu)造實(shí)驗(yàn)。 第1類實(shí)驗(yàn)的目的是為了觀察本文提出的知識(shí)圖譜融合算法對(duì)圖結(jié)構(gòu)信息的利用能力; 第2類實(shí)驗(yàn)的目的是為了驗(yàn)證算法對(duì)圖結(jié)構(gòu)信息和節(jié)點(diǎn)語(yǔ)義信息的融合能力; 第3類實(shí)驗(yàn)的目的是為了考察本文提出的協(xié)同式知識(shí)圖譜構(gòu)造方法的可行性。
為了實(shí)施第3類實(shí)驗(yàn), 我們開(kāi)發(fā)了一個(gè)支持“探索-融合-反饋”回路的多人在線知識(shí)圖譜構(gòu)造環(huán)境, 并分別在1、2、4、8人規(guī)模的參與者群體中進(jìn)行了真實(shí)的知識(shí)圖譜構(gòu)造實(shí)驗(yàn)。 實(shí)驗(yàn)結(jié)果表明: (1) 本文提出的知識(shí)圖譜融合算法能夠有效利用知識(shí)圖譜的結(jié)構(gòu)信息以及節(jié)點(diǎn)的語(yǔ)義信息, 形成高質(zhì)量的知識(shí)圖譜融合方案(在兩個(gè)真實(shí)知識(shí)圖譜融合數(shù)據(jù)集上, 相比較目前最好的知識(shí)圖譜融合算法, 本文算法在Hit@1指標(biāo)上分別實(shí)現(xiàn)了2.24%和11.4%的提升); (2) 基于“探索-融合-反饋”回路的協(xié)同方法能夠提升群體構(gòu)造知識(shí)圖譜的規(guī)模和個(gè)體構(gòu)造知識(shí)圖譜的效率, 并展現(xiàn)出較好的群體規(guī)模可擴(kuò)展性(在相同時(shí)間內(nèi), 相比較單人獨(dú)立構(gòu)造知識(shí)圖譜, 8人協(xié)同構(gòu)造形成的群體知識(shí)圖譜的規(guī)模提升了約11倍, 且參與者的單人構(gòu)造效率提升了約1.5倍)。
本文的主要貢獻(xiàn)包含如下4點(diǎn): 一種基于“探索-融合-反饋”回路的協(xié)同式知識(shí)圖譜構(gòu)造方法; 一種層次式的個(gè)體知識(shí)圖譜表示機(jī)制; 一種以最小化廣義熵為目標(biāo)的迭代式個(gè)體知識(shí)圖譜融合算法; 一個(gè)支持“探索-融合-反饋”回路的多人在線知識(shí)圖譜構(gòu)造環(huán)境。
本文第1節(jié)對(duì)知識(shí)圖譜和群體智能兩方面的相關(guān)研究工作進(jìn)行簡(jiǎn)要總結(jié)。 第2節(jié)提出基于“探索-融合-反饋”回路的協(xié)同式知識(shí)圖譜構(gòu)造方法, 并對(duì)其中的關(guān)鍵技術(shù)進(jìn)行詳細(xì)闡述。 第3節(jié)通過(guò)3類實(shí)驗(yàn)對(duì)本文所提方法和關(guān)鍵技術(shù)的可行性進(jìn)行驗(yàn)證。 第4節(jié)總結(jié)全文, 并對(duì)下一步研究工作進(jìn)行簡(jiǎn)要說(shuō)明。
1 相關(guān)工作
1.1知識(shí)圖譜的構(gòu)建
知識(shí)圖譜最早可以追溯到20世紀(jì)60年代的語(yǔ)義網(wǎng)絡(luò)(semantic network)以及20世紀(jì)70年代的專家系統(tǒng)(expert system)。 在這一時(shí)期, 領(lǐng)域?qū)<沂侵R(shí)的主要來(lái)源, 知識(shí)圖譜主要通過(guò)單一個(gè)體或小規(guī)模群體手工構(gòu)造的方式完成。 2000年左右, Tim Berners-Lee提出了語(yǔ)義網(wǎng)(semantic Web)和關(guān)聯(lián)數(shù)據(jù)(linked data)的概念[2], 其目是為互聯(lián)網(wǎng)中存在的海量數(shù)據(jù)信息提供一種標(biāo)準(zhǔn)的描述框架, 從而促成大規(guī)模知識(shí)的結(jié)構(gòu)化表示、互聯(lián)與共享。 2012年, 谷歌正式提出了知識(shí)圖譜(knowledge graph)的概念, 將其用于語(yǔ)義化搜索, 展現(xiàn)出泛在的應(yīng)用前景。 在此之后, 知識(shí)圖譜得到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。
知識(shí)圖譜在實(shí)踐和研究中的一個(gè)重要問(wèn)題是: 如何構(gòu)造大規(guī)模高質(zhì)量的知識(shí)圖譜。 目前, 知識(shí)圖譜的構(gòu)造方式大致可分為兩類: 人工構(gòu)造和自動(dòng)化構(gòu)造。
1.1.1 人工構(gòu)建
早期的知識(shí)圖譜主要依靠單一個(gè)體或小規(guī)模群體進(jìn)行人工構(gòu)造。 這一時(shí)期的典型工作包括Cyc和WordNet這兩個(gè)知識(shí)圖譜構(gòu)造項(xiàng)目。 Cyc通過(guò)手工構(gòu)造的方式將專家知識(shí)表示為一階邏輯形式[3]。 WordNet則主要依靠語(yǔ)言學(xué)專家手工輸入詞語(yǔ)之間的語(yǔ)義關(guān)系[4]。 隨著互聯(lián)網(wǎng)的普及與發(fā)展, 眾包成為一種新的知識(shí)圖譜構(gòu)造方式。 例如, Freebase項(xiàng)目采用類似維基百科的方式將知識(shí)圖譜的創(chuàng)建、修改、查看權(quán)限對(duì)外開(kāi)放, 使得互聯(lián)網(wǎng)上的任一用戶都可以自由創(chuàng)建和編輯知識(shí)圖譜[5]。 DBpedia項(xiàng)目將知識(shí)圖譜構(gòu)造任務(wù)進(jìn)行微任務(wù)化, 由大規(guī)模志愿者群體手工完成對(duì)維基百科中自然語(yǔ)言知識(shí)的結(jié)構(gòu)化表示[6]。
通過(guò)人工方式構(gòu)造形成的知識(shí)圖譜具有較高的準(zhǔn)確性、可用性和可信性。 但是, 受到構(gòu)造者個(gè)體能力的限制, 這種方式存在知識(shí)覆蓋面窄, 更新緩慢等問(wèn)題。 雖然互聯(lián)網(wǎng)眾包大大提高了知識(shí)圖譜的構(gòu)造規(guī)模, 但這種方式仍然存在對(duì)一個(gè)小規(guī)模核心專家群體的強(qiáng)依賴。 例如, 不同用戶提交的數(shù)據(jù)之間存在的不一致性, 仍然需要由社區(qū)核心成員進(jìn)行裁決[7, 8]。
1.1.2 自動(dòng)化構(gòu)造
知識(shí)圖譜的自動(dòng)化構(gòu)造算法大致可以分為基于規(guī)則和基于統(tǒng)計(jì)兩種類別。 在基于規(guī)則的構(gòu)造算法中, 需要由領(lǐng)域?qū)<沂孪冉o定適用于特定數(shù)據(jù)集的知識(shí)抽取、融合以及補(bǔ)全規(guī)則[9?12], 然后算法將這些規(guī)則應(yīng)用到特定的數(shù)據(jù)集上, 形成知識(shí)圖譜。 基于統(tǒng)計(jì)的構(gòu)造算法則自動(dòng)識(shí)別特定領(lǐng)域數(shù)據(jù)源的統(tǒng)計(jì)特征, 并自動(dòng)完成知識(shí)圖譜的構(gòu)造[13?16]。 目前, 主流的基于統(tǒng)計(jì)的自動(dòng)化構(gòu)造算法普遍采用監(jiān)督學(xué)習(xí)的方式, 依賴于事先人工標(biāo)注的大規(guī)模訓(xùn)練數(shù)據(jù)集, 且針對(duì)不同的問(wèn)題領(lǐng)域需要建立不同的訓(xùn)練數(shù)據(jù)集。 針對(duì)開(kāi)放領(lǐng)域存在的樣本數(shù)據(jù)稀疏問(wèn)題, 也有學(xué)者探索采用弱監(jiān)督學(xué)習(xí)的方式進(jìn)行知識(shí)圖譜的自動(dòng)化構(gòu)造[17, 18]。
自動(dòng)化算法在一定程度上提高了知識(shí)圖譜的構(gòu)造效率, 降低了構(gòu)造成本, 但仍然存在兩個(gè)基本問(wèn)題。 (1) 自動(dòng)化算法, 特別是采用監(jiān)督學(xué)習(xí)的知識(shí)圖譜構(gòu)造算法, 嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)集的規(guī)模和質(zhì)量。 (2) 在可以預(yù)見(jiàn)的將來(lái), 自動(dòng)化算法所具有的對(duì)一般性非結(jié)構(gòu)化知識(shí)的理解能力還遠(yuǎn)遠(yuǎn)達(dá)不到人類個(gè)體的能力, 這在很大程度上限制了自動(dòng)化算法的應(yīng)用范圍。 在谷歌搜索引擎使用的知識(shí)圖譜中, 就大量包含了Freebase項(xiàng)目中由人工方式構(gòu)造的知識(shí)譜圖信息[19, 20]。 一些研究工作也表明, 在自動(dòng)化構(gòu)造知識(shí)圖譜的過(guò)程中, 加入人類的反饋信息, 能夠明顯提升知識(shí)圖譜的構(gòu)造質(zhì)量[21?23]。
1.2 知識(shí)圖譜的表示
早期對(duì)知識(shí)表示的研究, 主要關(guān)注于建立形式化的邏輯語(yǔ)義表示機(jī)制, 從而支持對(duì)知識(shí)的有效推理。 20世紀(jì)60年代Collins等人[24]提出了語(yǔ)義網(wǎng)絡(luò)(semantic network)的概念, 試圖通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)表示實(shí)體之間的語(yǔ)義關(guān)系。 20世紀(jì)70年代興起的專家系統(tǒng)[25]提出了更為形式化的知識(shí)表示機(jī)制, 主要包括: 產(chǎn)生式表示法(production rule pepresentation), 通過(guò)IF-THEN的結(jié)構(gòu)支持知識(shí)的推理; 框架表示語(yǔ)言(frame representation language), 通過(guò)“槽”描述對(duì)象可能存在的屬性和關(guān)聯(lián); 一階邏輯(first-order logic), 支持量化和斷言的命題邏輯, 通過(guò)演算支持知識(shí)的推理。 1985年, Brachman等人[26]在KL-ONE系統(tǒng)中使用描述邏輯(description logic)對(duì)知識(shí)進(jìn)行表示, 其主要包含公理集合和斷言集合兩部分。 描述邏輯是一階邏輯的一個(gè)可判定子集, 能夠支持對(duì)一致性(consistency)、可滿足性(satisfiability)、包含檢測(cè)(subsumption)、實(shí)例檢測(cè)(instance checking)等性質(zhì)的判斷。
隨著互聯(lián)網(wǎng)的發(fā)展, 知識(shí)表示的一個(gè)重要任務(wù)是為互聯(lián)網(wǎng)中存在的海量數(shù)據(jù)信息提供一種統(tǒng)一的描述框架, 從而促進(jìn)大規(guī)模知識(shí)的結(jié)構(gòu)化表示、互聯(lián)與共享。 與早期的知識(shí)表示相比, 現(xiàn)代知識(shí)圖譜(如Freebase、Yago、Wikidata等)均弱化了對(duì)邏輯語(yǔ)義表達(dá)的要求, 而強(qiáng)調(diào)大規(guī)模的事實(shí)型知識(shí)。 其中, 資源描述框架(resource description framework, RDF)是對(duì)事實(shí)型知識(shí)的一種主流表示方式, 即通過(guò)?主語(yǔ), 謂語(yǔ), 賓語(yǔ)?三元組的形式, 表示知識(shí)圖譜中實(shí)體及其之間的關(guān)系。 同時(shí), 通過(guò)RDF范式(RDF schema)、元數(shù)據(jù)(metadata)等方式對(duì)RDF的語(yǔ)義信息進(jìn)行輕量級(jí)的描述[2]。
隨著基于深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)技術(shù)的發(fā)展, 知識(shí)的向量化表示成為一個(gè)重要研究方向。 通過(guò)知識(shí)嵌入(embedding), 將實(shí)體和關(guān)系的語(yǔ)義信息表示為對(duì)應(yīng)的向量, 實(shí)體之間的關(guān)系可以通過(guò)向量計(jì)算得到, 減少了對(duì)圖的拓?fù)浣Y(jié)構(gòu)的依賴。 知識(shí)的向量化表示能夠有效地支持大規(guī)模知識(shí)圖譜中的知識(shí)查詢和知識(shí)補(bǔ)全。 Trans系列工作是知識(shí)向量化表示的典型代表。 該系列工作基于翻譯模型, 將知識(shí)圖譜中的實(shí)體轉(zhuǎn)換為詞向量, 并將實(shí)體間的關(guān)系視作兩個(gè)實(shí)體間的翻譯關(guān)系。 在TransE方法[13]中, 源實(shí)體通過(guò)關(guān)系被直接翻譯為目標(biāo)實(shí)體, 所以當(dāng)源/目標(biāo)實(shí)體和關(guān)系確定時(shí)目標(biāo)/源實(shí)體也是確定的。 這導(dǎo)致TransE方法無(wú)法支持一個(gè)實(shí)體擁有多個(gè)同類關(guān)系的情況, 與知識(shí)圖譜的實(shí)際表達(dá)能力不符。 Wang等人提出了TransH方法[27], 以應(yīng)對(duì)實(shí)體間可能存在多種同類關(guān)系這一客觀情況。 TransH的核心思想是在翻譯過(guò)程中僅關(guān)心實(shí)體中與當(dāng)前關(guān)系相關(guān)的維度信息, 且在翻譯前需要先將實(shí)體投影到關(guān)系所在的超平面。 Lin等人提出了TransR方法[28], 其核心思想是將實(shí)體和關(guān)系建模在兩個(gè)不同的空間中, 從而減小了空間維度, 能夠在一定程度上避免過(guò)擬合問(wèn)題, 在實(shí)際數(shù)據(jù)中取得了更好的補(bǔ)全效果。
1.3 群體智能
1.3.1 自然界中的群體智能
長(zhǎng)久以來(lái), 科學(xué)家在很多社會(huì)性昆蟲群體中觀察到了一種看似矛盾的現(xiàn)象: 每一昆蟲個(gè)體不具有或僅具有有限的智能, 但一個(gè)昆蟲群體卻能在群體層次上展現(xiàn)出遠(yuǎn)超個(gè)體的智能行為。 這種在昆蟲群體層次上展現(xiàn)出的智能行為, 被稱為群體智能(swarm/collective intelligence)[29, 30]。 從群體智能現(xiàn)象中可以觀察到群體智能具有的一個(gè)基本性質(zhì), 即對(duì)個(gè)體智能的放大效果。
研究者提出了環(huán)境激發(fā)效應(yīng)[31]這一概念, 用于解釋社會(huì)性昆蟲的群體智能現(xiàn)象。 環(huán)境激發(fā)效應(yīng)指代了一種發(fā)生在昆蟲個(gè)體之間以物理環(huán)境為媒介的間接交互機(jī)制。 基于這一概念, 昆蟲群體中的群體智能現(xiàn)象通過(guò)如下過(guò)程涌現(xiàn)形成: 昆蟲個(gè)體在物理環(huán)境中留下自己的蹤跡, 或?qū)ξ锢憝h(huán)境作出某種改變; 這些蹤跡或改變被群體中的個(gè)體感知到, 并刺激這些個(gè)體在環(huán)境中留下新的蹤跡或?qū)Νh(huán)境作出進(jìn)一步的改變; 因此, 個(gè)體行為之間實(shí)現(xiàn)了有效的協(xié)同, 并形成了一個(gè)正反饋回路, 進(jìn)而在群體層次上表現(xiàn)出智能的自組織行為。 環(huán)境激發(fā)效應(yīng)解釋了群體智能具有的另外一個(gè)基本性質(zhì): 群體協(xié)同規(guī)模的可擴(kuò)展性。
物理空間中存在的群體智能現(xiàn)象指出了信息空間(cyberspace)中一種潛在的大規(guī)模人類群體協(xié)同方式[1]。 主要基于如下兩點(diǎn)原因: (1) 基于當(dāng)前的研究, 群體智能蘊(yùn)含了一種能夠有效放大個(gè)體智能的大規(guī)模群體協(xié)同機(jī)制。 (2) 與物理空間中大規(guī)模群體聚集的高成本相比, 在信息空間中更容易實(shí)現(xiàn)大規(guī)模人群的低成本聚集。 如果能夠?qū)⑷后w智能的基本原理成功應(yīng)用到信息空間中的大規(guī)模人類群體上, 實(shí)現(xiàn)對(duì)人類個(gè)體智能的有效放大, 那么, 我們認(rèn)為, 這將極大地釋放人類社會(huì)具有的潛在創(chuàng)造力, 促進(jìn)人類文明的進(jìn)一步發(fā)展[32]。
1.3.2
基于互聯(lián)網(wǎng)的人類群體智能
互聯(lián)網(wǎng)上已經(jīng)出現(xiàn)了很多人類群體智能現(xiàn)象或系統(tǒng), 為很多領(lǐng)域帶來(lái)了創(chuàng)新性的問(wèn)題求解方法。 其中, 一些群體智能現(xiàn)象/系統(tǒng)是長(zhǎng)期的社會(huì)-技術(shù)協(xié)同演化的產(chǎn)物, 另一些則是針對(duì)特定的問(wèn)題精心設(shè)計(jì)的群智化求解系統(tǒng)。 例如, 在軟件工程領(lǐng)域, 經(jīng)過(guò)數(shù)十年的演化, 開(kāi)源軟件開(kāi)發(fā)[33]已經(jīng)成為一種重要的社會(huì)-技術(shù)現(xiàn)象; 在其中, 地理分布的大規(guī)模開(kāi)發(fā)者群體通過(guò)互聯(lián)網(wǎng)進(jìn)行有效的協(xié)同, 成功開(kāi)發(fā)出數(shù)量眾多的高質(zhì)量復(fù)雜軟件應(yīng)用。 在單項(xiàng)選擇題求解領(lǐng)域, UNU系統(tǒng)[34]提供了一個(gè)有趣的多人在線環(huán)境, 可以支持一個(gè)大規(guī)模群體通過(guò)持續(xù)協(xié)同的方式確定一個(gè)單項(xiàng)選擇題的答案, 在很多實(shí)際場(chǎng)景中的預(yù)測(cè)和決策問(wèn)題上表現(xiàn)出很高的準(zhǔn)確率。 在生物學(xué)研究領(lǐng)域中, EteRNA系統(tǒng)[35]提供了一個(gè)多人在線游戲, 通過(guò)大規(guī)模非專業(yè)個(gè)體的持續(xù)協(xié)同求解復(fù)雜的蛋白質(zhì)結(jié)構(gòu)問(wèn)題。
群體智能的研究還遠(yuǎn)遠(yuǎn)落后于實(shí)踐; 現(xiàn)有的研究成果幾乎沒(méi)有對(duì)人工群體智能系統(tǒng)的構(gòu)造產(chǎn)生實(shí)質(zhì)性的影響。 目前存在的較為成功的人工群體智能系統(tǒng)都不是在任何成熟的群體智能理論的指導(dǎo)下構(gòu)造形成的。 主要原因在于, 目前的研究工作主要關(guān)注群體智能的解釋型理論(即如何解釋某一群體智能現(xiàn)象的形成機(jī)理), 而較少觸及群體智能的構(gòu)造型理論(即如何可控地構(gòu)造求解特定問(wèn)題的群體智能系統(tǒng))。 一個(gè)典型案例是環(huán)境激發(fā)效應(yīng)。 這一概念在提出時(shí)是用于解釋社會(huì)性昆蟲群體中群體智能現(xiàn)象[31], 而且近年來(lái)也被廣泛用于分析和解釋人類群體智能現(xiàn)象[36, 37]。 我們認(rèn)為, 環(huán)境激發(fā)效應(yīng)提供了一種針對(duì)群體智能的解釋性模型, 能夠?qū)σ呀?jīng)存在的群體智能現(xiàn)象進(jìn)行有效的事后分析。 但是, 這一概念能夠在何種程度上有效指導(dǎo)一個(gè)人工群體智能系統(tǒng)的構(gòu)造, 仍然需要進(jìn)一步的觀察和確認(rèn)。
2.方法
本節(jié)介紹一種基于互聯(lián)網(wǎng)群體智能的知識(shí)圖譜構(gòu)造方法。 該方法的核心是一個(gè)持續(xù)運(yùn)行的回路, 包含3個(gè)并行的活動(dòng): 自由探索、自動(dòng)融合、主動(dòng)反饋。 本節(jié)分別對(duì)這3個(gè)活動(dòng)及其中的基本概念和關(guān)鍵技術(shù)進(jìn)行說(shuō)明。
2.1 自由探索
在自由探索活動(dòng)中, 每一參與知識(shí)圖譜構(gòu)造的人類個(gè)體獨(dú)立進(jìn)行知識(shí)圖譜的構(gòu)造活動(dòng), 不與其他參與者發(fā)生直接的交互。 在任一時(shí)刻, 對(duì)于每一參與者而言, 其探索活動(dòng)的輸出是一個(gè)個(gè)體知識(shí)圖譜。
2.1.1 個(gè)體知識(shí)圖譜
個(gè)體知識(shí)圖譜的表示需要考慮兩個(gè)方面的因素。 一方面, 所采用的表示機(jī)制應(yīng)該具備有效的抽象性和良好的可擴(kuò)展性, 從而支持對(duì)不同領(lǐng)域中存在的多樣性知識(shí)片段進(jìn)行有效的建模。 另一方面, 這種表示機(jī)制應(yīng)該能夠支持算法有效識(shí)別不同知識(shí)圖譜之間的共性和差異性, 從而實(shí)現(xiàn)對(duì)群體知識(shí)的有效融合與反饋。 基于上述考慮, 我們?cè)O(shè)計(jì)了一種層次式的個(gè)體知識(shí)圖譜, 支持對(duì)二元關(guān)系、多元關(guān)系以及高階關(guān)系的統(tǒng)一標(biāo)識(shí), 且可以被方便地轉(zhuǎn)換為一種邊上帶標(biāo)簽的有向圖, 從而基于圖結(jié)構(gòu)進(jìn)行多源信息的分析、融合與反饋。
定義 1(個(gè)體知識(shí)圖譜)。 個(gè)體知識(shí)圖譜是一個(gè)五元組K?(K0, K1, K2, K3, K4)。 其每個(gè)元素的定義如下。
1. K0?(L, V, ?, ?, ?, , ?, ?, η, α): 個(gè)體知識(shí)圖譜框架, 滿足如下條件。
(a) L?{0, 1, 2, 3, 4}: 個(gè)體知識(shí)圖譜中節(jié)點(diǎn)具有的5個(gè)層次。 其中, 0、1、2、3、4分別表示道層(tao level)、元元模型層(meta-meta-model level)、元模型層(meta-model level)、模型層(model level)、實(shí)例層(instance level)。
(b) V: 個(gè)體知識(shí)圖譜的節(jié)點(diǎn)集合。
(c) ?: V→L: 層次映射函數(shù), 將個(gè)體知識(shí)圖譜節(jié)點(diǎn)映射到其所在的層次。 為方便下文敘述, 令 前者表示由V中處于i層的元素構(gòu)成的集合; 后者表示由V中所有不處于i層的元素構(gòu)成的集合。
(d) : 個(gè)體知識(shí)圖譜節(jié)點(diǎn)之間的實(shí)例化關(guān)系。 對(duì)于任何(u, v)∈?(也記為u?v), 表示v是u的一個(gè)實(shí)例, 或u是v的一個(gè)類型。 為方便下文描述, 令V(?v)?{u∈V|u?v}, 且V(u?)?{v∈V|u?v}。 前者表示由V中所有v的類型構(gòu)成的集合; 后者表示由V中所有u的實(shí)例構(gòu)成的集合(下文會(huì)根據(jù)需要將這種表示符號(hào)應(yīng)用到其他集合與二元關(guān)系上))。 實(shí)例化關(guān)系不具有自反性、對(duì)稱性、傳遞性。 對(duì)任何u?v, 有?(v)=?(u)+1成立。
(e) : 個(gè)體知識(shí)圖譜節(jié)點(diǎn)之間的一般特殊關(guān)系。 對(duì)任何(g, s)∈?(也記為g?s), 稱g是s的一般概念, 或s是g的特殊概念, 滿足: 對(duì)任何s?w, 有g(shù)?w成立。 也即一個(gè)概念的任何一個(gè)實(shí)例一定是這個(gè)概念的一般概念的實(shí)例。 對(duì)任何u, v∈∈V, 如果u?v且v?u, 則稱u, v等價(jià), 記為u=v. 一般特殊關(guān)系具有自反性、傳遞性, 但不具有對(duì)稱性。
(f) : 個(gè)體知識(shí)圖譜節(jié)點(diǎn)之間的冪集關(guān)系, 一個(gè)部分函數(shù)(partial function)。 對(duì)任何(u, v)∈ (也記為 , 稱v是u的冪概念, 滿足: 對(duì)任何v?w, 有u?w成立。 也即一個(gè)概念的冪概念的任何一個(gè)實(shí)例一定是這個(gè)概念的一個(gè)特殊概念。
(g) : 個(gè)體知識(shí)圖譜節(jié)點(diǎn)之間的并集關(guān)系, 一個(gè)部分函數(shù)。 對(duì)任何u?v∈?(也記為?(u)=v), 稱v是u的所有實(shí)例的并集, 滿足: (1) 對(duì)任何x, y∈V, 如果u?x且x?y, 則v?y成立; (2) 對(duì)任何y∈V, 如果v?y, 則存在x∈V, 有u?x且x?y成立。 也即一個(gè)概念的所有實(shí)例的并集是由這些實(shí)例的所有實(shí)例構(gòu)成的集合。
(h): 個(gè)體知識(shí)圖譜節(jié)點(diǎn)之間的交集關(guān)系, 一個(gè)部分函數(shù)。 對(duì)任何u?v∈?(也記為?(u)=v), 稱v是u的所有實(shí)例的交, 滿足: (1) 對(duì)任何x∈V, 如果對(duì)所有y∈V(u?), y?x成立, 則有v?x成立; (2) 對(duì)任何x∈V, 如果v?x, 則對(duì)任何y∈V(u?), 有y?x成立。 也即一個(gè)概念的所有實(shí)例的交集是由這些實(shí)例的共有實(shí)例構(gòu)成的集合。
(i) η: V→V(Str?): 標(biāo)識(shí)符函數(shù)。 將個(gè)體知識(shí)圖譜節(jié)點(diǎn)映射到字符串上。 Str是模型層知識(shí)圖譜的一個(gè)節(jié)點(diǎn), 表示由所有字符串構(gòu)成的集合。 該函數(shù)的主要目的是為個(gè)體知識(shí)圖譜中的每一個(gè)節(jié)點(diǎn)關(guān)聯(lián)一個(gè)人類可理解的描述信息。
(j) : 符號(hào)字面量函數(shù)。 將V中符號(hào)概念?實(shí)例的實(shí)例映射到字符串上。 符號(hào)概念?是元模型層知識(shí)圖譜的一個(gè)節(jié)點(diǎn)。 該函數(shù)的主要目的是為每一個(gè)符號(hào)概念實(shí)例的實(shí)例關(guān)聯(lián)一個(gè)對(duì)應(yīng)的字面量。 不失一般性, 令α?η。 也即一個(gè)符號(hào)的字面量即提供對(duì)該符號(hào)的一種描述信息。
2. K1?(○1, ?1): 元元模型層知識(shí)圖譜, 滿足: {○1, ?1}?V. ○1表示元元模型層的滿節(jié)點(diǎn), 滿足: (1) ?(○1)=?; (2) 對(duì)于任何v∈V(1), 有○1?v成立。 可知, 對(duì)任何1?v成立。 元素?1表示元元模型層的空節(jié)點(diǎn), 滿足: (1) ?(?1)=1; (2) 對(duì)于任何v∈V(1), 有v??1成立。 可知, 不存在v∈V(2), 使得?1?v成立。
3. K2?(○2, ?2, ⊙, ?, ?, ?): 元模型層知識(shí)圖譜, 滿足: {○2, ?2, ⊙, ?, ?, ?}?V. ○2表示元模型層的滿節(jié)點(diǎn), 滿足: (1) ?(○2)=2; (2) 對(duì)任何v∈V(2), 有○2?v成立。 可知, 對(duì)任何v∈V(3), 有○2?v成立。 ?2表示元模型層的空節(jié)點(diǎn), 滿足: (1) ?(?2)=2; (2) 對(duì)任何v∈V(2), 有v??2成立。 可知, 不存在v∈V(3), 使得?2?v成立。 ⊙、?、?、?分別表示實(shí)體概念、關(guān)系概念、角色概念、符號(hào)概念, 滿足○1?⊙, ○1??, ○1??, ○1??。
4. K3?(○3, ?3, Str, Int, ?, π, κ,
(a) (○3, ?3, Str, Int)?V. ○3表示模型層的滿節(jié)點(diǎn), 滿足: (1) ?(○3)=3; (2) 對(duì)任何v∈V(3), 有○3?v成立。 可知, 對(duì)任何v∈V(4), 有○3?v成立。 ?3表示模型層的空節(jié)點(diǎn), 滿足: (1) ?(?3)=3; (2) 對(duì)任何v∈V(3), 有3成立。 可知, 不存在v∈V(4), 使得?3?v成立。 元素Str、Int分別表示字符串、整數(shù), 滿足??Str, ??Int. 令I(lǐng)nts= (int), 也即Ints是Int的冪概念。
(b) ?: V(??)←V(??): 關(guān)系概念實(shí)例與角色概念實(shí)例之間的關(guān)聯(lián)關(guān)系。 其逆關(guān)系??1是一個(gè)函數(shù), 即任何一個(gè)角色概念實(shí)例只與一?: V(??)←V(??): 關(guān)系概念實(shí)例與角色概念實(shí)例之間的關(guān)聯(lián)關(guān)系。 其逆關(guān)系??1是一個(gè)函數(shù), 即任何一個(gè)角色概念實(shí)例只與一個(gè)關(guān)系概念實(shí)例相關(guān)。
(c) π: V(??)→V(3): 角色概念實(shí)例的承擔(dān)者函數(shù), 將一個(gè)角色概念實(shí)例映射到模型層知識(shí)圖譜的節(jié)點(diǎn)上。 其具體含義見(jiàn)實(shí)例層知識(shí)圖譜。
(d) κ: V(??)→V(Ints?): 角色概念實(shí)例的承擔(dān)者數(shù)量限制函數(shù), 將一個(gè)角色概念實(shí)例映射到一個(gè)整數(shù)集合上。 其具體含義見(jiàn)實(shí)例層知識(shí)圖譜。
(e) τ, ?, ?, ?): 關(guān)于時(shí)間點(diǎn)、時(shí)間點(diǎn)先后關(guān)系、以及時(shí)間區(qū)間的模型層知識(shí)圖譜。 其中, τ表示時(shí)間點(diǎn), 滿足??τ。 ≤τ?V(τ?)×V(τ?)表示時(shí)間點(diǎn)之間的先后關(guān)系; ≤τ是一個(gè)偏序關(guān)系(具有自反性、傳遞性, 但不具有對(duì)稱性)。 對(duì)任何(t0, t1)∈≤τ (也記為t0≤τt1), 若滿足t1≤τt0, 則稱t0和t1相等(記為t0=t1)。 ?表示時(shí)間區(qū)間, 滿足???。 ?: V(??)→V(τ?)表示一個(gè)函數(shù), 將時(shí)間區(qū)間實(shí)例映射到對(duì)應(yīng)的開(kāi)始時(shí)間點(diǎn)實(shí)例上。 ?: V(??)→V(τ?)表示一個(gè)函數(shù), 將時(shí)間區(qū)間實(shí)例映射到對(duì)應(yīng)的結(jié)束時(shí)間點(diǎn)實(shí)例上。 對(duì)任何p∈V(??), 有?(p)≤τ?(p)成立。
5. K4?(ρ, ?): 實(shí)例層知識(shí)圖譜, 滿足如下條件。
(a): 關(guān)系概念實(shí)例的實(shí)例到角色承擔(dān)者的映射函數(shù)。 對(duì)于其中的一個(gè)元素(v, r)?w, v表示一個(gè)關(guān)系概念的實(shí)例u的實(shí)例, r表示u的一個(gè)角色, w表示角色r在v上的承擔(dān)者集合, 且滿足: (1) w是π(r)的一個(gè)特殊概念; (2) w的實(shí)例的數(shù)量是κ(r)中的一個(gè)元素。 可以看到, 模型層知識(shí)圖譜中定義的角色概念實(shí)例的承擔(dān)者函數(shù)π和承擔(dān)者數(shù)量限制函數(shù)κ對(duì)ρ包含的元素進(jìn)行了限制。
(b) ?: V(4)→?: 實(shí)例層節(jié)點(diǎn)到其生命周期的映射函數(shù)。
該定義給出了一種層次式的知識(shí)圖譜, 其中包含5個(gè)層次: 道層、元元模型層、元模型層、模型層、實(shí)例層。
個(gè)體知識(shí)圖譜包含的每一個(gè)節(jié)點(diǎn)都處于且僅處于一個(gè)層次中。 相鄰層次的節(jié)點(diǎn)之間通過(guò)實(shí)例化關(guān)系相互關(guān)聯(lián)。 實(shí)例化關(guān)系的定義建立在概念外延的基礎(chǔ)上, 即將一個(gè)概念理解為由其所有實(shí)例形成的集合; 若一個(gè)元素屬于概念的外延集合, 則表明該元素是該概念的一個(gè)實(shí)例。 除實(shí)例層外(不包括實(shí)例層), 處于其他層的節(jié)點(diǎn)均是概念, 且指代了概念的外延。 個(gè)體知識(shí)圖譜還定義了概念之間的一般特殊關(guān)系、冪集關(guān)系、并集關(guān)系、交集關(guān)系。 對(duì)于個(gè)體知識(shí)圖譜中的每一個(gè)節(jié)點(diǎn), 通過(guò)標(biāo)識(shí)符函數(shù), 將該節(jié)點(diǎn)與對(duì)應(yīng)的字符串描述信息進(jìn)行關(guān)聯(lián)。 對(duì)于個(gè)體知識(shí)圖譜中的每一個(gè)節(jié)點(diǎn), 如果是符號(hào)概念?實(shí)例的實(shí)例, 則通過(guò)標(biāo)識(shí)符函數(shù)將其與對(duì)應(yīng)的字面量進(jìn)行關(guān)聯(lián)。 對(duì)于元元模型層、元模型層、以及模型層, 分別定義了若干基本節(jié)點(diǎn)以及節(jié)點(diǎn)之間的關(guān)系; 需要指出的是, 這些元素不是一個(gè)全集, 可以根據(jù)實(shí)際需要向其中添加新的元素。 實(shí)例層包含兩個(gè)函數(shù): ρ函數(shù)將關(guān)系概念?實(shí)例的實(shí)例映射到涉及角色的承擔(dān)者; ?函數(shù)將實(shí)例層節(jié)點(diǎn)映射到其生命周期。 另外, 對(duì)于道層, 由于其中包含的元素(處于元元元模型層或之上)過(guò)于抽象, 且不會(huì)對(duì)知識(shí)圖譜的構(gòu)造產(chǎn)生直接的影響, 所以我們沒(méi)有對(duì)其中的元素進(jìn)行定義。
2.1.2 個(gè)體知識(shí)圖譜的圖表示
給定個(gè)體知識(shí)圖譜K?(K0, K1, K2, K3, K4), 其圖表示(graph representation)是一個(gè)邊上帶標(biāo)簽的有向圖
基于個(gè)體知識(shí)圖譜生成對(duì)應(yīng)的圖表示的基本思想如下: 把個(gè)體知識(shí)圖譜內(nèi)置的每一種二元關(guān)系包含的每一個(gè)元素轉(zhuǎn)化為圖表示中兩個(gè)節(jié)點(diǎn)之間一條帶標(biāo)簽的有向邊; 有向邊上的標(biāo)簽即是對(duì)應(yīng)的關(guān)系名。 除此之外, 算法1還包含對(duì)兩種例外情況的處理。 (1) 對(duì)于函數(shù)?, 把其值域中的5個(gè)整數(shù)分別轉(zhuǎn)化為符號(hào)概念實(shí)例l的5個(gè)實(shí)例li, i∈L; 然后, 把?中的每個(gè)元素(v, i)轉(zhuǎn)化節(jié)點(diǎn)v和li之間一條標(biāo)簽為“l(fā)”的有向邊。 (2) 對(duì)于函數(shù)ρ中的每一個(gè)元素(v, r, w), 創(chuàng)建r的一個(gè)實(shí)例γ; 然后, 在節(jié)點(diǎn)v和γ之間建立一條標(biāo)簽為“?”的有向邊, 在節(jié)點(diǎn)γ和w之間建立一條標(biāo)簽為“ρ”的有向邊。
圖 2給出了個(gè)體知識(shí)圖譜圖表示的一個(gè)示例.
-
人工智能
+關(guān)注
關(guān)注
1792文章
47514瀏覽量
239236
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論