知識(shí)圖譜(Knowledge Graph)是人工智能的重要分支技術(shù),它在2012年由谷歌提出,成為建立大規(guī)模知識(shí)的殺手锏應(yīng)用,在搜索、自然語(yǔ)言處理、智能助手、電子商務(wù)等領(lǐng)域發(fā)揮著重要作用。知識(shí)圖譜與大數(shù)據(jù)、深度學(xué)習(xí),這三大“秘密武器”已經(jīng)成為推動(dòng)互聯(lián)網(wǎng)和人工智能發(fā)展的核心驅(qū)動(dòng)力之一。
本期我們推薦來(lái)自清華大學(xué)人工智能研究院、北京智源人工智能研究院、清華-工程院知識(shí)智能聯(lián)合研究中心聯(lián)合推出的人工智能知識(shí)圖譜報(bào)告,詳細(xì)解讀了知識(shí)圖譜的這一人工智能技術(shù)分支的概念、技術(shù)、應(yīng)用、與發(fā)展趨勢(shì)。
知識(shí)圖譜的概念與分類
知識(shí)圖譜(Knowledge Graph)于2012年由谷歌提出并成功應(yīng)用于搜索引擎當(dāng)中。它以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其之間的關(guān)系,將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。
知識(shí)圖譜的分類方式很多,例如可以通過(guò)知識(shí)種類、構(gòu)建方法等劃分。從領(lǐng)域上來(lái)說(shuō),知識(shí)圖譜通常分為兩種:通用知識(shí)圖譜、特定領(lǐng)域知識(shí)圖譜。
▲知識(shí)圖譜示意圖
常見(jiàn)的知識(shí)圖譜示意圖主要包含有三種節(jié)點(diǎn):實(shí)體、概念、屬性。
實(shí)體指的是具有可區(qū)別性且獨(dú)立存在的某種事物。如某一個(gè)人、某一座城市、某一種植物、某一件商品等等。世界萬(wàn)物由具體事物組成,此指實(shí)體。實(shí)體是知識(shí)圖譜中的最基本元素,不同的實(shí)體間存在不同的關(guān)系。
概念指的是具有同種特性的實(shí)體構(gòu)成的集合,如國(guó)家、民族、書籍、電腦等。
屬性則用于區(qū)分概念的特征,不同概念具有不同的屬性。不同的屬性值類型對(duì)應(yīng)于不同類型屬性的邊。如果屬性值對(duì)應(yīng)的是概念或?qū)嶓w,則屬性描述兩個(gè)實(shí)體之間的關(guān)系,稱為對(duì)象屬性;如果屬性值是具體的數(shù)值,則稱為數(shù)據(jù)屬性。
知識(shí)圖譜的三大典型應(yīng)用
現(xiàn)在以商業(yè)搜索引擎公司為首的互聯(lián)網(wǎng)巨頭已經(jīng)意識(shí)到知識(shí)圖譜的戰(zhàn)略意義,紛紛投入重兵布局知識(shí)圖譜,并對(duì)搜索引擎形態(tài)日益產(chǎn)生重要的影響。如何根據(jù)業(yè)務(wù)需求設(shè)計(jì)實(shí)現(xiàn)知識(shí)圖譜應(yīng)用,并基于數(shù)據(jù)特點(diǎn)進(jìn)行優(yōu)化調(diào)整,是知識(shí)圖譜應(yīng)用的關(guān)鍵研究?jī)?nèi)容。
知識(shí)圖譜的典型應(yīng)用包括語(yǔ)義搜索、智能問(wèn)答以及可視化決策支持三種。
1、語(yǔ)義搜索
當(dāng)前基于關(guān)鍵詞的搜索技術(shù)在知識(shí)圖譜的知識(shí)支持下可以上升到基于實(shí)體和關(guān)系的檢索,稱之為語(yǔ)義搜索。
語(yǔ)義搜索可以利用知識(shí)圖譜可以準(zhǔn)確地捕捉用戶搜索意圖,進(jìn)而基于知識(shí)圖譜中的知識(shí)解決傳統(tǒng)搜索中遇到的關(guān)鍵字語(yǔ)義多樣性及語(yǔ)義消歧的難題,通過(guò)實(shí)體鏈接實(shí)現(xiàn)知識(shí)與文檔的混合檢索。
語(yǔ)義檢索需要考慮如何解決自然語(yǔ)言輸入帶來(lái)的表達(dá)多樣性問(wèn)題,同時(shí)需要解決語(yǔ)言中實(shí)體的歧義性問(wèn)題。同時(shí)借助于知識(shí)圖譜,語(yǔ)義檢索需要直接給出滿足用戶搜索意圖的答案,而不是包含關(guān)鍵詞的相關(guān)網(wǎng)頁(yè)的鏈接。
2、智能問(wèn)答
問(wèn)答系統(tǒng)(Question Answering,QA)是信息服務(wù)的一種高級(jí)形式,能夠讓計(jì)算機(jī)自動(dòng)回答用戶所提出的問(wèn)題。不同于現(xiàn)有的搜索引擎,問(wèn)答系統(tǒng)返回用戶的不再是基于關(guān)鍵詞匹配的相關(guān)文檔排序,而是精準(zhǔn)的自然語(yǔ)言形式的答案。
智能問(wèn)答系統(tǒng)被看作是未來(lái)信息服務(wù)的顛覆性技術(shù)之一,亦被認(rèn)為是機(jī)器具備語(yǔ)言理解能力的主要驗(yàn)證手段之一。
智能問(wèn)答需要針對(duì)用戶輸入的自然語(yǔ)言進(jìn)行理解,從知識(shí)圖譜中或目標(biāo)數(shù)據(jù)中給出用戶問(wèn)題的答案,其關(guān)鍵技術(shù)及難點(diǎn)包括準(zhǔn)確的語(yǔ)義解析、正確理解用戶的真實(shí)意圖、以及對(duì)返回答案的評(píng)分評(píng)定以確定優(yōu)先級(jí)順序。
3、可視化決策支持
可視化決策支持是指通過(guò)提供統(tǒng)一的圖形接口,結(jié)合可視化、推理、檢索等,為用戶提供信息獲取的入口。例如,決策支持可以通過(guò)圖譜可視化技術(shù)對(duì)創(chuàng)投圖譜中的初創(chuàng)公司發(fā)展情況、投資機(jī)構(gòu)投資偏好等信息進(jìn)行解讀,通過(guò)節(jié)點(diǎn)探索、路徑發(fā)現(xiàn)、關(guān)聯(lián)探尋等可視化分析技術(shù)展示公司的全方位信息。
可視化決策支持需要考慮的關(guān)鍵問(wèn)題包括通過(guò)可視化方式輔助用戶快速發(fā)現(xiàn)業(yè)務(wù)模式、提升可視化組件的交互友好程度、以及大規(guī)模圖環(huán)境下底層算法的效率等。
通用知識(shí)圖譜與特定領(lǐng)域知識(shí)圖譜
1、通用知識(shí)圖譜
通用知識(shí)圖譜可以形象地看成一個(gè)面向通用領(lǐng)域的“結(jié)構(gòu)化的百科知識(shí)庫(kù)”,其中包含了大量的現(xiàn)實(shí)世界中的常識(shí)性知識(shí),覆蓋面極廣。由于現(xiàn)實(shí)世界的知識(shí)豐富多樣且極其龐雜,通用知識(shí)圖譜主要強(qiáng)調(diào)知識(shí)的廣度,通常運(yùn)用百科數(shù)據(jù)進(jìn)行自底向上(Top-Down)的方法進(jìn)行構(gòu)建,下圖展示的即是常識(shí)知識(shí)庫(kù)型知識(shí)圖譜。
國(guó)外的DBpedia使用固定的模式從維基百科中抽取信息實(shí)體,當(dāng)前擁有127種語(yǔ)言的超過(guò)兩千八百萬(wàn)實(shí)體以及數(shù)億RDF三元組;YAGO則整合維基百科與WordNet的大規(guī)模本體,擁有10種語(yǔ)言約459萬(wàn)個(gè)實(shí)體,2400萬(wàn)個(gè)事實(shí)。
國(guó)內(nèi)的Zhishi.me從開(kāi)放的百科數(shù)據(jù)中抽取結(jié)構(gòu)化數(shù)據(jù),當(dāng)前已融合了包括百度百科、互動(dòng)百科、中文維基三大百科的數(shù)據(jù),擁有1000萬(wàn)個(gè)實(shí)體數(shù)據(jù)、一億兩千萬(wàn)個(gè)RDF三元組。
2、領(lǐng)域知識(shí)圖譜應(yīng)用
領(lǐng)域知識(shí)圖譜常常用來(lái)輔助各種復(fù)雜的分析應(yīng)用或決策支持,在多個(gè)領(lǐng)域均有應(yīng)用,不同領(lǐng)域的構(gòu)建方案與應(yīng)用形式則有所不同。
以電商為例,電商知識(shí)圖譜以商品為核心,以人、貨、場(chǎng)為主要框架。目前共涉及9大類一級(jí)本體和27大類二級(jí)本體。
一級(jí)本體分別為:人、貨、場(chǎng)、百科知識(shí)、行業(yè)競(jìng)對(duì)、品質(zhì)、類目、資質(zhì)和輿情。人、貨、場(chǎng)構(gòu)成了商品信息流通的閉環(huán),其他本體主要給予商品更豐富的信息描述。
上圖描述了商品知識(shí)圖譜的數(shù)據(jù)模型,數(shù)據(jù)來(lái)源包含國(guó)內(nèi)-國(guó)外數(shù)據(jù),商業(yè)-國(guó)家數(shù)據(jù),線上-線下等多源數(shù)據(jù)。目前有百億級(jí)的節(jié)點(diǎn)和百億級(jí)的關(guān)系邊。
電商知識(shí)圖譜,這個(gè)商品“大腦”的一個(gè)應(yīng)用場(chǎng)景就是導(dǎo)購(gòu)。而所謂導(dǎo)購(gòu),就是讓消費(fèi)者更容易找到他想要的東西,比如說(shuō)買家輸入“我需要一件漂亮的真絲絲巾”,“商品大腦”會(huì)通過(guò)語(yǔ)法詞法分析來(lái)提取語(yǔ)義要點(diǎn)“一”、“漂亮”、“真絲”、“絲巾”這些關(guān)鍵詞,從而幫買家搜索到合適的商品。
在導(dǎo)購(gòu)中為讓發(fā)現(xiàn)更簡(jiǎn)單,“商品大腦”還學(xué)習(xí)了大量的行業(yè)規(guī)范與國(guó)家標(biāo)準(zhǔn),比如說(shuō)全棉、低糖、低嘌呤等。
此外,它還有與時(shí)俱進(jìn)的優(yōu)點(diǎn)?!吧唐反竽X”可以從公共媒體、專業(yè)社區(qū)的信息中識(shí)別出近期熱詞,跟蹤熱點(diǎn)詞的變化,由運(yùn)營(yíng)確認(rèn)是否成為熱點(diǎn)詞,這也是為什么買家在輸入斬男色、禁忌之吻、流蘇風(fēng)等熱詞后,出現(xiàn)了自己想要的商品。
最后,智能的“商品大腦”還能通過(guò)實(shí)時(shí)學(xué)習(xí)構(gòu)建出場(chǎng)景。比如輸入“海邊玩買什么”,結(jié)果就會(huì)出現(xiàn)泳衣、游泳圈、防曬霜、沙灘裙等商品。
知識(shí)工程的五個(gè)發(fā)展階段
知識(shí)圖譜技術(shù)屬于知識(shí)工程的一部分。1994年,圖靈獎(jiǎng)獲得者、知識(shí)工程的建立者費(fèi)根鮑姆給出了知識(shí)工程定義——將知識(shí)集成到計(jì)算機(jī)系統(tǒng),從而完成只有特定領(lǐng)域?qū)<也拍芡瓿傻膹?fù)雜任務(wù)。
回顧知識(shí)工程這四十多年來(lái)的發(fā)展歷程,我們可以將知識(shí)工程分成五個(gè)標(biāo)志性的階段:前知識(shí)工程時(shí)期、專家系統(tǒng)時(shí)期、萬(wàn)維網(wǎng)1.0時(shí)期、群體智能時(shí)期、以及知識(shí)圖譜時(shí)期,如下圖所示。
1)1950-1970時(shí)期:圖靈測(cè)試—知識(shí)工程誕生前期
這一階段主要有兩個(gè)方法:符號(hào)主義和連結(jié)主義。符號(hào)主義認(rèn)為物理符號(hào)系統(tǒng)是智能行為的充要條件,連結(jié)主義則認(rèn)為大腦(神經(jīng)元及其連接機(jī)制)是一切智能活動(dòng)的基礎(chǔ)。
這一時(shí)期的知識(shí)表示方法主要有邏輯知識(shí)表示、產(chǎn)生式規(guī)則、語(yǔ)義網(wǎng)絡(luò)等。
2)1970-1990時(shí)期:專家系統(tǒng)—知識(shí)工程蓬勃發(fā)展期
由于通用問(wèn)題求解強(qiáng)調(diào)利用人的求解問(wèn)題的能力建立智能系統(tǒng),但是忽略了知識(shí)對(duì)智能的支持,使人工智能難以在實(shí)際應(yīng)用中發(fā)揮作用。從70年開(kāi)始,人工智能開(kāi)始轉(zhuǎn)向建立基于知識(shí)的系統(tǒng),通過(guò)“知識(shí)庫(kù)+推理機(jī)”實(shí)現(xiàn)機(jī)器智能。
這一時(shí)期知識(shí)表示方法有新的演進(jìn),包括框架和腳本等80年代后期出現(xiàn)了很多專家系統(tǒng)的開(kāi)發(fā)平臺(tái),可以幫助將專家的領(lǐng)域知識(shí)轉(zhuǎn)變成計(jì)算機(jī)可以處理的知識(shí)。
3)1990-2000時(shí)期:萬(wàn)維網(wǎng)1.0
在1990年到2000年期間,出現(xiàn)了很多人工構(gòu)建大規(guī)模知識(shí)庫(kù),包括廣泛應(yīng)用的英文WordNet,采用一階謂詞邏輯知識(shí)表示的Cyc常識(shí)知識(shí)庫(kù),以及中文的HowNet。
Web 1.0萬(wàn)維網(wǎng)的產(chǎn)生為人們提供了一個(gè)開(kāi)放平臺(tái),使用HTML定義文本的內(nèi)容,通過(guò)超鏈接把文本連接起來(lái),使得大眾可以共享信息。W3C提出的可擴(kuò)展標(biāo)記語(yǔ)言XML,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)文檔內(nèi)容的結(jié)構(gòu)通過(guò)定義標(biāo)簽進(jìn)行標(biāo)記,為互聯(lián)網(wǎng)環(huán)境下大規(guī)模知識(shí)表示和共享奠定了基礎(chǔ)。
4)2000-2006時(shí)期:群體智能
萬(wàn)維網(wǎng)的出現(xiàn)使得知識(shí)從封閉知識(shí)走向開(kāi)放知識(shí),從集中構(gòu)建知識(shí)成為分布群體智能知識(shí)。原來(lái)專家系統(tǒng)是系統(tǒng)內(nèi)部定義的知識(shí),現(xiàn)在可以實(shí)現(xiàn)知識(shí)源之間相互鏈接,可以通過(guò)關(guān)聯(lián)來(lái)產(chǎn)生更多的知識(shí)而非完全由固定人生產(chǎn)。
這個(gè)過(guò)程中出現(xiàn)了群體智能,最典型的代表就是維基百科,實(shí)際上是用戶去建立知識(shí),體現(xiàn)了互聯(lián)網(wǎng)大眾用戶對(duì)知識(shí)的貢獻(xiàn),成為今天大規(guī)模結(jié)構(gòu)化知識(shí)圖譜的重要基礎(chǔ)。
5)2006年至今:知識(shí)圖譜—知識(shí)工程新發(fā)展時(shí)期
“知識(shí)就是力量”,將萬(wàn)維網(wǎng)內(nèi)容轉(zhuǎn)化為能夠?yàn)橹悄軕?yīng)用提供動(dòng)力的機(jī)器可理解和計(jì)算的知識(shí)是這一時(shí)期的目標(biāo)。從2006年開(kāi)始,大規(guī)模維基百科類富結(jié)構(gòu)知識(shí)資源的出現(xiàn)和網(wǎng)絡(luò)規(guī)模信息提取方法的進(jìn)步,使得大規(guī)模知識(shí)獲取方法取得了巨大進(jìn)展。
當(dāng)前自動(dòng)構(gòu)建的知識(shí)庫(kù)已成為語(yǔ)義搜索、大數(shù)據(jù)分析、智能推薦和數(shù)據(jù)集成的強(qiáng)大資產(chǎn),在大型行業(yè)和領(lǐng)域中正在得到廣泛使用。典型的例子是谷歌收購(gòu)Freebase后在2012年推出的知識(shí)圖譜(Knowledge Graph),F(xiàn)acebook的圖譜搜索,Microsoft Satori以及商業(yè)、金融、生命科學(xué)等領(lǐng)域特定的知識(shí)庫(kù)。
上表中展示的是知識(shí)圖譜領(lǐng)域10個(gè)相關(guān)重要國(guó)際學(xué)術(shù)會(huì)議,這些會(huì)議為知識(shí)圖譜領(lǐng)域的研究方向、技術(shù)趨勢(shì)與學(xué)者研究成果提供重要信息。
把知識(shí)變成圖譜一共需要花幾步?
知識(shí)圖譜技術(shù)是知識(shí)圖譜建立和應(yīng)用的技術(shù),參考中國(guó)中文信息學(xué)會(huì)語(yǔ)言與知識(shí)計(jì)算專委會(huì)發(fā)布的《知識(shí)圖譜發(fā)展報(bào)告2018年版》,本報(bào)告將知識(shí)圖譜技術(shù)分為知識(shí)表示與建模、知識(shí)獲取、知識(shí)融合、知識(shí)圖譜查詢和推理計(jì)算、知識(shí)應(yīng)用技術(shù)。
1、知識(shí)表示與建模
知識(shí)表示將現(xiàn)實(shí)世界中的各類知識(shí)表達(dá)成計(jì)算機(jī)可存儲(chǔ)和計(jì)算的結(jié)構(gòu)。機(jī)器必須要掌握大量的知識(shí),特別是常識(shí)知識(shí)才能實(shí)現(xiàn)真正類人的智能。
目前,隨著自然語(yǔ)言處理領(lǐng)域詞向量等嵌入(Embedding)技術(shù)手段的出現(xiàn),采用連續(xù)向量方式來(lái)表示知識(shí)的研究(TransE翻譯模型、SME、SLM、NTN、MLP,以及NAM神經(jīng)網(wǎng)絡(luò)模型等)正在逐漸取代與上述以符號(hào)邏輯為基礎(chǔ)知識(shí)表示方法相融合,成為現(xiàn)階段知識(shí)表示的研究熱點(diǎn)。更為重要的是,知識(shí)圖譜嵌入也通常作為一種類型的先驗(yàn)知識(shí)輔助輸入到很多深度神經(jīng)網(wǎng)絡(luò)模型中,用來(lái)約束和監(jiān)督神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程,如下圖所示。
相比于傳統(tǒng)人工智能,知識(shí)圖譜時(shí)代基于向量的知識(shí)表示方法不僅能夠以三元組為基礎(chǔ)的較為簡(jiǎn)單實(shí)用的知識(shí)表示方法滿足規(guī)?;瘮U(kuò)展的要求,還能夠作為大數(shù)據(jù)分析系統(tǒng)的重要數(shù)據(jù)基礎(chǔ),幫助這些數(shù)據(jù)更加易于與深度學(xué)習(xí)模型集成。
同時(shí),隨著以深度學(xué)習(xí)為代表的表示學(xué)習(xí)的發(fā)展,面向知識(shí)圖譜中實(shí)體和關(guān)系的表示學(xué)習(xí)也取得了重要的進(jìn)展。知識(shí)表示學(xué)習(xí)將實(shí)體和關(guān)系表示為稠密的低維向量實(shí)現(xiàn)了對(duì)實(shí)體和關(guān)系的分布式表示,已經(jīng)成為知識(shí)圖譜語(yǔ)義鏈接預(yù)測(cè)和知識(shí)補(bǔ)全的重要方法。
知識(shí)表示學(xué)習(xí)是近年來(lái)的研究熱點(diǎn),研究者提出了多種模型,學(xué)習(xí)知識(shí)庫(kù)中的實(shí)體和關(guān)系的表示。不過(guò)其中關(guān)系路徑建模工作較為初步,在關(guān)系路徑的可靠性計(jì)算、語(yǔ)義組合操作等方面還有很多細(xì)致的考察工作需要完成。
2、知識(shí)獲取
知識(shí)獲取包括了實(shí)體識(shí)別與鏈接、實(shí)體關(guān)系學(xué)習(xí)、以及事件知識(shí)學(xué)習(xí)。
1)實(shí)體識(shí)別與鏈接是知識(shí)圖譜構(gòu)建、知識(shí)補(bǔ)全與知識(shí)應(yīng)用的核心技術(shù),也是海量文本分析的核心技術(shù),為計(jì)算機(jī)類人推理和自然語(yǔ)言理解提供知識(shí)基礎(chǔ)。
實(shí)體識(shí)別是文本理解意義的基礎(chǔ),也就是識(shí)別文本中指定類別實(shí)體的過(guò)程,可以檢測(cè)文本中的新實(shí)體,并將其加入到現(xiàn)有知識(shí)庫(kù)中。
2)實(shí)體關(guān)系識(shí)別是知識(shí)圖譜自動(dòng)構(gòu)建和自然語(yǔ)言理解的基礎(chǔ)。實(shí)體關(guān)系定義為兩個(gè)或多個(gè)實(shí)體間的某種聯(lián)系,用于描述客觀存在的事物之間的關(guān)聯(lián)關(guān)系。實(shí)體關(guān)系學(xué)習(xí)就是自動(dòng)從文本中檢測(cè)和識(shí)別出實(shí)體之間具有的某種語(yǔ)義關(guān)系,也稱為關(guān)系抽取。
實(shí)體關(guān)系抽取分為預(yù)定義關(guān)系抽取和開(kāi)放關(guān)系抽取。預(yù)定義關(guān)系抽取是指系統(tǒng)所抽取的關(guān)系是預(yù)先定義好的,如上下位關(guān)系、國(guó)家—首都關(guān)系等。開(kāi)放式關(guān)系抽取不預(yù)先定義抽取的關(guān)系類別,由系統(tǒng)自動(dòng)從文本中發(fā)現(xiàn)并抽取關(guān)系。
3)事件知識(shí)學(xué)習(xí),就是將非結(jié)構(gòu)化文本中自然語(yǔ)言所表達(dá)的事件以結(jié)構(gòu)化的形式呈現(xiàn),對(duì)于知識(shí)表示、理解、計(jì)算和應(yīng)用意義重大。
事件是促使事物狀態(tài)和關(guān)系改變的條件,是動(dòng)態(tài)的、結(jié)構(gòu)化的知識(shí)。目前已存在的知識(shí)資源(如谷歌知識(shí)圖譜)所描述多是實(shí)體以及實(shí)體之間的關(guān)系,缺乏對(duì)事件知識(shí)的描述。
3、知識(shí)融合
知識(shí)圖譜可以由任何機(jī)構(gòu)和個(gè)人自由構(gòu)建,其背后的數(shù)據(jù)來(lái)源廣泛、質(zhì)量參差不齊,導(dǎo)致它們之間存在多樣性和異構(gòu)性。語(yǔ)義集成的提出就是為了能夠?qū)⒉煌闹R(shí)圖譜融合為一個(gè)統(tǒng)一、一致、簡(jiǎn)潔的形式,為使用不同知識(shí)圖譜的應(yīng)用程序間的交互建立操作性。
常用的技術(shù)包括本體匹配(也稱為本體映射)、實(shí)力匹配(也稱為實(shí)體對(duì)齊、對(duì)象公指消解)以及知識(shí)融合等。
一個(gè)語(yǔ)義集成的常見(jiàn)流程,主要包括:輸入、預(yù)處理、匹配、知識(shí)融合和輸出5個(gè)環(huán)節(jié),如上圖所示。
眾包和主動(dòng)學(xué)習(xí)等人機(jī)協(xié)作方法是目前實(shí)例匹配的研究熱點(diǎn)。這些方法雇傭普通用戶,通過(guò)付出較小的人工代價(jià)來(lái)獲得豐富的先驗(yàn)數(shù)據(jù),從而提高匹配模型的性能。
隨著表示學(xué)習(xí)技術(shù)在諸如圖像、視頻、語(yǔ)言、自然語(yǔ)言處理等領(lǐng)域的成功,一些研究人員開(kāi)始著手研究面向知識(shí)圖譜的表示學(xué)習(xí)技術(shù),將實(shí)體、關(guān)系等轉(zhuǎn)換成一個(gè)低維空間中的實(shí)質(zhì)向量(即分布式語(yǔ)義表示),并在知識(shí)圖譜補(bǔ)全、知識(shí)庫(kù)問(wèn)答等應(yīng)用中取得了不錯(cuò)的效果。
與此同時(shí),近年來(lái)強(qiáng)化學(xué)習(xí)也取得了一些列進(jìn)展,如何在語(yǔ)義集成中運(yùn)用強(qiáng)化學(xué)習(xí)逐漸成為新的動(dòng)向。
4、知識(shí)圖譜查詢和推理計(jì)算
知識(shí)圖譜以圖(Graph)的方式來(lái)展現(xiàn)實(shí)體、事件及其之間的關(guān)系。知識(shí)圖譜存儲(chǔ)和查詢研究如何設(shè)計(jì)有效的存儲(chǔ)模式支持對(duì)大規(guī)模圖數(shù)據(jù)的有效管理,實(shí)現(xiàn)對(duì)知識(shí)圖譜中知識(shí)高效查詢。
知識(shí)推理則從給定的知識(shí)圖譜推導(dǎo)出新的實(shí)體跟實(shí)體之間的關(guān)系,在知識(shí)計(jì)算中具有重要作用,如知識(shí)分類、知識(shí)校驗(yàn)、知識(shí)鏈接預(yù)測(cè)與知識(shí)補(bǔ)全等。
知識(shí)圖譜推理可以分為基于符號(hào)的推理和基于統(tǒng)計(jì)的推理。
在人工智能的研究中,基于符號(hào)的推理一般是基于經(jīng)典邏輯(一階謂詞邏輯或者命題邏輯)或者經(jīng)典邏輯的變異(比如說(shuō)缺省邏輯)?;诜?hào)的推理可以從一個(gè)已有的知識(shí)圖譜推理出新的實(shí)體間關(guān)系,可用于建立新知識(shí)或者對(duì)知識(shí)圖譜進(jìn)行邏輯的沖突檢測(cè)。
基于統(tǒng)計(jì)的方法一般指關(guān)系機(jī)器學(xué)習(xí)方法,即通過(guò)統(tǒng)計(jì)規(guī)律從知識(shí)圖譜中學(xué)習(xí)到新的實(shí)體間關(guān)系。
發(fā)展趨勢(shì)與挑戰(zhàn)
整體而言,知識(shí)圖譜領(lǐng)域的發(fā)展將會(huì)持續(xù)呈現(xiàn)特色化、開(kāi)放化、智能化的趨勢(shì),為更好發(fā)揮現(xiàn)有知識(shí)圖譜知識(shí)表達(dá)、知識(shí)資源優(yōu)勢(shì),需與其他技術(shù)(信息推薦、事理圖譜、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等)。
雖然當(dāng)下互聯(lián)網(wǎng)巨頭們已經(jīng)意識(shí)到知識(shí)圖譜的戰(zhàn)略意義,紛紛投入重兵布局知識(shí)圖譜,但是我們也強(qiáng)烈地感受到,知識(shí)圖譜還處于發(fā)展初期,大多數(shù)商業(yè)知識(shí)圖譜的應(yīng)用場(chǎng)景非常有限,例如搜狗、知立方更多聚焦在娛樂(lè)和健康等領(lǐng)域。
同時(shí),根據(jù)各搜索引擎公司提供的報(bào)告來(lái)看,為了保證知識(shí)圖譜的準(zhǔn)確率,仍然需要在知識(shí)圖譜構(gòu)建過(guò)程中采用較多的人工干預(yù)。
如何合理設(shè)計(jì)表示方案,更好地涵蓋人類復(fù)雜化、多樣化的知識(shí)?如何準(zhǔn)確、高效地從互聯(lián)網(wǎng)大數(shù)據(jù)萃取知識(shí)?如何將存在大量噪聲和冗余的知識(shí)有機(jī)融合起來(lái),建立更大規(guī)模的知識(shí)圖譜?如何有效實(shí)現(xiàn)知識(shí)圖譜的應(yīng)用,利用知識(shí)圖譜實(shí)現(xiàn)深度知識(shí)推理,提高大規(guī)模知識(shí)圖譜計(jì)算效率和應(yīng)用場(chǎng)景?
在未來(lái)的一段時(shí)間內(nèi),知識(shí)圖譜將是大數(shù)據(jù)智能的前沿研究問(wèn)題,這些重要的開(kāi)放性問(wèn)題亟待學(xué)術(shù)界和產(chǎn)業(yè)界協(xié)力解決。
下面兩圖是AMiner數(shù)據(jù)平臺(tái)繪制的知識(shí)圖譜領(lǐng)域近期與全局熱點(diǎn)詞匯。
由以上兩圖可知,知識(shí)庫(kù)、信息檢索、數(shù)據(jù)挖掘、知識(shí)表示、社會(huì)網(wǎng)絡(luò)等方向在知識(shí)圖譜領(lǐng)域的熱度長(zhǎng)盛不衰。
除此之外,信息提取、查詢應(yīng)答、問(wèn)題回答、機(jī)器學(xué)習(xí)、概率邏輯、實(shí)體消歧、實(shí)體識(shí)別、查詢處理、決策支持等方向的研究熱度在近年來(lái)逐漸上升,概念圖、搜索引擎、信息系統(tǒng)等方向的熱度逐漸消退。
在知識(shí)圖譜的驅(qū)動(dòng)下,以智能客服、智能語(yǔ)音助手等為首的AI應(yīng)用正成為首批人工智能技術(shù)落地變現(xiàn)的先鋒部隊(duì),知識(shí)圖譜也因此成為了各大人工智能與互聯(lián)網(wǎng)公司的兵家必爭(zhēng)之地,它與大數(shù)據(jù)、深度學(xué)習(xí)一起,成為推動(dòng)互聯(lián)網(wǎng)和人工智能發(fā)展的核心驅(qū)動(dòng)力之一。
不過(guò)正如報(bào)告中提到的,目前為了保證準(zhǔn)確率,知識(shí)圖譜在構(gòu)建過(guò)程中仍然需要在采用較多的人工干預(yù);同時(shí),知識(shí)圖譜還處于發(fā)展初期,商業(yè)應(yīng)用場(chǎng)景有限,有待進(jìn)一步開(kāi)拓。
-
AI
+關(guān)注
關(guān)注
87文章
31463瀏覽量
269848 -
人工智能
+關(guān)注
關(guān)注
1793文章
47622瀏覽量
239571 -
知識(shí)圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7725
原文標(biāo)題:AI人必看!89頁(yè)全網(wǎng)最全清華知識(shí)圖譜報(bào)告(附PDF)
文章出處:【微信號(hào):WUKOOAI,微信公眾號(hào):悟空智能科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論