0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是知識圖譜?人工智能世界知識圖譜的發(fā)展

恬靜簡樸1 ? 來源:恬靜簡樸1 ? 作者:恬靜簡樸1 ? 2022-06-01 19:54 ? 次閱讀

1.1 什么是知識圖譜

知識圖譜是一種用圖模型來描述知識和建模世界萬物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法[1]。知識圖譜由節(jié)點(diǎn)和邊組成。節(jié)點(diǎn)可以是實(shí)體,如一個人、一本書等,或是抽象的概念,如人工智能、知識圖譜等。邊可以是實(shí)體的屬性,如姓名、書名,或是實(shí)體之間的關(guān)系,如朋友、配偶。知識圖譜的早期理念來自Semantic Web[2,3](語義網(wǎng)),其最初理想是把基于文本鏈接的萬維網(wǎng)轉(zhuǎn)化成基于實(shí)體鏈接的語義網(wǎng)。

1989年,Tim Berners-Lee 提出構(gòu)建一個全球化的以“鏈接”為中心的信息系統(tǒng)(Linked Information System)。任何人都可以通過添加鏈接把自己的文檔鏈入其中。他認(rèn)為,相比基于樹的層次化組織方式,以鏈接為中心和基于圖的組織方式更加適合互聯(lián)網(wǎng)這種開放的系統(tǒng)。這一思想逐步被人們實(shí)現(xiàn),并演化發(fā)展成為今天的World Wide Web。

1994年,Tim Berners-Lee 又提出 Web 不應(yīng)該僅僅只是網(wǎng)頁之間的互相鏈接。實(shí)際上,網(wǎng)頁中描述的都是現(xiàn)實(shí)世界中的實(shí)體和人腦中的概念。網(wǎng)頁之間的鏈接實(shí)際包含語義,即這些實(shí)體或概念之間的關(guān)系;然而,機(jī)器卻無法有效地從網(wǎng)頁中識別出其中蘊(yùn)含的語義。他于1998年提出了Semantic Web的概念[4]。Semantic Web仍然基于圖和鏈接的組織方式,只是圖中的節(jié)點(diǎn)代表的不只是網(wǎng)頁,而是客觀世界中的實(shí)體(如人、機(jī)構(gòu)、地點(diǎn)等),而超鏈接也被增加了語義描述,具體標(biāo)明實(shí)體之間的關(guān)系(如出生地是、創(chuàng)辦人是等)。相對于傳統(tǒng)的網(wǎng)頁互聯(lián)網(wǎng),Semantic Web的本質(zhì)是數(shù)據(jù)的互聯(lián)網(wǎng)(Web of Data)或事物的互聯(lián)網(wǎng)(Web of Things)。

在 Semantic Web 被提出之后,出現(xiàn)了一大批新興的語義知識庫。如作為谷歌知識圖譜后端的Freebase[5],作為IBM Waston后端的DBpedia[6]和Yago[7],作為Amazon Alexa后端的True Knowledge,作為蘋果Siri后端的Wolfram Alpha,以及開放的Semantic Web Schema——Schema.ORG[8],目標(biāo)成為世界最大開放知識庫的Wikidata[9]等。尤其值得一提的是,2010年谷歌收購了早期語義網(wǎng)公司 MetaWeb,并以其開發(fā)的 Freebase 作為數(shù)據(jù)基礎(chǔ)之一,于2012年正式推出了稱為知識圖譜的搜索引擎服務(wù)。隨后,知識圖譜逐步在語義搜索[10,11]、智能問答[12-14]、輔助語言理解[15,16]、輔助大數(shù)據(jù)分析[17-19]、增強(qiáng)機(jī)器學(xué)習(xí)的可解釋性[20]、結(jié)合圖卷積輔助圖像分類[21,22]等多個領(lǐng)域發(fā)揮出越來越重要的作用。

如圖1-1所示,知識圖譜旨在從數(shù)據(jù)中識別、發(fā)現(xiàn)和推斷事物與概念之間的復(fù)雜關(guān)系,是事物關(guān)系的可計算模型。知識圖譜的構(gòu)建涉及知識建模、關(guān)系抽取、圖存儲、關(guān)系推理、實(shí)體融合等多方面的技術(shù),而知識圖譜的應(yīng)用則涉及語義搜索、智能問答、語言理解、決策分析等多個領(lǐng)域。構(gòu)建并利用好知識圖譜需要系統(tǒng)性地利用包括知識表示(Knowledge Representation)、圖數(shù)據(jù)庫、自然語言處理、機(jī)器學(xué)習(xí)等多方面的技術(shù)。

poYBAGKXU1yAcGzcAADMII-G7sI02.jpeg

圖1-1 知識圖譜:事物關(guān)系的可計算模型

1.2 知識圖譜的發(fā)展歷史

知識圖譜并非突然出現(xiàn)的新技術(shù),而是歷史上很多相關(guān)技術(shù)相互影響和繼承發(fā)展的結(jié)果,包括語義網(wǎng)絡(luò)、知識表示、本體論、Semantic Web、自然語言處理等,有著來自Web、人工智能和自然語言處理等多方面的技術(shù)基因。從早期的人工智能發(fā)展歷史來看, Semantic Web是傳統(tǒng)人工智能與Web融合發(fā)展的結(jié)果,是知識表示與推理在Web中的應(yīng)用;RDF(Resource Description Framework,資源描述框架)、OWL(Web Ontology Language,網(wǎng)絡(luò)本體語言)都是面向 Web 設(shè)計實(shí)現(xiàn)的標(biāo)準(zhǔn)化的知識表示語言;而知識圖譜則可以看作是Semantic Web的一種簡化后的商業(yè)實(shí)現(xiàn),如圖1-2所示。

pYYBAGKXU1yAA9iiAAFFCUfRji895.jpeg

圖1-2 從語義網(wǎng)絡(luò)到知識圖譜

在人工智能的早期發(fā)展流派中,符號派(Symbolism)側(cè)重于模擬人的心智,研究怎樣用計算機(jī)符號表示人腦中的知識并模擬心智的推理過程;連接派(Connectionism)側(cè)重于模擬人腦的生理結(jié)構(gòu),即人工神經(jīng)網(wǎng)絡(luò)。符號派一直以來都處于人工智能研究的核心位置。近年來,隨著數(shù)據(jù)的大量積累和計算能力的大幅提升,深度學(xué)習(xí)在視覺、聽覺等感知處理中取得突破性進(jìn)展,進(jìn)而又在圍棋等博弈類游戲、機(jī)器翻譯等領(lǐng)域獲得成功,使得人工神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)獲得了人工智能研究的核心地位。深度學(xué)習(xí)在處理感知、識別和判斷等方面表現(xiàn)突出,能幫助構(gòu)建聰明的人工智能,但在模擬人的思考過程、處理常識知識和推理,以及理解人的語言方面仍然舉步維艱。

哲學(xué)家柏拉圖把知識(Knowledge)定義為“Justified True Belief”,即知識需要滿足三個核心要素:合理性(Justified)、真實(shí)性(True)和被相信(Believed)。簡而言之,知識是人類通過觀察、學(xué)習(xí)和思考有關(guān)客觀世界的各種現(xiàn)象而獲得并總結(jié)出的所有事實(shí)(Fact)、概念(Concept)、規(guī)則(Rule)或原則(Principle)的集合。人類發(fā)明了各種手段來描述、表示和傳承知識,如自然語言、繪畫、音樂、數(shù)學(xué)語言、物理模型、化學(xué)公式等。具有獲取、表示和處理知識的能力是人類心智區(qū)別于其他物種心智的重要特征。人工智能的核心也是研究怎樣用計算機(jī)易于處理的方式表示、學(xué)習(xí)和處理各種各樣的知識。知識表示是現(xiàn)實(shí)世界的可計算模型(Computable Model of Reality)。從廣義上講,神經(jīng)網(wǎng)絡(luò)也是一種知識表示形式,如圖1-3所示。

poYBAGKXU16AO_1eAAB3gOY6Ym458.jpeg

圖1-3 知識圖譜幫助構(gòu)建有學(xué)識的人工智能

符號派關(guān)注的核心正是知識的表示和推理(KRR,Knowledge Representation and Reasoning)。早在1960年,認(rèn)知科學(xué)家 Allan M.Collins 提出用語義網(wǎng)絡(luò)(Semantic Network)研究人腦的語義記憶。例如,WordNet[23]是典型的語義網(wǎng)絡(luò),它定義了名詞、動詞、形容詞和副詞之間的語義關(guān)系。WordNet被廣泛應(yīng)用于語義消歧等自然語言處理領(lǐng)域。

1970年,隨著專家系統(tǒng)的提出和商業(yè)化發(fā)展,知識庫(Knowledge Base)構(gòu)建和知識表示更加得到重視。專家系統(tǒng)的基本想法是:專家是基于大腦中的知識來進(jìn)行決策的,因此人工智能的核心應(yīng)該是用計算機(jī)符號表示這些知識,并通過推理機(jī)模仿人腦對知識進(jìn)行處理。依據(jù)專家系統(tǒng)的觀點(diǎn),計算機(jī)系統(tǒng)應(yīng)該由知識庫和推理機(jī)兩部分組成,而不是由函數(shù)等過程性代碼組成。早期的專家系統(tǒng)最常用的知識表示方法包括基于框架的語言(Frame-based Languages)和產(chǎn)生式規(guī)則(Production Rules)等??蚣苷Z言主要用于描述客觀世界的類別、個體、屬性及關(guān)系等,較多地被應(yīng)用于輔助自然語言理解。產(chǎn)生式規(guī)則主要用于描述類似于IF-THEN的邏輯結(jié)構(gòu),適合于刻畫過程性知識。

知識圖譜與傳統(tǒng)專家系統(tǒng)時代的知識工程有著顯著的不同。與傳統(tǒng)專家系統(tǒng)時代主要依靠專家手工獲取知識不同,現(xiàn)代知識圖譜的顯著特點(diǎn)是規(guī)模巨大,無法單一依靠人工和專家構(gòu)建。如圖1-4所示,傳統(tǒng)的知識庫,如Douglas Lenat從1984年開始創(chuàng)建的常識知識庫 Cyc,僅包含700萬條[1]的事實(shí)描述(Assertion)。Wordnet 主要依靠語言學(xué)專家定義名詞、動詞、形容詞和副詞之間的語義關(guān)系,目前包含大約20萬條的語義關(guān)系。由著名人工智能專家 Marvin Minsky于1999年起開始構(gòu)建的 ConceptNet[24]常識知識庫依靠了互聯(lián)網(wǎng)眾包、專家創(chuàng)建和游戲三種方法,但早期的 ConceptNet 規(guī)模在百萬級別,最新的ConceptNet 5.0也僅包含2800萬個RDF三元組關(guān)系描述。谷歌和百度等現(xiàn)代知識圖譜都已經(jīng)包含超過千億級別的三元組,阿里巴巴于2017年8月發(fā)布的僅包含核心商品數(shù)據(jù)的知識圖譜也已經(jīng)達(dá)到百億級別。DBpedia已經(jīng)包含約30億個RDF三元組,多語種的大百科語義網(wǎng)絡(luò)BabelNet包含19億個RDF三元組[25],Yago3.0包含1.3億個元組,Wikidata已經(jīng)包含4265萬條數(shù)據(jù)條目,元組數(shù)目也已經(jīng)達(dá)到數(shù)十億級別。截至目前,開放鏈接數(shù)據(jù)項目Linked Open Data[2]統(tǒng)計了其中有效的2973個數(shù)據(jù)集,總計包含大約1494億個三元組。

現(xiàn)代知識圖譜對知識規(guī)模的要求源于“知識完備性”難題。馮·諾依曼曾估計單個個體大腦的全量知識需要2.4×1020個bits存儲[26]。客觀世界擁有不計其數(shù)的實(shí)體,人的主觀世界還包含無法統(tǒng)計的概念,這些實(shí)體和概念之間又具有更多數(shù)量的復(fù)雜關(guān)系,導(dǎo)致大多數(shù)知識圖譜都面臨知識不完全的困境。在實(shí)際的領(lǐng)域應(yīng)用場景中,知識不完全也是困擾大多數(shù)語義搜索、智能問答、知識輔助的決策分析系統(tǒng)的首要難題。

pYYBAGKXU16AflWBAADcT7n4gn054.jpeg

圖1-4 現(xiàn)代知識圖譜的規(guī)模化發(fā)展

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1800

    文章

    48097

    瀏覽量

    242233
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5527

    瀏覽量

    121893
  • 知識圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7793
收藏 人收藏

    評論

    相關(guān)推薦

    淵亭KGAG升級引入“高級策略推理”

    為了突破現(xiàn)有AI技術(shù)在決策推理方面的局限,淵亭科技對其知識圖譜分析平臺KGAG進(jìn)行了最新升級,創(chuàng)新性地引入了“高級策略推理”模式。這一模式的引入,實(shí)現(xiàn)了“大模型×知識圖譜×專家策略×動態(tài)推理”的深度
    的頭像 發(fā)表于 02-14 15:07 ?249次閱讀

    微軟發(fā)布《GraphRAG實(shí)踐應(yīng)用白皮書》助力開發(fā)者

    近日,微軟針對開發(fā)者群體,重磅推出了《GraphRAG實(shí)踐應(yīng)用白皮書》。該白皮書全面而深入地涵蓋了知識圖譜的核心內(nèi)容,為開發(fā)者和企業(yè)提供了寶貴的指導(dǎo)和啟示。 從知識圖譜的基礎(chǔ)概念出發(fā),白皮書詳細(xì)闡述
    的頭像 發(fā)表于 01-13 16:11 ?546次閱讀

    利智方:驅(qū)動企業(yè)知識管理與AI創(chuàng)新加速的平臺

    利智方致力于深度整合企業(yè)知識資產(chǎn),全面打通知識生命周期的各個環(huán)節(jié)。通過構(gòu)建強(qiáng)大的知識庫和精準(zhǔn)的知識圖譜,支持快速定制和部署各類AI應(yīng)用,為企業(yè)創(chuàng)新發(fā)
    的頭像 發(fā)表于 12-30 11:07 ?560次閱讀

    傳音旗下人工智能項目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項目獎”一等獎

    和華東師范大學(xué)聯(lián)合申報的“跨語言知識圖譜構(gòu)建與推理技術(shù)研究及應(yīng)用”項目憑借創(chuàng)新性和技術(shù)先進(jìn)性榮獲一等獎。該項目成功突破了多形態(tài)信息抽取技術(shù)、跨語言知識圖譜對齊技術(shù)和知識問答對
    的頭像 發(fā)表于 12-16 17:04 ?440次閱讀
    傳音旗下<b class='flag-5'>人工智能</b>項目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項目獎”一等獎

    光譜看譜鏡分析圖譜

    火電廠材質(zhì)分析看譜鏡圖譜
    發(fā)表于 12-06 15:02 ?0次下載

    軟通動力入選《人工智能數(shù)據(jù)標(biāo)注產(chǎn)業(yè)圖譜

    近日,由中國信息通信研究院、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟牽頭,聯(lián)合中國電信集團(tuán)、沈陽市數(shù)據(jù)局、保定高新區(qū)等70多家單位編制完成并發(fā)布了《人工智能數(shù)據(jù)標(biāo)注產(chǎn)業(yè)圖譜》。
    的頭像 發(fā)表于 12-03 10:18 ?267次閱讀

    嵌入式和人工智能究竟是什么關(guān)系?

    領(lǐng)域,如工業(yè)控制、智能家居、醫(yī)療設(shè)備等。 人工智能是計算機(jī)科學(xué)的一個分支,它研究如何使計算機(jī)具備像人類一樣思考、學(xué)習(xí)、推理和決策的能力。人工智能發(fā)展歷程可以追溯到上世紀(jì)50年代,經(jīng)
    發(fā)表于 11-14 16:39

    58大新質(zhì)生產(chǎn)力產(chǎn)業(yè)鏈圖譜

    大躍升 的先進(jìn)生產(chǎn)力。 58大新質(zhì)生產(chǎn)力產(chǎn)業(yè)鏈圖譜 01 元宇宙產(chǎn)業(yè)圖譜 02 算力產(chǎn)業(yè)圖譜 03 數(shù)商產(chǎn)業(yè)圖譜 04 人形機(jī)器人產(chǎn)業(yè)圖譜
    的頭像 發(fā)表于 11-09 10:16 ?541次閱讀
    58大新質(zhì)生產(chǎn)力產(chǎn)業(yè)鏈<b class='flag-5'>圖譜</b>

    三星自主研發(fā)知識圖譜技術(shù),強(qiáng)化Galaxy AI用戶體驗與數(shù)據(jù)安全

    據(jù)外媒11月7日報道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識圖譜技術(shù),旨在進(jìn)一步優(yōu)化Galaxy AI的功能,提升其易用性,并加強(qiáng)用戶數(shù)據(jù)的隱私保護(hù)。
    的頭像 發(fā)表于 11-07 15:19 ?1062次閱讀

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    探討了人工智能如何通過技術(shù)創(chuàng)新推動能源科學(xué)的進(jìn)步,為未來的可持續(xù)發(fā)展提供了強(qiáng)大的支持。 首先,書中通過深入淺出的語言,介紹了人工智能在能源領(lǐng)域的基本概念和技術(shù)原理。這使得我對人工智能
    發(fā)表于 10-14 09:27

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新

    活的世界? 編輯推薦 《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》聚焦于人工智能與材料科學(xué)、生命科學(xué)、電子科學(xué)、能源科學(xué)、環(huán)境科學(xué)五大領(lǐng)域的交叉融合,通過深入淺出的語言和諸多實(shí)際應(yīng)用案例,介紹了
    發(fā)表于 09-09 13:54

    三星電子將收購英國知識圖譜技術(shù)初創(chuàng)企業(yè)

    人工智能技術(shù)日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術(shù)創(chuàng)新實(shí)力。近日,三星正式宣布完成了對英國領(lǐng)先的人工智能(AI)與知識圖譜技術(shù)初創(chuàng)企業(yè)Oxford Semantic Technologies的收購,此舉
    的頭像 發(fā)表于 07-18 14:46 ?618次閱讀

    知識圖譜與大模型之間的關(guān)系

    人工智能的廣闊領(lǐng)域中,知識圖譜與大模型是兩個至關(guān)重要的概念,它們各自擁有獨(dú)特的優(yōu)勢和應(yīng)用場景,同時又相互補(bǔ)充,共同推動著人工智能技術(shù)的發(fā)展。本文將從定義、特點(diǎn)、應(yīng)用及相互關(guān)系等方面深
    的頭像 發(fā)表于 07-10 11:39 ?1470次閱讀

    中國生成式人工智能專利數(shù)量傲視群雄

    在全球科技創(chuàng)新的浪潮中,生成式人工智能(Generative AI)作為一股不可忽視的力量,正以前所未有的速度重塑著多個行業(yè)的面貌。近日,世界知識產(chǎn)權(quán)組織(WIPO)發(fā)布的《世界知識產(chǎn)權(quán)組織生成式
    的頭像 發(fā)表于 07-04 15:39 ?428次閱讀

    大模型應(yīng)用之路:從提示詞到通用人工智能(AGI)

    鋪平道路。 基于AI大模型的推理功能,結(jié)合了RAG(檢索增強(qiáng)生成)、智能體(Agent)、知識庫、向量數(shù)據(jù)庫、知識圖譜等先進(jìn)技術(shù),我們向?qū)崿F(xiàn)真正的AGI(通用人工智能)邁出了重要步伐。
    的頭像 發(fā)表于 06-14 10:20 ?2542次閱讀
    大模型應(yīng)用之路:從提示詞到通用<b class='flag-5'>人工智能</b>(AGI)