國(guó)雙數(shù)據(jù)科學(xué)團(tuán)隊(duì)劉燕
對(duì)比 2020 和 2019 年 Gartner 發(fā)布的人工智能領(lǐng)域的技術(shù)“成熟度曲線”(Hype Cycle),在短短 1 年時(shí)間,知識(shí)圖譜的成熟度由創(chuàng)新觸發(fā)階段一躍達(dá)到預(yù)期膨脹高峰階段且非常接近最高點(diǎn)。
知識(shí)圖譜逐漸成為人工智能應(yīng)用的強(qiáng)大助力。
曲線表示,知識(shí)圖譜的發(fā)展還需要5 - 10 年時(shí)間才能到達(dá)成熟的階段,知識(shí)圖譜依然有很大的發(fā)展空間。
本文將從知識(shí)抽取、知識(shí)融合、知識(shí)推理的角度探索過(guò)去一年知識(shí)圖譜在自動(dòng)構(gòu)建領(lǐng)域的技術(shù)突破,并結(jié)合圖機(jī)器學(xué)習(xí)、圖數(shù)據(jù)庫(kù)探討相關(guān)領(lǐng)域的技術(shù)發(fā)展。
而在應(yīng)用上,知識(shí)圖譜在 2020 年與產(chǎn)業(yè)互聯(lián)的結(jié)合更加緊密,除了在數(shù)據(jù)治理、搜索與推薦、問(wèn)答等通用領(lǐng)域有所突破之外,在智能生產(chǎn)、智慧城市、智能管理、智能運(yùn)維等眾多領(lǐng)域,以及工業(yè)、金融、司法、公安、醫(yī)療、教育等眾多行業(yè)也都有進(jìn)一步的場(chǎng)景化落地的突破。
一、重要的技術(shù)發(fā)展
知識(shí)圖譜構(gòu)建
2020 年,利用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等技術(shù)從多源異構(gòu)的數(shù)據(jù)資源中自動(dòng)構(gòu)建知識(shí)圖譜的技術(shù)取得長(zhǎng)足進(jìn)展。
主要涉及到兩種方法:一種是基于語(yǔ)言規(guī)則的方法,另一種是基于統(tǒng)計(jì)分析的機(jī)器學(xué)習(xí)方法。自動(dòng)構(gòu)建的過(guò)程中,如果數(shù)據(jù)是結(jié)構(gòu)化的 ( 例如圖表數(shù)據(jù) ),已知屬性名稱、屬性間的層次結(jié)構(gòu)等,構(gòu)建知識(shí)圖譜相對(duì)較為容易。
如果缺乏以上信息,則只能通過(guò)文本信息等非結(jié)構(gòu)化數(shù)據(jù)中提煉知識(shí)構(gòu)建知識(shí)圖譜,技術(shù)上將面臨很多挑戰(zhàn)。
下面,我們從知識(shí)抽取、知識(shí)融合、知識(shí)推理這三方面來(lái)說(shuō)明。
1.知識(shí)抽取
2020 年以來(lái),更多知識(shí)抽取的研究工作被用來(lái)支撐更加復(fù)雜的應(yīng)用場(chǎng)景。多學(xué)科多領(lǐng)域交叉研究成為一個(gè)新的特點(diǎn)。小樣本學(xué)習(xí)在業(yè)界逐漸為人所關(guān)注。整體來(lái)看呈現(xiàn)以下趨勢(shì):
(1)多模態(tài)(Multimodal)。
多模態(tài)并非 2020 年提出的新概念,但是 2020 年對(duì)于多模態(tài)的研究熱度較往年相比提升了很多。
目前 NLP 領(lǐng)域多模態(tài)研究主要集中在跨語(yǔ)言和視覺(jué)的模態(tài)研究上,且多模態(tài)知識(shí)圖譜也逐步成為一個(gè)新的趨勢(shì)。多模態(tài)研究包括多模態(tài)信息對(duì)齊,多模態(tài)文本生成,多模態(tài)推理,多模態(tài)表示,基于語(yǔ)言的視覺(jué)導(dǎo)航等。
多模態(tài)研究的基礎(chǔ)是模態(tài)融合和語(yǔ)義對(duì)齊,現(xiàn)在有很多工作研究從圖片或文本中提取出結(jié)構(gòu)化的知識(shí),進(jìn)行語(yǔ)義對(duì)齊。
目前多模態(tài)的相關(guān)研究還處于起步階段,什么場(chǎng)景使用以及如何使用還需要進(jìn)一步探索。
(2)任務(wù)復(fù)雜化(Task complexity)。
2020 年以來(lái),知識(shí)抽取任務(wù)更貼合實(shí)際應(yīng)用場(chǎng)景,復(fù)雜化的知識(shí)抽取任務(wù)向我們提出了新的挑戰(zhàn)。
關(guān)系抽取任務(wù)已不滿足于抽取封閉的三元組關(guān)系,而更貼合實(shí)際情況,出現(xiàn)了很多復(fù)雜關(guān)系和開(kāi)放關(guān)系的抽取任務(wù)。例如,2020LIC 比賽中關(guān)系抽取賽題相比 2019 年增加了復(fù)雜關(guān)系抽取;部分關(guān)系抽取工作從句子級(jí)別向篇章級(jí)別和多文本抽取過(guò)渡;很多研究開(kāi)始探索如何利用深度學(xué)習(xí)模型自動(dòng)發(fā)現(xiàn)實(shí)體間的新型關(guān)系,實(shí)現(xiàn)開(kāi)放關(guān)系抽取等。
對(duì)于常規(guī)的信息抽取任務(wù),已經(jīng)逐步往語(yǔ)義理解上轉(zhuǎn)變,并基于此衍生出很多閱讀理解和知識(shí)推理的任務(wù)。
在實(shí)體融合和指代消解等任務(wù)上的研究,場(chǎng)景也更為復(fù)雜,逐步向深層次語(yǔ)義理解和知識(shí)推理演變。
(3)零次學(xué)習(xí)(zero-shot learning)和小樣本學(xué)習(xí)(few-shot learning)。
Zero-shot 和 few-shot 一直是知識(shí)抽取研究的難點(diǎn),2020 年對(duì)于 zero-shot 和 few-shot 有了更多深入的研究,包括利用集成學(xué)習(xí)、多任務(wù)學(xué)習(xí)、預(yù)訓(xùn)練模型、知識(shí)表示等方法結(jié)合深度學(xué)習(xí)模型進(jìn)行的相關(guān)探索。
預(yù)訓(xùn)練模型的發(fā)展使得很多知識(shí)抽取工作的瓶頸下降,但是相對(duì)來(lái)說(shuō),領(lǐng)域遷移和冷啟動(dòng)問(wèn)題還是目前的難點(diǎn)。近幾年出現(xiàn)了很多結(jié)合知識(shí)圖譜進(jìn)行知識(shí)表征,添加多模態(tài)信息,結(jié)合多領(lǐng)域進(jìn)行多任務(wù)學(xué)習(xí)等融合多源知識(shí)的相關(guān)方法和研究,并取得了一定進(jìn)展。
除此之外,多學(xué)科多領(lǐng)域交叉也是 NLP 和知識(shí)圖譜領(lǐng)域在 2020 年比較大的特點(diǎn)。例如知識(shí)表示,包括文本表示、圖表示、多模態(tài)表示之間的交叉和結(jié)合研究。
同時(shí)在知識(shí)抽取的多種任務(wù)中,都有多領(lǐng)域多學(xué)科結(jié)合相互指導(dǎo)優(yōu)化的發(fā)展趨勢(shì),不同任務(wù),不同學(xué)科之間的邊界變得越來(lái)越模糊。
總的來(lái)說(shuō),2020 年是知識(shí)抽取研究飛速發(fā)展的一年,科學(xué)研究者們已經(jīng)不滿足于一些簡(jiǎn)單的知識(shí)抽取任務(wù)的實(shí)現(xiàn),開(kāi)始探索更貼合實(shí)際的應(yīng)用場(chǎng)景。對(duì)于任務(wù)的探索邊界也越來(lái)越不明顯,并出現(xiàn)了很多結(jié)合多源異構(gòu)信息的相關(guān)探索。除此之外,多模態(tài)和知識(shí)圖譜表征仍然有很大發(fā)展空間。
2.知識(shí)融合
知識(shí)融合方面一直以來(lái)都面臨兩個(gè)重要的技術(shù)挑戰(zhàn),一是數(shù)據(jù)規(guī)模的挑戰(zhàn),數(shù)據(jù)量大,種類多樣性,存儲(chǔ)位置不同、結(jié)構(gòu)不同;另一個(gè)是數(shù)據(jù)質(zhì)量的挑戰(zhàn),數(shù)據(jù)命名模糊,格式不同,數(shù)據(jù)缺失,噪音問(wèn)題嚴(yán)重。
這兩個(gè)問(wèn)題無(wú)論是以前,還是 2020 年度,一直都是知識(shí)融合方面面臨的嚴(yán)峻挑戰(zhàn)。
數(shù)據(jù)規(guī)模方面,行業(yè)算力的不斷提升使實(shí)用系統(tǒng)可以有效處理更大規(guī)模的圖譜數(shù)據(jù)。在多個(gè)知識(shí)圖譜聯(lián)合使用的知識(shí)融合方面,本年度 ACM SIGKDD 提出了 KGSF,通過(guò)互信息最大化,對(duì)齊不同圖譜中的語(yǔ)義空間,實(shí)現(xiàn)多知識(shí)圖譜的語(yǔ)義融合。這種方法使用多個(gè)知識(shí)圖譜打通了不同類型信息的語(yǔ)義鴻溝,在會(huì)話推薦系統(tǒng)的任務(wù)上起到了很好效果,也為融入多個(gè)外部的知識(shí)圖譜提供了一條可行之路。
數(shù)據(jù)質(zhì)量方面,在處理不同知識(shí)圖譜對(duì)齊問(wèn)題中,本年度提出了一種不同知識(shí)圖譜中語(yǔ)義相似的實(shí)體進(jìn)行關(guān)聯(lián)時(shí)的噪音問(wèn)題的解決方法。在現(xiàn)有方法大多都是面向干凈數(shù)據(jù)的前提下,帶有噪音檢測(cè)和基于噪音感知的實(shí)體融合方法探索出了一種魯棒的實(shí)體對(duì)齊方式,魯棒性的跨語(yǔ)言實(shí)體對(duì)齊模型,通過(guò)圖神經(jīng)網(wǎng)絡(luò)建模知識(shí)圖譜中的實(shí)體對(duì),得到噪音感知的實(shí)體對(duì)齊模塊,利用生成對(duì)抗網(wǎng)絡(luò)來(lái)生成噪音實(shí)體對(duì)并訓(xùn)練一個(gè)噪音判別器,識(shí)別出干凈的實(shí)體對(duì)。
3.知識(shí)推理
知識(shí)推理方面,多種新穎觀點(diǎn)在頂級(jí)會(huì)議上被提出,例如:圖譜推理在圖像視頻描述生成領(lǐng)域的應(yīng)用,以及垂直領(lǐng)域的推理任務(wù)等。
在常識(shí)問(wèn)答方面,可以基于圖的上下文表示學(xué)習(xí)和基于圖的推理方法,利用不同結(jié)構(gòu)的知識(shí)源進(jìn)行常識(shí)問(wèn)答。不針對(duì)于具體領(lǐng)域和具體任務(wù),本年度還提出了一個(gè) RNNLogic 的概率方法,該方法包括一個(gè)使用遞歸神經(jīng)網(wǎng)絡(luò)生成邏輯規(guī)則的規(guī)則生成器,和一個(gè)帶有邏輯規(guī)則的推理預(yù)測(cè)器,并使用基于 EM 算法的優(yōu)化,從學(xué)習(xí)邏輯規(guī)則的角度給出了一個(gè)知識(shí)圖譜推理的有效方案。
另外也有基于知識(shí)圖譜的向量嵌入技術(shù),完全基于向量操作進(jìn)行推理演算;基于 Neural Logic Programming 框架,在數(shù)值推理問(wèn)題方面也向前邁進(jìn)了一步。
圖機(jī)器學(xué)習(xí)
圖機(jī)器學(xué)習(xí)領(lǐng)域目前剛剛到達(dá)圖論和機(jī)器學(xué)習(xí)的交叉點(diǎn)。包括圖上深度學(xué)習(xí)的啟發(fā)式應(yīng)用到圖模型范圍等問(wèn)題都在進(jìn)行廣泛和深入的研究。
同時(shí),知識(shí)圖譜與機(jī)器學(xué)習(xí)相結(jié)合的研究也逐漸增多,相關(guān)研究成果在頂級(jí)會(huì)議上的提交率有所增長(zhǎng):
1.在圖嵌入方向,學(xué)者提出了一種新的 KGE 框架自動(dòng)實(shí)體類型表示(AutoETER)[21],通過(guò)將每個(gè)關(guān)系看作是兩個(gè)實(shí)體類型之間的轉(zhuǎn)換(translation)操作來(lái)學(xué)習(xí)每個(gè)實(shí)體的潛在類型嵌入,并利用關(guān)系感知映射機(jī)制來(lái)學(xué)習(xí)每個(gè)實(shí)體的潛在類型嵌入;
2.知識(shí)推理方向,學(xué)者提出了一種新的框架,用于嵌入學(xué)習(xí)和跨多個(gè)特定語(yǔ)言的 KG 進(jìn)行集成知識(shí)遷移。該框架將所有 KG 嵌入到一個(gè)共享的嵌入空間中,在那里基于自學(xué)習(xí)捕獲實(shí)體之間的關(guān)聯(lián)。然后,進(jìn)行集成推理,合并來(lái)自多個(gè)特定語(yǔ)言 KG 嵌入的預(yù)測(cè)結(jié)果;
3.知識(shí)圖譜與推薦系統(tǒng)結(jié)合方向,學(xué)者首先算出圖中各類型節(jié)點(diǎn)的嵌入,結(jié)合注意力機(jī)制,利用鄰居節(jié)點(diǎn)為中心節(jié)點(diǎn)提供更豐富的信息,然后利用傳統(tǒng)的“頭結(jié)點(diǎn)+關(guān)系=目標(biāo)節(jié)點(diǎn)”的方法訓(xùn)練最終的圖嵌入表示,最后接入下游的推薦系統(tǒng)模型。此外,圖神經(jīng)網(wǎng)絡(luò) GNN 被廣泛應(yīng)用于圖機(jī)器學(xué)習(xí)。前沿的關(guān)于圖機(jī)器學(xué)習(xí)的研究對(duì) GNN 有更扎實(shí)的理論理解。
圖數(shù)據(jù)庫(kù)
2020 年以來(lái),為了滿足強(qiáng)關(guān)聯(lián)和網(wǎng)絡(luò)型數(shù)據(jù)的存儲(chǔ)、查詢和大規(guī)模圖分析的性能需求,圖數(shù)據(jù)庫(kù)在其底層數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)上也盡量貼合關(guān)系數(shù)據(jù)的搜索模式,減少磁盤的 I/O 操作時(shí)間。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的 B+樹(shù)數(shù)據(jù)結(jié)構(gòu)在數(shù)據(jù)檢索和隨機(jī)數(shù)據(jù)讀取上有優(yōu)秀的性能,而對(duì)于關(guān)系數(shù)據(jù)的遍歷則顯得相形見(jiàn)絀了。
分布式圖數(shù)據(jù)庫(kù)在對(duì)圖分割上有以點(diǎn)分割和以邊分割 2 種方案。在 2020 年越來(lái)越多的新型分布式圖數(shù)據(jù)庫(kù)會(huì)選擇以邊分割的方案,甚至是把圖節(jié)點(diǎn)的屬性和邊同樣對(duì)待,統(tǒng)稱為謂詞。相同的謂詞會(huì)存在同一臺(tái)或幾臺(tái)機(jī)器上。這樣很多查詢,特別是多跳查詢可以集中在少量的機(jī)器上完成,大大減少數(shù)據(jù)傳輸帶來(lái)的網(wǎng)絡(luò)開(kāi)銷。新型的分布式圖數(shù)據(jù)庫(kù)在百億數(shù)據(jù)量的規(guī)模下, 單點(diǎn)的多跳查詢能做到毫秒級(jí)返回。
二、主要應(yīng)用
知識(shí)圖譜是把人類的知識(shí)和經(jīng)驗(yàn)代碼化的有效工具,賦予機(jī)器認(rèn)知智能以構(gòu)建智能體在不同應(yīng)用場(chǎng)景中代替或幫助人類解決實(shí)際問(wèn)題。
接下來(lái),我們將從通用和垂直兩個(gè)層面探討其應(yīng)用。
首先,知識(shí)圖譜在通用領(lǐng)域的應(yīng)用:
1.數(shù)據(jù)治理
2020 年,知識(shí)圖譜被逐漸應(yīng)用在數(shù)據(jù)治理中。政務(wù)、金融、審計(jì)等行業(yè)均有嘗試。
部分企業(yè)提出數(shù)據(jù)、管理、業(yè)務(wù)的三層圖譜概念。也有企業(yè)從場(chǎng)景落地出發(fā),提出“數(shù)據(jù)”與“知識(shí)”雙驅(qū)動(dòng):即,從生產(chǎn)、經(jīng)營(yíng)、管理等實(shí)際業(yè)務(wù)場(chǎng)景出發(fā),將業(yè)務(wù)、流程、指標(biāo)中的知識(shí)構(gòu)建成知識(shí)圖譜。
一方面,應(yīng)用知識(shí)圖譜將業(yè)務(wù)場(chǎng)景與數(shù)據(jù)關(guān)聯(lián)起來(lái),讓機(jī)器知道什么業(yè)務(wù)場(chǎng)景需要什么數(shù)據(jù),這些數(shù)據(jù)必須達(dá)到怎樣的標(biāo)準(zhǔn)和質(zhì)量,進(jìn)而幫助數(shù)據(jù)治理;另一方面,通過(guò)數(shù)據(jù)治理所形成的業(yè)務(wù)發(fā)現(xiàn)沉淀到知識(shí)圖譜里,在數(shù)字化轉(zhuǎn)型中釋放價(jià)值。
這樣一來(lái),一些傳統(tǒng)數(shù)據(jù)治理中的難題得到進(jìn)一步解決:通過(guò)知識(shí)、模型以及圖結(jié)構(gòu)的應(yīng)用,一些錯(cuò)誤的、不一致的信息可以被發(fā)現(xiàn)、統(tǒng)一;基于業(yè)務(wù)規(guī)則定義,可識(shí)別潛在的數(shù)據(jù)關(guān)聯(lián)關(guān)系,進(jìn)一步補(bǔ)充信息。
知識(shí)圖譜將業(yè)務(wù)數(shù)據(jù)、產(chǎn)業(yè)知識(shí)、通用常識(shí)、機(jī)理模型、決策網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)模型進(jìn)行混合存儲(chǔ),實(shí)現(xiàn)知識(shí)和數(shù)據(jù)沉淀賦能智能應(yīng)用。在業(yè)務(wù)場(chǎng)景的驅(qū)動(dòng)下,應(yīng)用知識(shí)圖譜可以有效實(shí)現(xiàn)數(shù)據(jù)治理與業(yè)務(wù)治理的迭代閉環(huán)。
2.搜索與推薦
隨著知識(shí)圖譜的深層應(yīng)用,2020 年,搜索與推薦更加智能,并在消費(fèi)領(lǐng)域之外的生產(chǎn)、管理等方向不斷下沉。
在面向生產(chǎn)、管理等垂直業(yè)務(wù)領(lǐng)域,領(lǐng)域知識(shí)、事件圖譜的應(yīng)用提升了檢索效率與質(zhì)量。一些非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)應(yīng)用較多的專業(yè),如審計(jì)、醫(yī)療、金融、司法、各類型研究結(jié)構(gòu)等,文書、文獻(xiàn)、案例/判例、研究成果、專家經(jīng)驗(yàn)被引入到領(lǐng)域知識(shí)圖譜的構(gòu)建中。通過(guò)對(duì)不同層次知識(shí)分析、加工、結(jié)構(gòu)化處理,在常規(guī)檢索之外,實(shí)現(xiàn)知識(shí)的鉆取和深度挖掘。
在這個(gè)過(guò)程中,一些企業(yè)通過(guò)知識(shí)標(biāo)注工具,將業(yè)務(wù)實(shí)體、屬性和關(guān)聯(lián)關(guān)系標(biāo)記出來(lái),把標(biāo)記的實(shí)體和關(guān)系存入知識(shí)庫(kù),并把它們沉淀成自動(dòng)知識(shí)抽取模型的訓(xùn)練語(yǔ)料;也有一些企業(yè)通過(guò)映射、連接及各類 D2R 操作,將結(jié)構(gòu)化數(shù)據(jù)庫(kù)的數(shù)據(jù)字典、表結(jié)構(gòu)、關(guān)系及數(shù)據(jù)庫(kù)內(nèi)容轉(zhuǎn)換為知識(shí)圖譜的本體、業(yè)務(wù)實(shí)體、實(shí)體間關(guān)系組成的三元組,以便于人們從研究對(duì)象、研究主題、業(yè)務(wù)分類等多個(gè)維度檢索出相關(guān)結(jié)果。
其次,知識(shí)圖譜在垂直領(lǐng)域的應(yīng)用:
1.智慧生產(chǎn)
工業(yè)知識(shí)圖譜是知識(shí)圖譜的重點(diǎn)發(fā)展方向。今年人們對(duì)知識(shí)圖譜在生產(chǎn)領(lǐng)域的探索貫穿了產(chǎn)品生產(chǎn)的各個(gè)環(huán)節(jié):
以石油化工業(yè)領(lǐng)域的應(yīng)用為例??紤]到石化產(chǎn)業(yè)具有易燃易爆、工藝復(fù)雜等特點(diǎn),現(xiàn)實(shí)中有大量無(wú)法通過(guò)機(jī)理模型或模擬軟件解釋的現(xiàn)象。為方便生產(chǎn)線工人的日常作業(yè),人們通過(guò)構(gòu)建產(chǎn)業(yè)鏈知識(shí)圖譜,在短時(shí)間內(nèi)從眾多影響因子的因果變化關(guān)系中進(jìn)行生產(chǎn)操作前的模擬:如工人準(zhǔn)備改變某可操作變量時(shí),可通過(guò)圖譜預(yù)測(cè)操作帶來(lái)的變化;如工人試圖達(dá)到某結(jié)果時(shí),可通過(guò)圖譜提前預(yù)判操作步驟。
(2)產(chǎn)品研發(fā):
在知識(shí)圖譜的支撐下可以圍繞產(chǎn)品發(fā)展趨勢(shì)為新產(chǎn)品市場(chǎng)定位提供決策知識(shí);可以識(shí)別新產(chǎn)品在不同使用場(chǎng)景下的使用方法和使用要求,推送其他產(chǎn)品的應(yīng)用案例;還可以提供已有的相似產(chǎn)品、相關(guān)技術(shù)、領(lǐng)域?qū)<液托畔⒒ぞ哕浖刃畔ⅰ?/p>
(3)產(chǎn)品質(zhì)量提升:
通過(guò)監(jiān)控生產(chǎn)過(guò)程中的實(shí)時(shí)參數(shù)曲線構(gòu)建核心部件的健康指數(shù)模型,在識(shí)別關(guān)鍵因素的基礎(chǔ)上進(jìn)行參數(shù)推薦,提升良品率。
(4)生產(chǎn)預(yù)測(cè):
在機(jī)理模型與經(jīng)驗(yàn)?zāi)P腿诤系幕A(chǔ)上,結(jié)合生產(chǎn)知識(shí)圖譜實(shí)現(xiàn)圖迭代計(jì)算,計(jì)算出某因子發(fā)生變化時(shí)整個(gè)關(guān)系網(wǎng)絡(luò)達(dá)到穩(wěn)定后各個(gè)產(chǎn)物節(jié)點(diǎn)的狀態(tài)值,實(shí)現(xiàn)更準(zhǔn)確的生產(chǎn)預(yù)測(cè)[26]。
(5)供應(yīng)鏈風(fēng)險(xiǎn)管理及零部件選型:
可以匯集產(chǎn)品知識(shí)、物流知識(shí)、采購(gòu)知識(shí)、制造知識(shí)、交通信息等等構(gòu)建供應(yīng)鏈及零部件圖譜,將采購(gòu)、物流、制造聯(lián)系起來(lái),通過(guò)語(yǔ)義網(wǎng)(關(guān)系網(wǎng))實(shí)現(xiàn)供應(yīng)鏈風(fēng)險(xiǎn)管理與零部件選型。
(6)節(jié)能減排:
集成、分析物聯(lián)網(wǎng)傳感器和系統(tǒng)的信息,打通建筑物管理、居住舒適度調(diào)節(jié)、電源監(jiān)控等數(shù)據(jù)孤島,構(gòu)建智能建筑領(lǐng)域的物聯(lián)網(wǎng)知識(shí)圖譜。降低開(kāi)發(fā)者和工程師的工作量,實(shí)現(xiàn)最優(yōu)化的智能建筑運(yùn)營(yíng)。
(7)設(shè)備故障預(yù)警與安全生產(chǎn):
以石油領(lǐng)域?yàn)槔吞锫?lián)合站承擔(dān)原油處理、存儲(chǔ)與外輸任務(wù),是一級(jí)防火、甲級(jí)防爆單位。通過(guò)設(shè)備知識(shí)圖譜和決策知識(shí)圖譜,一方面可以將設(shè)備的生產(chǎn)參數(shù)變化轉(zhuǎn)換為狀態(tài)變化和各種生產(chǎn)現(xiàn)象,模擬專家分析設(shè)備運(yùn)行過(guò)程,對(duì)設(shè)備運(yùn)行狀態(tài)進(jìn)行預(yù)測(cè);此外,還能基于不同生產(chǎn)現(xiàn)象的變化在決策圖譜中自動(dòng)選擇最優(yōu)措施方案,生成決策建議,通知現(xiàn)場(chǎng)管理人員進(jìn)行現(xiàn)場(chǎng)作業(yè)和處理。
2.智能營(yíng)銷
消費(fèi)者、商品的圖譜構(gòu)建更加深入、完善。
(1)消費(fèi)者:
數(shù)據(jù)進(jìn)一步打通。除用戶基本信息、行為特征之外,興趣、場(chǎng)景、需求等內(nèi)容也逐漸豐富到消費(fèi)者圖譜內(nèi)。用戶價(jià)值模型、購(gòu)買驅(qū)動(dòng)因素模型等模型應(yīng)用也擴(kuò)展了圖譜內(nèi)容。
(2)商品:
一些企業(yè)通過(guò)構(gòu)建事件圖譜、視頻理解圖譜強(qiáng)化對(duì)事件、場(chǎng)景的感知,嘗試從文本到多媒體的跨越,豐富產(chǎn)品構(gòu)建內(nèi)容;在消費(fèi)品領(lǐng)域,消費(fèi)者對(duì)產(chǎn)品的別稱、昵稱、縮寫等非常豐富,制約了圖譜構(gòu)建效率,還有一些企業(yè)在圖融合領(lǐng)域不斷探索,提升實(shí)體的自動(dòng)化對(duì)齊效果。
部分應(yīng)用:
(1)自動(dòng)撰文:
挖掘主競(jìng)品文章中對(duì)業(yè)務(wù)有價(jià)值的高頻詞語(yǔ)和短語(yǔ),形成實(shí)體庫(kù);通過(guò)本體及實(shí)體的挖掘找到人群與需求、人群與場(chǎng)景的關(guān)系;挖掘?qū)傩院驮u(píng)價(jià)詞語(yǔ),與相關(guān)實(shí)體關(guān)聯(lián),形成實(shí)體的評(píng)價(jià)印象;解析句子的語(yǔ)法結(jié)構(gòu)以及與本體、實(shí)體的關(guān)聯(lián),使機(jī)器撰寫更接近人的行文習(xí)慣。
(2)購(gòu)買意向預(yù)測(cè)與內(nèi)容推薦:
結(jié)合機(jī)器感知、特征標(biāo)簽和業(yè)務(wù)經(jīng)驗(yàn)對(duì)用戶特征進(jìn)行價(jià)值挖掘,把用戶特征輸出成參數(shù),用模型篩選出適合參加某些活動(dòng)的人群;通過(guò)聚類,利用 K-means 對(duì)具有較高購(gòu)買可能性的人群進(jìn)行類別劃分;針對(duì)不同群體的需求,如價(jià)格、興趣、場(chǎng)景等傳遞不同的內(nèi)容信息,提升內(nèi)容推薦效果。
3.AIOps(智能運(yùn)維)
主要是將知識(shí)圖譜與根因分析相結(jié)合,進(jìn)一步提升運(yùn)維效率和質(zhì)量。
今年比較流行的做法是:通過(guò)應(yīng)用業(yè)務(wù)日志、CMDB 配置系統(tǒng)等數(shù)據(jù)構(gòu)建異常事件圖譜;再運(yùn)用推導(dǎo)模型進(jìn)行根因定位,對(duì)存在異常的子系統(tǒng)及其相關(guān)的 IP、DCN、服務(wù)信息進(jìn)行提取,對(duì)異常事件知識(shí)圖譜進(jìn)行裁剪;最后,再應(yīng)用規(guī)則引擎推導(dǎo)出根因結(jié)論。
一些企業(yè)會(huì)針對(duì)告警數(shù)據(jù)進(jìn)行分類,利用軟硬件知識(shí)圖譜將有關(guān)聯(lián)的物理機(jī)、虛擬機(jī)和軟件數(shù)據(jù)匯聚為一組,便于后續(xù)建模和應(yīng)用;一些企業(yè)對(duì)不同時(shí)間粒度的樣本構(gòu)建因果圖,通過(guò)對(duì)算法構(gòu)建的因果圖構(gòu)建告警知識(shí)圖譜,讓運(yùn)維人員在快速查詢故障設(shè)備信息的基礎(chǔ)上進(jìn)一步了解故障發(fā)生原因以及后續(xù)處理步驟;
還有一些企業(yè)嘗試將基于專家規(guī)則的推理與基于描述邏輯的推理、基于分布式表示的表示學(xué)習(xí)推理、本體推理、復(fù)合推理相結(jié)合,利用知識(shí)圖譜讓系統(tǒng)自動(dòng)采取相應(yīng)的恢復(fù)手段、維護(hù)策略,實(shí)現(xiàn)網(wǎng)絡(luò)的 “自維護(hù)”。
4.智能管理
這里,我們主要介紹在政府管理中的應(yīng)用。
我們知道,在政府日常管理中,政務(wù)數(shù)據(jù)與政府、企業(yè)、非盈利組織和公民等多角色密切相關(guān),需要依據(jù)各類規(guī)章制度,涉及大量單據(jù)、文檔材料等非結(jié)構(gòu)化、半結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)。由于政務(wù)業(yè)務(wù)的變動(dòng)和對(duì)數(shù)據(jù)的認(rèn)知變化導(dǎo)致的數(shù)據(jù)類別上的增加或變化的發(fā)生頻率很高,知識(shí)圖譜的本體自動(dòng)構(gòu)建技術(shù)和基于動(dòng)態(tài)知識(shí)圖譜的數(shù)據(jù)集成方案技術(shù)非常必要。
今年,一些企業(yè)正在基于聚類算法和強(qiáng)化學(xué)習(xí)結(jié)合的模式開(kāi)發(fā) schema 自動(dòng)構(gòu)建和根據(jù)反饋調(diào)整知識(shí)圖譜的能力來(lái)滿足業(yè)務(wù)動(dòng)態(tài)變化的需求,以減少工作成本,提升效率。還有一些企業(yè)利用動(dòng)態(tài)知識(shí)譜圖技術(shù),將模型與數(shù)據(jù)進(jìn)行解耦,降低大規(guī)模數(shù)據(jù)集成場(chǎng)景下知識(shí)圖譜變化帶來(lái)的計(jì)算壓力。
通過(guò)知識(shí)圖譜的應(yīng)用,一方面打破了數(shù)據(jù)孤島,將大規(guī)模、碎片化的多源政務(wù)數(shù)據(jù)關(guān)聯(lián)起來(lái),以實(shí)體為基本單位對(duì)政務(wù)數(shù)據(jù)進(jìn)行挖掘,揭示各實(shí)體間的復(fù)雜關(guān)系,實(shí)現(xiàn)知識(shí)層面的數(shù)據(jù)融合與集成。同時(shí),也更大程度的釋放了政務(wù)數(shù)據(jù)價(jià)值,為政府部門、企業(yè)、非營(yíng)利組織、公民提供更高水準(zhǔn)的服務(wù),提高政府監(jiān)管效率和效能。
三、知識(shí)圖譜行業(yè)和技術(shù)發(fā)展的展望
1、技術(shù)發(fā)展趨勢(shì)展望
知識(shí)圖譜主要技術(shù)包括知識(shí)獲取、知識(shí)表示、知識(shí)存儲(chǔ)、知識(shí)建模、知識(shí)融合、知識(shí)計(jì)算、知識(shí)運(yùn)維等七個(gè)方面,盡管目前已取得了很多成就,但仍在快速演進(jìn)當(dāng)中。
例如,在知識(shí)獲取方面,資源缺乏、面向開(kāi)放域、跨語(yǔ)言及跨媒體等方向的知識(shí)抽取正在成為未來(lái)的研究方向;
在知識(shí)表示方面,符號(hào)與表示學(xué)習(xí)的融合統(tǒng)一、面向事理邏輯的知識(shí)表示、融合時(shí)空間維度的知識(shí)表示、融合跨媒體元素的知識(shí)表示正在成為未來(lái)的研究方向;
在知識(shí)存儲(chǔ)方面,基于 RDF 和 LPG 知識(shí)表示的分布式存儲(chǔ)、涉及高適應(yīng)性的知識(shí)存儲(chǔ)、基于 LOD(Linked Open Data)的知識(shí)存儲(chǔ)、Hyper Graph 的進(jìn)一步研究和應(yīng)用正在成為未來(lái)的研究方向。
2、應(yīng)用趨勢(shì)展望
目前,大規(guī)模知識(shí)圖譜的應(yīng)用場(chǎng)景還比較有限,其在智能語(yǔ)義搜索、深度問(wèn)答(包括基于信息檢索的問(wèn)答系統(tǒng)、基于語(yǔ)義分析的問(wèn)答系統(tǒng))、演化分析、對(duì)話理解等方面的應(yīng)用也處于初級(jí)階段,仍具有廣闊的應(yīng)用與推廣前景。
從知識(shí)圖譜應(yīng)用發(fā)展趨勢(shì)來(lái)看,當(dāng)前正在從通用知識(shí)圖譜應(yīng)用向領(lǐng)域或行業(yè)知識(shí)圖譜應(yīng)用拓展,如金融、醫(yī)療、公安、醫(yī)療、司法、電商等,依托知識(shí)圖譜強(qiáng)大知識(shí)庫(kù)的深度知識(shí)推理能力和逐步擴(kuò)展的認(rèn)知能力,幫助相關(guān)行業(yè)從業(yè)者對(duì)特定的問(wèn)題進(jìn)行分析、推理、輔助決策。
3、標(biāo)準(zhǔn)化趨勢(shì)展望
隨著 ISO/IEC JTC1/SC42、W3C、IEEE、全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)、國(guó)家人工智能標(biāo)準(zhǔn)化總體組等國(guó)內(nèi)外標(biāo)準(zhǔn)化組織或機(jī)構(gòu)對(duì)知識(shí)圖譜標(biāo)準(zhǔn)化的關(guān)注與推動(dòng),《知識(shí)圖譜技術(shù)架構(gòu)》等多項(xiàng)知識(shí)圖譜相關(guān)國(guó)際、國(guó)家標(biāo)準(zhǔn)獲得立項(xiàng)或提出討論。
未來(lái),知識(shí)圖譜領(lǐng)域基礎(chǔ)共性及關(guān)鍵技術(shù)標(biāo)準(zhǔn)將不斷涌現(xiàn),依托正在研制的知識(shí)圖譜技術(shù)架構(gòu)等標(biāo)準(zhǔn),通過(guò)聚焦核心標(biāo)準(zhǔn)化需求逐步建立基本的知識(shí)圖譜標(biāo)準(zhǔn)體系并孵化典型行業(yè)中的知識(shí)圖譜應(yīng)用標(biāo)準(zhǔn),形成國(guó)際標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和團(tuán)體標(biāo)準(zhǔn)良性互動(dòng)的局面。
4、技術(shù)開(kāi)發(fā)與應(yīng)用相關(guān)建議
(1)加強(qiáng)知識(shí)圖譜核心關(guān)鍵技術(shù)支持與突破:
突破知識(shí)圖譜基礎(chǔ)理論及關(guān)鍵核心技術(shù)瓶頸,以算法為核心,以數(shù)據(jù)和硬件為基礎(chǔ),以大規(guī)模知識(shí)庫(kù)的構(gòu)建與應(yīng)用為導(dǎo)向,實(shí)施重大關(guān)鍵技術(shù)攻關(guān)工程。
(2)加強(qiáng)知識(shí)圖譜優(yōu)秀解決方案/產(chǎn)品展示與推廣:
通過(guò)梳理知識(shí)圖譜在典型行業(yè)的優(yōu)秀案例并形成案例集,建設(shè)開(kāi)放性實(shí)驗(yàn)室,推出優(yōu)質(zhì)培訓(xùn)課程等方式加強(qiáng)知識(shí)圖譜優(yōu)秀平臺(tái)或產(chǎn)品的展示與推廣,打破知識(shí)圖譜開(kāi)發(fā)企業(yè)、研究院所、高校與各領(lǐng)域企業(yè)間的溝通屏障。
(3)加強(qiáng)通用和領(lǐng)域知識(shí)圖譜開(kāi)放平臺(tái)建設(shè):
開(kāi)放的通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜平臺(tái)是推動(dòng)知識(shí)圖譜技術(shù)在各行業(yè)融合應(yīng)用的重要基礎(chǔ)設(shè)施,能夠避免企業(yè)在建設(shè)知識(shí)圖譜過(guò)程中從零開(kāi)始或重復(fù)建設(shè),也可降低知識(shí)圖譜項(xiàng)目實(shí)施方的設(shè)計(jì)開(kāi)發(fā)成本。
11月11-15日
一、知識(shí)圖譜概論
1.1知識(shí)圖譜的起源和歷史
1.2知識(shí)圖譜的發(fā)展史——從框架、本體論、語(yǔ)義網(wǎng)、鏈接數(shù)據(jù)到知識(shí)圖譜
1.3知識(shí)圖譜的本質(zhì)和價(jià)值
1.4知識(shí)圖譜VS傳統(tǒng)知識(shí)庫(kù)VS關(guān)系數(shù)據(jù)庫(kù)
1.5經(jīng)典的知識(shí)圖譜
二、知識(shí)圖譜應(yīng)用
2.1知識(shí)圖譜應(yīng)用場(chǎng)景
2.2知識(shí)圖譜應(yīng)用簡(jiǎn)介
三、知識(shí)表示與知識(shí)建模
3.1知識(shí)表示概念
3.2 知識(shí)表示方法
3.3典型知識(shí)庫(kù)項(xiàng)目的知識(shí)表示
3.4知識(shí)建模方法學(xué)
3.5知識(shí)表示和知識(shí)建模實(shí)踐
四、知識(shí)抽取與挖掘
4.1知識(shí)抽取基本問(wèn)題
4.2數(shù)據(jù)采集和獲取
4.3面向結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取
4.4面向半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取
4.5.面向非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取
4.6.知識(shí)挖掘
4.7知識(shí)抽取上機(jī)實(shí)踐
五、知識(shí)融合
5.1知識(shí)融合背景
5.2知識(shí)異構(gòu)原因分析
5.3知識(shí)融合解決方案分析
5.4.本體對(duì)齊基本流程和常用方法
5.5實(shí)體匹配基本流程和常用方法
5.6 知識(shí)融合上機(jī)實(shí)踐
六、存儲(chǔ)與檢索
6.1.知識(shí)圖譜的存儲(chǔ)與檢索概述
6.2.知識(shí)圖譜的存儲(chǔ)
6.3.知識(shí)圖譜的檢索
6.4.上機(jī)實(shí)踐案例:利用GraphDB完成知識(shí)圖譜的存儲(chǔ)與檢索
七、知識(shí)推理
7.1.知識(shí)圖譜中的推理技術(shù)概述
7.2.歸納推理:學(xué)習(xí)推理規(guī)則
上機(jī)實(shí)踐案例:利用AMIE+算法完成Freebase數(shù)據(jù)上的關(guān)聯(lián)規(guī)則挖掘
7.3.演繹推理:推理具體事實(shí)
7.4.基于分布式表示的推理
7.5.上機(jī)實(shí)踐案例:利用分布式知識(shí)表示技術(shù)完成Freebase上的鏈接預(yù)測(cè)
八、語(yǔ)義搜索
8.1.語(yǔ)義搜索概述
8.2.搜索關(guān)鍵技術(shù)
8.3.知識(shí)圖譜搜索
8.4.知識(shí)可視化
8.5.上機(jī)實(shí)踐案例:SPARQL搜索
九、知識(shí)問(wèn)答
9.1.知識(shí)問(wèn)答概述
9.2.知識(shí)問(wèn)答基本流程
9.3.相關(guān)測(cè)試集:QALD、WebQuestions等
9.4.知識(shí)問(wèn)答關(guān)鍵技術(shù)
9.5.上機(jī)實(shí)踐案例:DeepQA、TemplateQA
審核編輯 黃昊宇
-
知識(shí)圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7723
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論