1.摘要
本數(shù)據(jù)集由哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心(哈工大SCIR)秦兵教授和劉銘教授主持開發(fā),是一個通用領(lǐng)域大規(guī)模條件性知識圖譜數(shù)據(jù)集。本數(shù)據(jù)集源自于AG News文本分類語料,包含四個類別,2440 條數(shù)據(jù),每條數(shù)據(jù)都是人工標(biāo)注的條件知識圖譜。該數(shù)據(jù)集的提出能夠?yàn)闂l件性知識圖譜的研究提供數(shù)據(jù)支持。
2.條件性知識圖譜
在大多數(shù)情況下,事實(shí)的成立都是有條件的。條件和事實(shí)起著同樣重要的作用,然而目前的知識圖譜只關(guān)注事實(shí)而忽略了條件的存在。與此同時,信息提取技術(shù)也只關(guān)注從給定文本中提取事實(shí),而忽略了條件信息。
為了能夠讓知識圖譜建模條件信息更加充分,我們提出了一個三層的網(wǎng)絡(luò)結(jié)構(gòu)條件性知識圖譜(Conditional-KG)。條件性知識圖譜和傳統(tǒng)知識圖譜都是由三元組組成,但是條件性知識圖譜同時包含事實(shí)元組和條件元組,以及元組之間的條件關(guān)系。
3.數(shù)據(jù)集
為了支持條件性知識圖譜的研究,我們手動標(biāo)注了一個條件性知識圖譜數(shù)據(jù)集。我們選擇了AG News文本分類語料作為條件性知識圖譜的語料。AG News語料具有三大優(yōu)勢:
AG News中的數(shù)據(jù)是新聞的標(biāo)題和一部分正文,每條數(shù)據(jù)平均包含2.1個句子、6.4個元組和3.5個條件關(guān)系;
AG News中的數(shù)據(jù)具有完整的語法結(jié)構(gòu),長度較長,語言嚴(yán)謹(jǐn),代詞、口語、習(xí)語等較少。
AG News的文本數(shù)量足夠大,多樣性豐富。它包含12萬條訓(xùn)練數(shù)據(jù)和7600條測試數(shù)據(jù),涉及World、Sports、Business、 和Sci/Tech四個類別。
我們標(biāo)注的數(shù)據(jù)集追求信息的完整性和元組的原子性。完整性的意思是標(biāo)注者應(yīng)該嘗試從句子中提取所有斷言和條件,我們將原子性定義為每個元組必須是一個不可分割的單元。只要有可能,標(biāo)注者必須從帶有連詞的句子中提取多個原子元組。
我們通過兩輪標(biāo)注最終得到了人工標(biāo)注的通用領(lǐng)域條件性知識圖譜數(shù)據(jù)集。本數(shù)據(jù)集源自于AG News文本分類語料,包含四個類別,2440 條數(shù)據(jù),每條數(shù)據(jù)都是人工標(biāo)注的條件知識圖譜。
4.結(jié)語
為了建模條件信息,我們提出了一個具有三層網(wǎng)絡(luò)結(jié)構(gòu)的條件性知識圖譜,并且為社區(qū)貢獻(xiàn)了一個人工標(biāo)注的通用領(lǐng)域大規(guī)模條件性知識圖譜。
編輯:jq
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24730 -
知識圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7714
原文標(biāo)題:賽爾筆記 | 通用領(lǐng)域條件性知識圖譜數(shù)據(jù)集
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論