知識庫問答旨在通過知識庫回答自然語言問題。近來,大量的研究集中在語義或句法上復雜的問題上。在本文中,我們精心總結(jié)了復雜知識庫問答任務(wù)的典型挑戰(zhàn)和解決方案,介紹了復雜知識庫問答的兩種主流方法,即基于語義解析(基于SP)的方法和基于信息檢索(基于IR)的方法。首先,我們形式化地定義了知識庫問答任務(wù)并介紹了該任務(wù)下相關(guān)的數(shù)據(jù)集。然后,我們從兩個類別的角度全面回顧了前沿方法,說明他們針對典型挑戰(zhàn)的解決方案。最后,我們總結(jié)并討論了一些仍具有挑戰(zhàn)的未來研究方向。
知識庫(KB)是一個結(jié)構(gòu)化的數(shù)據(jù)庫,它以(主題、關(guān)系、對象)的形式包含一系列事實。大型KBs,如Freebase [Bollacker et al., 2008], DBPedia [Lehmann et al., 2015]和Wikidata [Tanon et al., 2016],已經(jīng)構(gòu)建服務(wù)于許多下游任務(wù)。知識庫問答(KBQA)是一種基于知識庫的自然語言問答任務(wù)。KBQA的早期工作[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Lan et al., 2019b; Lan et al., 2019a]專注于回答一個簡單的問題,其中只涉及一個單一的事實。例如,“j·k·羅琳出生在哪里?”“是一個可以用事實來回答的簡單問題”(J.K.羅琳)羅琳,出生地,英國)。
最近,研究人員開始更多地關(guān)注于回答復雜問題,即復雜的KBQA任務(wù)[Hu et al., 2018b; Luo et al., 2018]。復雜問題通常包含多個主題,表達復合關(guān)系,并包含數(shù)值運算。以圖1中的問題為例。這個例題的開頭是“the Jeff Probst Show”。這個問題不是問一個單一的事實,而是要求由兩個關(guān)系組成,即“被提名人”和“配偶”。該查詢還與一個實體類型約束“(Jeff Probst,是一個電視制作人)”相關(guān)聯(lián)。最后的答案應(yīng)該通過選擇有最早結(jié)婚日期的可能候選人來進一步匯總。一般來說,復雜問題是涉及多跳推理、約束關(guān)系、數(shù)值運算或上述幾種組合的問題。
回到簡單KBQA的解決方案,已經(jīng)提出了兩種主流方法的一些研究。這兩種方法首先識別問題中的主題,并將其鏈接到知識庫中的實體(稱為主題實體)。然后,通過執(zhí)行已解析的邏輯形式或在從知識庫中提取的特定于問題的圖中進行推理,在主題實體的鄰近區(qū)域內(nèi)獲得答案。這兩類方法在以往的工作中通常被稱為基于語義解析的方法(基于SP的方法)和基于信息檢索的方法(基于IR的方法)[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Gu et al., 2020]。它們包括解決KBQA任務(wù)的不同工作機制。前一種方法用符號邏輯形式表示問題,然后對知識庫執(zhí)行它,獲得最終答案。后一種方法構(gòu)造一個特定于問題的圖,給出與問題相關(guān)的全面信息,并根據(jù)其與問題的相關(guān)性對抽取的圖中的所有實體進行排序。
然而,當將這兩種主流方法應(yīng)用于復雜的KBQA任務(wù)時,復雜的問題會給這兩種方法的不同部分帶來挑戰(zhàn)。我們認為主要挑戰(zhàn)如下:
現(xiàn)有基于SP的方法中使用的解析器難以覆蓋各種復雜的查詢(例如,多跳推理、約束關(guān)系和數(shù)值運算)。類似地,以前的基于ir的方法可能無法回答復雜的查詢,因為它們的排序是在沒有可追溯推理的情況下對小范圍實體執(zhí)行的。
在復雜問題中,更多的關(guān)系和主題意味著更大的潛在邏輯形式的搜索空間,這將顯著增加計算成本。同時,更多的關(guān)系和被試會阻礙基于IR的方法檢索所有相關(guān)實體進行排序。
兩種方法都把理解問題作為首要步驟。當問題在語義和句法方面都變得復雜時,就要求模型具有較強的自然語言理解和泛化能力。
對于復雜問題,為答案標記ground truth路徑是非常昂貴的。通常,只提供問答對。這表明基于SP的方法和基于IR的方法需要分別在沒有正確邏輯形式和推理路徑標注的情況下進行訓練。這種微弱的監(jiān)管信號給兩種方式都帶來了困難。
關(guān)于相關(guān)綜述,我們觀察到Wu等人[2019]和Chakraborty等人[2019]回顧了關(guān)于簡單KBQA的現(xiàn)有工作。此外,F(xiàn)u等人[2020]研究了復雜KBQA的當前進展。他們只從技術(shù)的角度提供了高級方法的一般觀點,而更多地關(guān)注于電子商務(wù)領(lǐng)域的應(yīng)用場景。與這些綜述不同的是,我們的工作試圖識別在以往的研究中遇到的挑戰(zhàn),并以全面和有序的方式廣泛討論現(xiàn)有的解決方案。具體來說,我們將復雜KBQA的方法根據(jù)其工作機制分為兩種主流方法。我們將這兩種方法的整個過程分解為一系列模塊,并分析每個模塊中的挑戰(zhàn)。我們相信這種方式特別有助于讀者理解挑戰(zhàn),以及如何在現(xiàn)有的復雜KBQA解決方案中解決這些挑戰(zhàn)。此外,我們還對復雜KBQA的幾個有前途的研究方向進行了展望。
原文標題:IJCAI2021最新「復雜知識庫問答研究」綜述論文,闡述KBQA方法、挑戰(zhàn)與對策
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責任編輯:haq
-
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3799瀏覽量
64395 -
自然語言
+關(guān)注
關(guān)注
1文章
288瀏覽量
13350
原文標題:IJCAI2021最新「復雜知識庫問答研究」綜述論文,闡述KBQA方法、挑戰(zhàn)與對策
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論