寫在前面
本篇不具體談技術,主要是匯總在事件抽取方向的相關廠商調(diào)研結(jié)果。
1. 事件抽取范疇、范式、技術棧
領域范疇:廠商無論是在特定領域(如:法律、金融),還是通用領域,廠商做的都是限定類型的事件抽取。
范式:除標準抽取外(即事件檢測和事件論元識別),還有:僅抽取觸發(fā)詞和論元;僅抽取事件類型和論元。在論元抽取上也各不相同,有的僅抽取主體,有的抽取通用屬性(如:時間/地點,或者時間/地點/主體/客體)等。
技術棧:
預訓練語言模型+(BiLSTM)+CRF
預訓練語言模型+MRC
預訓練語言模型+Biaffine
Bert+BiLSTM+Self-Attention+Pointer Network
預訓練語言模型+指針結(jié)構+CLN(ConditionalLayerNorm)等
2. 相關廠商匯總
2.1 華為云
領域范疇
華為云/自然語言處理服務接口說明/事件抽取[1]目前只支持金融公告中的會議召開、聘任、辭職、股票增持、股票減持5類事件以及相關要素的抽取。
范式(標準事件抽?。?/p>
包括事件檢測(觸發(fā)詞抽取事件類型判定) 事件論元識別(論元抽取論元角色判定)
技術棧
未找到直接描述,但找到了華為云作為CCKS 2020篇章事件要素抽取比賽冠軍的方案解析[2],但注意這個比賽不屬于標準的事件抽取。
上圖分別是他們的整體框架圖和子模型圖,他們將這個任務拆解了三個子任務:事件類型預測,事件要素抽取,以及事件表格填充。
值得關注的是在論元提取(要素抽?。╇A段,除了CRF外,他們也嘗試了MRC(閱讀理解范式)、Biaffine。其中Biaffine思想來自論文Named Entity Recognition as Dependency Parsing[3]。
另外在最后表格填充時,他們也采用了特殊處理。
2.2 百度
領域范疇
百度AI/知識圖譜/事件圖譜/事件屬性抽取[4]從資訊的標題與正文中,抽取事件發(fā)生時間、地點、參與者、觸發(fā)詞等事件元素。應該未限定領域范疇。
范式和技術棧
未找到直接描述,但可從其報告百度: 事件圖譜技術與應用[5]分析:
通用屬性抽取針對時間、地點、參與者、觸發(fā)詞進行抽取,采用的是實體識別常用的預訓練語言模型(ERNIE)+BiLSTM+CRF;
自定義論元抽取采用MRC(閱讀理解)方式,將抽取轉(zhuǎn)換成問答形式,通過問題嵌入要抽取的目標,如某角色的論元,來解耦了模型與事件類型、角色類型的相關部分;
語義角色抽取和目前我實驗所采用的范式一樣,都是層疊指針結(jié)構。另外因為不同類型事件有各自的論元角色,如果全部建模到模型中,模型會變得很復雜,所以百度將所有角色分門別類,如主體、客體等等(這里百度稱為語義角色),然后利用多層指針結(jié)構同時抽取。
需要指出的是,通用屬性抽取的問題是無法靈活地泛化。MRC(閱讀理解方案)的問題則是效率,因為需要對每一個角色都進行單獨提問抽取。
2.3 科大訊飛
無,但科大訊飛有舉辦相關比賽,這里有一份參賽者的分享科大訊飛2020完整事件抽取系統(tǒng)[6]。
范式
非標準的事件抽取,任務包括:抽取觸發(fā)詞,主體/客體/時間/地點,判定事件發(fā)生狀態(tài)的屬性,包括極性、時態(tài)。極性分為:肯定、否定、可能;時態(tài)分為:過去、現(xiàn)在、將來、其他。
技術棧(pipeline)
觸發(fā)詞抽?。築ert+指針結(jié)構;特征層面:利用遠程監(jiān)督增加了已知的所有觸發(fā)詞的嵌入。
主體/客體/時間/地點抽?。築ert+conditionalLayerNorma+指針結(jié)構。特征層面:trigger在文本中的位置、其他詞到trigger的位置。
2.4 深擎科技
在他們主頁上沒有找到相關接口,但是找到一篇他們分享的文章結(jié)合指針網(wǎng)絡的注意力機制(PAN模型)實現(xiàn)金融領域事件抽取[7]。這篇文章里主要提及了事件主體識別和事件類型判定:
事件類型判定:
金融事件的特征相對明顯,業(yè)務術語等很大程度上決定了分類的效果,他們直接采用Fasttext分類模型,在句子級的事件識別任務中達到了95.7%的準確率。
事件主體識別:
采用了基于指針網(wǎng)絡帶注意力機制(PAN,Point Attention Network:Bert+BiLSTM+Self-Attention+Pointer Network)的事件主體識別模型,從文本中找出在事件中充當?shù)闹黧w角色元素。
2.5 冪律智能
冪律智能-功能介紹
領域范疇
法律方向,分析對象主要為裁判文書、案件卷宗等法律描述文本
范式(非標準事件抽?。?/p>
主要抽取出獨立的包含時間、人物、地點、描述的子事件
技術棧
基于深度學習的序列標注模型,從探測出的事件片段中預測出時間、地點、任務、描述信息
值得注意的是,他們還有一個時間線(類似于事件脈絡),主要是通過提取出的時間標準化比對。
冪律智能事件抽取展示頁面
2.6 云孚語義
有,而且已經(jīng)有了事件脈絡(原計劃將要做的,別人已經(jīng)有了),但是目前沒有看到云孚主頁[7]有演示接口,僅看到它的微信公眾號文章中的展示。
云孚語義-事件脈絡
3.總結(jié)
關于事件抽取方向的相關廠商調(diào)研內(nèi)容就到這里了,后續(xù)將會出事件抽取方向調(diào)研-技術棧篇等相關內(nèi)容。
審核編輯 :李倩
-
事件
+關注
關注
0文章
12瀏覽量
9949 -
語言模型
+關注
關注
0文章
535瀏覽量
10306
原文標題:3.總結(jié)
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論