面向制造領(lǐng)域人機(jī)物三元數(shù)據(jù)融合的本體自動(dòng)化構(gòu)建方法
摘要
當(dāng)前,智能制造面臨的許多問題都具有不確定性和復(fù)雜性,單純地利用專家經(jīng)驗(yàn)和機(jī)理模型難以有效解決.鑒于此,面向跨層跨域的復(fù)雜制造系統(tǒng)網(wǎng)絡(luò)化協(xié)同控制機(jī)制,提出一種基于本體的人機(jī)物三元數(shù)據(jù)融合方法,研究復(fù)雜制造環(huán)境下的人機(jī)物三元數(shù)據(jù)融合建模.在抽取三元組時(shí),區(qū)別于傳統(tǒng)的流水線式抽取方式,提出一種基于實(shí)體-關(guān)系聯(lián)合抽取的模型ErBERT.該模型首先經(jīng)過預(yù)訓(xùn)練模型BERT進(jìn)行詞序列化,經(jīng)過最大池化、全連接和Softmax等操作后,完成實(shí)體識(shí)別和關(guān)系分類任務(wù),得到抽取完畢的人機(jī)物三元組.將抽取好的三元組按照規(guī)則映射至OWL文件,最終存儲(chǔ)在圖數(shù)據(jù)庫中,實(shí)現(xiàn)本體模型的構(gòu)建.經(jīng)實(shí)驗(yàn)驗(yàn)證,經(jīng)過ErBERT抽取出的三元組有較好的準(zhǔn)確率,能夠達(dá)到通過本體融合人機(jī)物三元數(shù)據(jù)的目標(biāo),并為實(shí)現(xiàn)制造企業(yè)人機(jī)物三元協(xié)同決策與優(yōu)化提供技術(shù)支撐。
引言
隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù)的迅猛發(fā)展,傳統(tǒng)制造業(yè)正加速向新一代智能制造邁進(jìn)[1]. 快速變化的市場(chǎng)環(huán)境及多元化的用戶需求使制造業(yè)環(huán)境日趨復(fù)雜,提升企業(yè)應(yīng)對(duì)復(fù)雜環(huán)境中不確定性因素的控制與決策水平,是企業(yè)向智能工廠轉(zhuǎn)型中亟待解決的重要科學(xué)命題.
伴隨著制造系統(tǒng)復(fù)雜度日益增加、用戶個(gè)性化需求不斷增長(zhǎng),以往的制造體系和制造水平已經(jīng)難以滿足個(gè)性化、智能化產(chǎn)品和服務(wù)增值升級(jí)的需求,制造系統(tǒng)將由以往的機(jī)物二元系統(tǒng)發(fā)展為人機(jī)物三元系統(tǒng). 在復(fù)雜制造系統(tǒng)中,人(人力資源)具備不完全
第37卷
信息決策能力的優(yōu)點(diǎn)和獲取深度知識(shí)能力差的缺點(diǎn),機(jī)(虛擬信息系統(tǒng))具備處理海量數(shù)據(jù)的優(yōu)點(diǎn)和處理不完全信息能力差的缺點(diǎn),物(生產(chǎn)物理系統(tǒng))具備執(zhí)行能力強(qiáng)的優(yōu)點(diǎn)和缺乏數(shù)據(jù)強(qiáng)處理能力的缺點(diǎn). 新一代人工智能將人的作用引入到系統(tǒng)中,可極大地提高制造系統(tǒng)處理復(fù)雜性、不確定性問題的能力,有效實(shí)現(xiàn)產(chǎn)品及其生產(chǎn)和服務(wù)過程的最優(yōu)化,人機(jī)物三元深度融合將會(huì)使人的智慧與機(jī)器的智能相互啟發(fā)性地增長(zhǎng)[2].
語義網(wǎng)是由Tim Berners-Lee最先提出的一個(gè)概念,可以使異構(gòu)的數(shù)據(jù)信息相關(guān)聯(lián),組成語義網(wǎng)絡(luò),從而計(jì)算機(jī)可以理解和處理網(wǎng)絡(luò)中的語義信息[3]. 本體作為語義網(wǎng)的基礎(chǔ),是一種能在語義及知識(shí)層次上描述數(shù)據(jù)的概念模型,用于確定領(lǐng)域內(nèi)被共同認(rèn)可的概念,并給出概念間的相互關(guān)系,從而實(shí)現(xiàn)海量多元異構(gòu)數(shù)據(jù)的集成、共享與重用[4]. 傳統(tǒng)的本體構(gòu)建方法主要依靠領(lǐng)域?qū)<沂止?gòu)建,一旦構(gòu)建的領(lǐng)域本體較為龐大,則會(huì)耗費(fèi)大量的時(shí)間和精力. 因此,如何使用自動(dòng)化的方式從數(shù)據(jù)源中抽取信息并構(gòu)建本體,減少領(lǐng)域?qū)<业膮⑴c,是當(dāng)前本體研究的熱點(diǎn)之一.異構(gòu)數(shù)據(jù)會(huì)造成信息交互的問題,利用本體進(jìn)行人機(jī)物三元數(shù)據(jù)的集成與融合,不僅可以解決操作障礙, 減少數(shù)據(jù)冗余, 還可以加強(qiáng)數(shù)據(jù)的推理和決策能力. 本文提出一種基于本體的人機(jī)物三元數(shù)據(jù)融合模型, 并在進(jìn)行本體三元組的抽取時(shí), 區(qū)別于傳統(tǒng)流水線式抽取方式, 基于預(yù)訓(xùn)練模型 BERT(bidirectional encoder representation from transformers)提出一種實(shí)體-關(guān)系聯(lián)合抽取模型ErBERT (entity andrelationship extraction with BERT),從而更好地整合實(shí)體及其關(guān)系之間的信息. 最后以寶鋼熱軋生產(chǎn)環(huán)節(jié)為案例,使用ErBERT自動(dòng)構(gòu)建本體. 結(jié)果顯示,所提出的ErBERT模型是行之有效的.
一、相關(guān)工作
1.1 人機(jī)物三元數(shù)據(jù)融合
數(shù)據(jù)融合的目的是將多元異構(gòu)數(shù)據(jù)進(jìn)行融合,使得獲得的信息能有效地應(yīng)用到?jīng)Q策中[5]. 傳統(tǒng)的數(shù)據(jù)融合技術(shù),如模糊集理論、概率論理論以及可信度理論,對(duì)于各有其特點(diǎn)的人機(jī)物三元數(shù)據(jù)缺乏有效的融合方法. 目前國(guó)內(nèi)外已有針對(duì)人機(jī)物三元系統(tǒng)數(shù)據(jù)融合的研究, Hussein等[6] 提出DSSoT智能服務(wù),將人與物聯(lián)網(wǎng)的數(shù)據(jù)通過動(dòng)態(tài)社會(huì)物聯(lián)網(wǎng)的模型進(jìn)行融合; Misra等[7] 提出一種多變量數(shù)據(jù)融合學(xué)習(xí)模型,通過訓(xùn)練樸素貝葉斯、k近鄰、決策樹和支持向量機(jī)4個(gè)分類器,可以改善數(shù)據(jù)異構(gòu),提高輔助決策預(yù)測(cè)精度; Bu[8] 提出了一種基于張量模型的高階K-means算法用于人機(jī)物三元數(shù)據(jù)的聚類,以獲得更準(zhǔn)確的結(jié)果; Wang等[9] 提出一系列基于張量的數(shù)據(jù)融合方法,最后給出一個(gè)綜合的人機(jī)物數(shù)據(jù)融合框架; Chen等[10] 對(duì)基于強(qiáng)化學(xué)習(xí)算法的三元數(shù)據(jù)融合進(jìn)行研究,但未涉及語義層面的自動(dòng)化、智能化融合. 上述數(shù)據(jù)融合方法嘗試將人機(jī)物數(shù)據(jù)進(jìn)行融合,但忽略了人機(jī)物數(shù)據(jù)之間存在的關(guān)聯(lián)與特征. 針對(duì)以上問題,本文采用語義融合的方法,將人機(jī)物三元數(shù)據(jù)抽象為語義信息,用本體形式表示語義,進(jìn)行人機(jī)物三元數(shù)據(jù)的融合.
1.2 本體自動(dòng)化構(gòu)建
構(gòu)建本體的方式可以分為3類:手動(dòng)構(gòu)建本體、半自動(dòng)化構(gòu)建本體和自動(dòng)化構(gòu)建本體,自動(dòng)化構(gòu)建本體方法由于其有效性,逐漸成為研究的熱點(diǎn). Hazber等[11] 定義了基于關(guān)系型數(shù)據(jù)庫模式自動(dòng)構(gòu)造本體的映射規(guī)則; Zhao 等[12] 提出基于多標(biāo)簽學(xué)習(xí)模型與關(guān)聯(lián)標(biāo)簽傳播的原始結(jié)構(gòu)單詞提取方法,以提高本體關(guān)系自動(dòng)識(shí)別精度,優(yōu)化本體構(gòu)建; Kethavarapu等[13]采用基于關(guān)鍵字、基于值的抽取方法對(duì)日志文件數(shù)據(jù)進(jìn)行集成,再將其轉(zhuǎn)換為OWL (web ontologylanguage)文件,從而實(shí)現(xiàn)了自動(dòng)本體的生成.實(shí)體-關(guān)系抽取是信息抽取、知識(shí)圖譜以及自然語言處理領(lǐng)域的核心任務(wù)和重要環(huán)節(jié),同時(shí)也是自動(dòng)化構(gòu)建本體中最重要的一步[14]. 在本體中,知識(shí)以?entity1, relationship, entity2? 的格式保存為結(jié)構(gòu)化三元組,即實(shí)體entity1、entity2之間存在relationship關(guān)系. 有監(jiān)督的實(shí)體-關(guān)系抽取方法可分為流水線式和聯(lián) 合學(xué)習(xí) 式兩種. 前者將命 名實(shí)體 識(shí)別(named entity recognition, NER)和關(guān)系分類(relationclassifification, RC)作為兩個(gè)獨(dú)立的子任務(wù)在完成實(shí)體識(shí)別之后再進(jìn)行關(guān)系的抽取[15-16]. 前,國(guó)內(nèi)外研究學(xué)者在進(jìn)行三元組抽取從而實(shí)現(xiàn)本體自動(dòng)化構(gòu)建時(shí),大多使用流水線式方法,這種方法忽略了兩個(gè)子任務(wù)之間的相關(guān)性,且會(huì)造成誤差累積. 最近的研究表明,使用聯(lián)合學(xué)習(xí)的方法可以更加緊密地交互實(shí)體與關(guān)系之間的信息,很好地解決了流水線式方式存在的問題. Zheng等[17] 使用混合BiLSTM-EDCNN的神經(jīng)網(wǎng)絡(luò)模型,在實(shí)體與關(guān)系抽取任務(wù)上表現(xiàn)優(yōu)異; Luo等[18] 提出了一種基于Att-BiLSTM-CRF的聯(lián)合學(xué)習(xí)方法,用于生物醫(yī)學(xué)實(shí)體和關(guān)系提取. 這些模型基于實(shí)體關(guān)系聯(lián)合訓(xùn)練的方法進(jìn)行三元組的抽取,但大多使用公開數(shù)據(jù)集進(jìn)行訓(xùn)練,不針對(duì)制造業(yè)領(lǐng)域.
本文基于BERT預(yù)訓(xùn)練模型,提出一種實(shí)體-關(guān)系聯(lián)合抽取模型ErBERT,針對(duì)特定下游任務(wù)對(duì)模型進(jìn)行微調(diào),并針對(duì)鋼鐵制造行業(yè)建立數(shù)據(jù)集HRDT對(duì)模型進(jìn)行訓(xùn)練,完成制造業(yè)領(lǐng)域的人機(jī)物三元組抽取.
二、面向人機(jī)物數(shù)據(jù)融合的本體自動(dòng)化構(gòu)建方法
2.1 總體架構(gòu)
本文研究面向制造領(lǐng)域人機(jī)物三元數(shù)據(jù)融合的本體自動(dòng)構(gòu)建方法,故立足于制造業(yè),尋找人機(jī)物三元數(shù)據(jù)的各自特征和內(nèi)在聯(lián)系是本文研究的必經(jīng)之路. 在制造業(yè)領(lǐng)域,人的數(shù)據(jù)主要指專家經(jīng)驗(yàn)、供應(yīng)商及用戶信息,同時(shí)人具有處理不確定性信息的能力;機(jī)可以處理海量數(shù)據(jù),但無法處理不確定性知識(shí),數(shù)據(jù)主要包括數(shù)據(jù)庫里的結(jié)構(gòu)化表單以及企業(yè)信息系統(tǒng)內(nèi)的信息;物的數(shù)據(jù)來源于客觀存在的實(shí)體對(duì)象,一般指檢測(cè)設(shè)備和生產(chǎn)設(shè)備的數(shù)據(jù). 為了實(shí)現(xiàn)人機(jī)物三元本體的自動(dòng)化構(gòu)建,本文設(shè)計(jì)了如圖1所示的體系架構(gòu),包括數(shù)據(jù)采集、三元組抽取和本體存儲(chǔ)三部分. 其中,如何從文本數(shù)據(jù)中自動(dòng)獲取三元組是本文研究的重點(diǎn)內(nèi)容.
數(shù)據(jù)采集是指分別以人、機(jī)、物作為數(shù)據(jù)來源,尋找相關(guān)的領(lǐng)域特定概念. 人的數(shù)據(jù)包括專家經(jīng)驗(yàn)、班組日志以及供應(yīng)商信息等;機(jī)的數(shù)據(jù)主要來自于企業(yè)信息系統(tǒng),包括工藝制度、生產(chǎn)調(diào)度計(jì)劃以及規(guī)則數(shù)據(jù)等;物的數(shù)據(jù)由客觀存在的數(shù)據(jù)構(gòu)成,包括設(shè)備數(shù)據(jù)、鋼種數(shù)據(jù)等. 將采集到的文本數(shù)據(jù)進(jìn)行切分,以單句的形式輸入至三元組抽取模塊.
將切分后的單句作為三元組抽取模塊的輸入,三元組抽取的主要任務(wù)是進(jìn)行命名實(shí)體識(shí)別和關(guān)系抽取. 本文提出了基于預(yù)訓(xùn)練模型BERT的改進(jìn)算法ErBERT,實(shí)現(xiàn)實(shí)體、關(guān)系的聯(lián)合抽取,下文進(jìn)行具體介紹. 三元組抽取以形如?加熱爐,包括,點(diǎn)火器?的三元組形式輸出至下一部分.
在完成人機(jī)物三元組的抽取后,將抽取好的人機(jī)物三元組按照規(guī)則映射至OWL文件,并將其存儲(chǔ)至圖數(shù)據(jù)庫中,實(shí)現(xiàn)人機(jī)物三元本體的自動(dòng)構(gòu)建.
2.2基于ErBERT的三元組抽取
三元組抽取是本體的自動(dòng)化構(gòu)建任務(wù)中極為關(guān)鍵的一步,本文提出的ErBERT模型可以實(shí)現(xiàn)實(shí)體與關(guān)系的聯(lián)合抽取,其基本流程如圖2所示. 在詞向量化模塊中,使用預(yù)訓(xùn)練模型BERT進(jìn)行詞序列化. 將可能的實(shí)體向量經(jīng)最大池化處理,在進(jìn)行全連接和softmax之后得到實(shí)體的類別. 關(guān)系分類模塊在實(shí)體抽取的基礎(chǔ)上進(jìn)行,根據(jù)上一步實(shí)體抽取的結(jié)果,將頭尾實(shí)體向量與頭尾實(shí)體之間的詞向量經(jīng)過全連接層與softmax后得到關(guān)系分類的結(jié)果.
對(duì)于輸入的單句集合, 首先使用 BERT 預(yù)訓(xùn)練模型對(duì)其進(jìn)行分詞并向量化. BERT 是 Google AI語言研究人員最近提出的一個(gè)預(yù)處理模型,在一些自然語言處理任務(wù)上表現(xiàn)出超越過往經(jīng)典模型的優(yōu)異性能. 輸出的向量由詞向量 (token embedding)、句向量 (segment embedding) 和位置向量 (positionembedding)組成,相加之后送入雙向Transformer結(jié)構(gòu)進(jìn)行特征提取,最后得到含有豐富語義特征的序列向量. 深層雙向Tansformer的模型結(jié)構(gòu)是BERT模型中的核心,使得模型在進(jìn)行單詞的處理時(shí),能夠表征單詞在上下文中的具體語義. Transformer編碼結(jié)構(gòu)采用多頭注意力機(jī)制,放棄時(shí)間循環(huán)結(jié)構(gòu),可以同時(shí)處理整個(gè)輸入序列,多頭注意力機(jī)制的輸出為
(3)
其中: Q、K、V 矩陣為編碼器的輸入字向量矩陣;dk為Q、K、V 矩陣的列數(shù),即向量維度.對(duì)于一個(gè)長(zhǎng)度為n的輸入序列,t位置對(duì)應(yīng)的向量和ωk定義如下:
通過BERT預(yù)訓(xùn)練模型輸出的詞序列向量經(jīng)過最大池化處理,進(jìn)行平均和之后,與[CLS]向量進(jìn)行拼接. [CLS]是一個(gè)能夠表示整個(gè)文本的語義特征向量, BERT在輸入文本前插入[CLS]符號(hào),并將該符號(hào)對(duì)應(yīng)的輸出向量作為整個(gè)文本的語義表示. 與輸入文本中已存在的其他字、詞相比較而言, [CLS]作為無明顯語義特征的符號(hào),能夠更加公平地融合文本中各個(gè)字的含義. 經(jīng)過拼接得到的實(shí)體表示xe為
其中: ei為經(jīng)過最大池化處理過后的詞向量表示, c為整個(gè)文本的語義表征.最 后, 將 得 到 的 實(shí) 體 向 量 xe 送 入 全 連 接 加softmax層,全連接層將前面得到的特征做加權(quán)和得到每個(gè)類別的分?jǐn)?shù),再經(jīng)過softmax映射為概率,計(jì)算最有可能的實(shí)體標(biāo)記,公式如下:
完成實(shí)體的抽取后進(jìn)入到關(guān)系分類任務(wù). 給定一組預(yù)定義的關(guān)系類R= {r1, r2, . . . , rj},關(guān)系分類模塊對(duì)處理來自單句中的所有候選實(shí)體對(duì),判斷其是否存在來自R的關(guān)系. 關(guān)系分類模塊輸入由兩部分組成,一是在實(shí)體識(shí)別部分得到的實(shí)體向量表示xe,包括詞序列向量以及能夠表示整個(gè)文本的語義特征向量[CLS];二是兩個(gè)實(shí)體之間文本的向量表示,即候選關(guān)系向量,在進(jìn)行最大池化處理后與前后的實(shí)體向量進(jìn)行拼接,送入關(guān)系分類器中.公式如下:
其中: cr 為經(jīng)過最大池化處理后的詞序列向量, xe1、xe2為cr前后的實(shí)體向量表示.實(shí)體和關(guān)系分類問題均使用交叉熵作為損失函數(shù)計(jì)算loss,以衡量同一個(gè)隨機(jī)變量中兩個(gè)不同概率分布的差異程度,即真實(shí)概率分布與預(yù)測(cè)概率分布之間的差異. 交叉熵函數(shù)的值越小,模型預(yù)測(cè)效果越優(yōu)異. 關(guān)系分類任務(wù)的損失函數(shù)為
其中: m為樣本個(gè)數(shù),ri 為類別標(biāo)簽映射而成的onehot向量實(shí)體-關(guān)系聯(lián)合抽取的損失函數(shù)應(yīng)表示為實(shí)體識(shí)別損失函數(shù)Le與關(guān)系分類損失函數(shù)Lr之和,即
2.3基于圖數(shù)據(jù)庫的本體存儲(chǔ)
經(jīng)過 ErBERT 進(jìn)行三元組抽取得到形如? 加熱爐,包括,點(diǎn)火器??車間操作工,相關(guān),班組工作日志?等實(shí)體關(guān)系三元組后,根據(jù)規(guī)則建立起人機(jī)物三元本體的層級(jí)結(jié)構(gòu),并將其映射至OWL文件,完成本體的構(gòu)建. 構(gòu)建完的本體以Web本體語言的形式保存在OWL文件中,為了實(shí)現(xiàn)快速查詢,用于支撐知識(shí)推理、知識(shí)計(jì)算等上層應(yīng)用,需要進(jìn)行有效的本體存儲(chǔ).圖數(shù)據(jù)庫是一種以圖論為理論基礎(chǔ)的非關(guān)系型數(shù)據(jù)庫,用于存儲(chǔ)實(shí)體及實(shí)體間的關(guān)聯(lián)信息,其基本組成要素是節(jié)點(diǎn)、關(guān)系和屬性. Neo4j是常用的圖數(shù)據(jù)庫之一,本文采用Neo4j進(jìn)行本體的存儲(chǔ). 將映射的OWL文件通過開源工具包RDF2RDF轉(zhuǎn)成RDF格式,再通過Neo4j的功能插件Neosemantics將RDF導(dǎo)入至Neo4j圖數(shù)據(jù)庫中,完成本體的存儲(chǔ).
三、案例驗(yàn)證
3.1問題描述
隨著國(guó)家產(chǎn)能政策的優(yōu)化調(diào)整,供給改革的持續(xù)深入,鋼鐵行業(yè)競(jìng)爭(zhēng)愈加激烈,現(xiàn)代生產(chǎn)中多品種、多規(guī)格、個(gè)性化生產(chǎn)使得鋼鐵行業(yè)面臨日趨復(fù)雜的環(huán)境. 某鋼鐵企業(yè)連軋產(chǎn)線包括熱軋和冷軋兩種工藝,同時(shí)將多個(gè)軋機(jī)布置在一條生產(chǎn)線上,從而一次性完成制品的軋制過程,涉及到的流程復(fù)雜,設(shè)備種類與數(shù)量繁多,難以進(jìn)行有效管理. 熱軋生產(chǎn)一般裝配步進(jìn)式加熱爐,連鑄板坯先后經(jīng)加熱爐加熱、除磷箱去除氧化鐵皮后,進(jìn)入粗軋機(jī)組進(jìn)行多道次往復(fù)軋制,再經(jīng)過二次除磷后進(jìn)行精軋,最后由卷取機(jī)卷成熱軋卷. 冷軋生產(chǎn)以熱軋鋼卷為原料,經(jīng)軋制、退火、酸洗、鍍鋅及彩圖等工序,最終得到冷軋鋼板. 在熱軋和冷軋實(shí)際生產(chǎn)流程中,涉及到日生產(chǎn)計(jì)劃、車間操作人員、庫存以及設(shè)備信息等人機(jī)物數(shù)據(jù),這些數(shù)據(jù)有的依靠紙張線下傳遞,有的通過信息系統(tǒng)存儲(chǔ),數(shù)據(jù)之間缺乏關(guān)聯(lián)性,使得生產(chǎn)車間協(xié)同效率低下,信息同步困難,決策知識(shí)來源單一. 因此,本課題定位至該企業(yè)連軋產(chǎn)線,收集產(chǎn)線生產(chǎn)過程信息,研究基于本體的鋼鐵連軋產(chǎn)線人機(jī)物三元數(shù)據(jù)融合模型,以增強(qiáng)數(shù)據(jù)之間的關(guān)聯(lián)性,旨在促進(jìn)企業(yè)內(nèi)部信息集成,從而提高生產(chǎn)車間協(xié)同效率,實(shí)現(xiàn)有效的連軋生產(chǎn)管理,對(duì)實(shí)現(xiàn)連軋生產(chǎn)協(xié)同制造具有重要意義.
3.2HRDT數(shù)據(jù)集
目前, 在三元組的抽取訓(xùn)練中, 最常使用的是ACE 和 CoNLL-04 數(shù)據(jù)集, 但這些數(shù)據(jù)集沒有針對(duì)特定工業(yè)領(lǐng)域的子集,且不包含構(gòu)建本體所需要的層次實(shí)體關(guān)系. 為了實(shí)現(xiàn)人機(jī)物三元數(shù)據(jù)融合的自動(dòng)化本體構(gòu)建,針對(duì)鋼鐵制造行業(yè)建立了數(shù)據(jù)集HRDT. HRDT數(shù)據(jù)集共有778個(gè)單句,其中58句來自專家經(jīng)驗(yàn),其他從網(wǎng)絡(luò)上爬取或根據(jù)企業(yè)提供資料整理而成. 此數(shù)據(jù)集定義了3種類型的實(shí)體, 11種類型的關(guān)系,具體如表1和表2所示.
HRDT數(shù)據(jù)集按照實(shí)體來源將實(shí)體類別劃分為人、機(jī)、物三類;關(guān)系包括層級(jí)關(guān)系和其他關(guān)系. 層級(jí)關(guān)系有2種,為Include和Belong_2,意為包括、屬于,有明顯的層次語義. 在進(jìn)行本體構(gòu)建時(shí),需要定義規(guī)則,將層級(jí)關(guān)系和其他關(guān)系加以區(qū)分,以完成本體的層次結(jié)構(gòu)建立。
3.3實(shí)驗(yàn)結(jié)果
本文將HRDT數(shù)據(jù)集隨機(jī)分為訓(xùn)練集(80 %),驗(yàn)證集 (10 %) 和測(cè)試集 (10 %) 輸入至 ErBERT 模型中進(jìn)行實(shí)驗(yàn),采用精確率、召回率和F1值評(píng)價(jià)算法的性能,評(píng)價(jià)指標(biāo)定義如下:
其中: Ncorrect 為預(yù)測(cè)正確的實(shí)體或關(guān)系個(gè)數(shù), Nall 為預(yù)測(cè)的實(shí)體或關(guān)系總個(gè)數(shù), Nmarked 為標(biāo)注的實(shí)體或關(guān)系總個(gè)數(shù).實(shí)驗(yàn)結(jié)果如表3和表4所示. 由表中數(shù)據(jù)可知,本文提出的ErBERT模型在實(shí)體識(shí)別和關(guān)系分類任務(wù)上有較好的準(zhǔn)確率.
經(jīng)ErBERT模型后得到的人機(jī)物實(shí)體關(guān)系三元組通過定義的規(guī)則建立起層級(jí)結(jié)構(gòu),映射至OWL文件后,再將其通過RDF2RDF和Neosemantics存儲(chǔ)至Neo4j中. 融合后人機(jī)物三元數(shù)據(jù)具體如圖3所示,節(jié)點(diǎn)的不同顏色代表不同的數(shù)據(jù)來源. 黃色節(jié)點(diǎn)為物的數(shù)據(jù),包括設(shè)備數(shù)據(jù)、鋼種數(shù)據(jù)等; 藍(lán)色節(jié)點(diǎn)為機(jī)的數(shù)據(jù),包括工藝制度、生產(chǎn)調(diào)度計(jì)劃以及規(guī)則數(shù)據(jù)等; 綠色節(jié)點(diǎn)為人數(shù)據(jù),包括專家經(jīng)驗(yàn)、供應(yīng)商數(shù)據(jù)和人員部門信息等. 人、機(jī)、物的節(jié)點(diǎn)相互關(guān)聯(lián)、相互交融,增強(qiáng)了人機(jī)物數(shù)據(jù)之間的關(guān)聯(lián)性,實(shí)現(xiàn)了人、機(jī)、物三元數(shù)據(jù)在語義層次上的深度融合.
融合后的本體模型可以解決傳統(tǒng)人機(jī)物獨(dú)立運(yùn)作模式不能充分利用人機(jī)物優(yōu)點(diǎn)、無法發(fā)揮協(xié)同機(jī)制優(yōu)勢(shì)的問題. 經(jīng)領(lǐng)域?qū)<业脑u(píng)定,通過ErBERT構(gòu)建的人機(jī)物三元本體起到了融合制造領(lǐng)域人機(jī)物三元數(shù)據(jù)的作用. 研究提出的基于本體的人機(jī)物三元數(shù)據(jù)融合模型能夠充分利用本體對(duì)多源異構(gòu)大規(guī)模知識(shí)的組織和管理優(yōu)勢(shì),有效地進(jìn)行企業(yè)信息集成,提升企業(yè)在人機(jī)物等更大范疇處理海量數(shù)據(jù)的綜合決策能力,為研究數(shù)據(jù)驅(qū)動(dòng)的人機(jī)物三元協(xié)同決策與優(yōu)化提供了堅(jiān)實(shí)的技術(shù)支撐.
結(jié) 論
本文提出了基于本體的人機(jī)物三元數(shù)據(jù)融合模型,并在抽取三元組時(shí)區(qū)別于傳統(tǒng)的流水線式抽取方式,采用實(shí)體-關(guān)系聯(lián)合抽取的模型ErBERT. 該模型首先經(jīng)過預(yù)訓(xùn)練模型BERT進(jìn)行詞序列化,經(jīng)過最大池化、全連接和softmax等操作后得到實(shí)體與關(guān)系的類別,完成三元組的抽取;然后將抽取好的三元組按照規(guī)則映射至OWL文件中,完成本體的構(gòu)建;最后將三元本體存儲(chǔ)在Neo4j中,實(shí)現(xiàn)有效的本體存儲(chǔ).
所提出的實(shí)體-關(guān)系聯(lián)合抽取模型ErBERT的優(yōu)勢(shì)在于使命名實(shí)體識(shí)別和關(guān)系分類任務(wù)共享底層神經(jīng)網(wǎng)絡(luò);且在兩個(gè)任務(wù)之間,信息擁有更加緊密的聯(lián)系. 實(shí)驗(yàn)表明,經(jīng)過ErBERT抽取出的三元組有較好的準(zhǔn)確率,本文最終構(gòu)建的本體得到了領(lǐng)域?qū)<业囊恢抡J(rèn)可,達(dá)到了通過本體融合人機(jī)物三元數(shù)據(jù)的目標(biāo),為實(shí)現(xiàn)企業(yè)人機(jī)物三元協(xié)同決策與優(yōu)化提供了技術(shù)支撐.
面對(duì)復(fù)雜多變的制造環(huán)境,基于數(shù)據(jù)驅(qū)動(dòng),發(fā)揮人機(jī)物協(xié)同運(yùn)行的優(yōu)勢(shì)已成為探索自主智能工廠控制與決策科學(xué)命題的主導(dǎo)方向. 基于本體的人機(jī)物多維工業(yè)大數(shù)據(jù)融合將驅(qū)動(dòng)后續(xù)知識(shí)發(fā)現(xiàn)、智能工廠自學(xué)習(xí)知識(shí)圖譜建模及其進(jìn)化機(jī)制、基于自學(xué)習(xí)知識(shí)圖譜智能推理的決策與優(yōu)化理論的建立,使得企業(yè)決策與優(yōu)化轉(zhuǎn)變?yōu)槿藱C(jī)物緊密協(xié)同合作模式. 在接下來的研究中,將探索智能工廠自學(xué)習(xí)知識(shí)圖譜建模及其進(jìn)化機(jī)制,同時(shí)將進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的人機(jī)物三元協(xié)同決策與優(yōu)化理論方法研究,以解決復(fù)雜制造環(huán)境下企業(yè)決策與優(yōu)化所面臨的巨大挑戰(zhàn),有力地推動(dòng)企業(yè)綜合決策與優(yōu)化科學(xué)研究從以專家經(jīng)驗(yàn)為主向數(shù)據(jù)驅(qū)動(dòng)的模式轉(zhuǎn)變.
審核編輯:符乾江
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7048瀏覽量
89078 -
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2909文章
44671瀏覽量
373707 -
人工智能
+關(guān)注
關(guān)注
1791文章
47314瀏覽量
238653
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論