12月18日,優(yōu)必選研究院技術(shù)專家羅沛鵬在智東西公開(kāi)課進(jìn)行了一場(chǎng)的直播講解,主題為《優(yōu)必選服務(wù)機(jī)器人自然語(yǔ)言處理技術(shù)》,這也是優(yōu)必選專場(chǎng)第7講。
在本次講解中,羅沛鵬老師首先從自然語(yǔ)言處理技術(shù)的研究出發(fā),對(duì)優(yōu)必選的自然語(yǔ)言處理在機(jī)器人中的應(yīng)用,如場(chǎng)景交互中的多輪對(duì)話問(wèn)題,以及AI寫(xiě)作創(chuàng)作等方面進(jìn)行全面解析,并對(duì)優(yōu)必選自然語(yǔ)言處理在機(jī)器人上的應(yīng)用案例進(jìn)行解析。
本文為此次專場(chǎng)主講環(huán)節(jié)的圖文整理:
各位朋友大家好,我是來(lái)自優(yōu)必選研究院的羅沛鵬,今天由我給大家講解優(yōu)必選服務(wù)機(jī)器人自然語(yǔ)言處理技術(shù)。內(nèi)容會(huì)分為以下5個(gè)部分:
1、服務(wù)機(jī)器人語(yǔ)音交互技術(shù)概述
2、自然語(yǔ)言處理技術(shù)概述與發(fā)展
3、優(yōu)必選自然語(yǔ)言處理技術(shù)的研究與開(kāi)發(fā)
4、優(yōu)必選自然語(yǔ)言處理技術(shù)在服務(wù)機(jī)器人上的應(yīng)用
5、優(yōu)必選自然語(yǔ)言處理技術(shù)未來(lái)研究方向
正文:
服務(wù)機(jī)器人語(yǔ)音交互技術(shù)概述
如上圖所示,人的語(yǔ)音通過(guò)ASR(語(yǔ)音識(shí)別)把音頻變成文本,文本經(jīng)過(guò)NLU(語(yǔ)義理解)、DM(對(duì)話管理)以及NLG(語(yǔ)言生成),生成的語(yǔ)言在通過(guò)TTS(語(yǔ)音合成),最后機(jī)器人完成對(duì)話。
自然語(yǔ)言處理技術(shù)概述與發(fā)展
首先來(lái)幾個(gè)段子,相信大家在網(wǎng)上經(jīng)常看到類似的段子,比如“貨拉拉拉不拉拉布拉多”,這個(gè)是一個(gè)典型的中文分詞問(wèn)題,生活中給大家?guī)?lái)不少的麻煩。另外我相信大家都在拼音輸入法上翻過(guò)車(chē),“答辯”打成“大便”,這是一個(gè)典型的語(yǔ)言模型問(wèn)題,后面會(huì)介紹語(yǔ)言相關(guān)的模型。還有在前段時(shí)間比較火的滿分作文生成器,可以用它來(lái)生成類似的滿分作文,后邊也有文本生成的算法介紹,請(qǐng)大家拭目以待。
自然語(yǔ)言處理技術(shù)可以分為基礎(chǔ)技術(shù)和核心應(yīng)用。其中,基礎(chǔ)技術(shù)包括自動(dòng)分詞、詞性標(biāo)注、命名實(shí)體識(shí)別以及句法分析。
自動(dòng)分詞是自然語(yǔ)言處理領(lǐng)域最基礎(chǔ)的工作,以前主要基于規(guī)則和概率統(tǒng)計(jì),現(xiàn)在已經(jīng)發(fā)展到基于深度學(xué)習(xí)。比如“武漢市長(zhǎng) 江大橋”還是“武漢市 長(zhǎng)江大橋”等都是通過(guò)統(tǒng)計(jì)模型可以把詞分配好。
詞性標(biāo)注就是在分完詞后,利用算法把每個(gè)詞的詞性標(biāo)注上。通常詞性標(biāo)注的粒度可以很細(xì),比如可以標(biāo)注動(dòng)詞、副動(dòng)詞、趨向動(dòng)詞、不及物動(dòng)詞等。
命名體識(shí)別是指識(shí)別具有特定意義的實(shí)體,比如人名、地名、機(jī)構(gòu)名、專有名詞等。
句法分析主要是指分析句中的主謂賓、定狀補(bǔ)的句法關(guān)系。它的應(yīng)用非常廣泛,情感、信息、問(wèn)答、機(jī)器翻譯、自動(dòng)文摘、閱讀理解以及文本分類等。
上圖是自然語(yǔ)言處理的四個(gè)階段,第一階段:在2000年之前,主要是基于規(guī)則和基于概率統(tǒng)計(jì)的方法。在50年代提出了圖靈測(cè)試的概念來(lái)判斷機(jī)器是否會(huì)思考,到目前為止,還沒(méi)有出現(xiàn)大家一致認(rèn)可的對(duì)話系統(tǒng)通過(guò)圖靈測(cè)試。第二階段:在2013年,隨著神經(jīng)網(wǎng)絡(luò)的興起,極大的提升了NLP的各項(xiàng)能力。第三階段:基于seq2seq模型的NLP和注意力機(jī)制,在文本生成和機(jī)器翻譯方面獲得了比較大的進(jìn)展。第四階段是2018年以來(lái),大型預(yù)訓(xùn)練模型的發(fā)展,也是我們現(xiàn)在所處的階段。
優(yōu)必選自然語(yǔ)言處理技術(shù)的研究與開(kāi)發(fā)
目前,優(yōu)必選的研究方向分為以下幾種:
1、任務(wù)型對(duì)話,主要是把意圖詞槽以及上下文的一些信息給抽取出來(lái),在日常生活和服務(wù)機(jī)器人上用的比較多。
2、開(kāi)放式閑聊,主要基于多輪的語(yǔ)料,做了一些開(kāi)放式的閑聊。
3、文本生成,主要是一些創(chuàng)作類的文本生成,開(kāi)放式閑聊也用到了一些文本生成的技術(shù)。
4、知識(shí)圖譜,為了提升交互體驗(yàn)以及賦予對(duì)話更多的知識(shí),我們也在做這方面的嘗試。
5、相似問(wèn)法生成,主要是為了平臺(tái)的語(yǔ)料能夠很好的自動(dòng)擴(kuò)展,提升泛化能力。
下面介紹下任務(wù)型對(duì)話的技術(shù)概述,如上圖所示,任務(wù)型對(duì)話主要分為用戶自定義技能以及內(nèi)置技能。自定義技能是提供一個(gè)平臺(tái)可以讓用戶錄入語(yǔ)料,一鍵訓(xùn)練后就會(huì)生效。內(nèi)置技能則提供了20余個(gè)技能讓用戶可以勾選,比如天氣、鬧鐘。
接下來(lái)看下上圖右邊的流程圖,對(duì)話開(kāi)始,然后采用用戶自定義的模型去預(yù)測(cè),如果有結(jié)果,則進(jìn)入會(huì)話管理模塊檢查下詞槽的完整性,如果完整,會(huì)進(jìn)入內(nèi)容的搜索,并儲(chǔ)存歷史會(huì)話信息;如果不完整,會(huì)引導(dǎo)補(bǔ)充詞槽話術(shù),然后儲(chǔ)存歷史會(huì)話信息,返回引導(dǎo)話術(shù)。如果對(duì)話開(kāi)始,用戶自定義模型預(yù)測(cè)是沒(méi)有結(jié)果的,它會(huì)采用內(nèi)置技能的模型去預(yù)測(cè),看否有內(nèi)置技能的結(jié)果,如果有結(jié)果,跟重復(fù)上面是一樣的會(huì)話管理、完整性檢查、歷史會(huì)話存儲(chǔ)等流程,直到對(duì)話結(jié)束。
如果內(nèi)置的技能也沒(méi)有,最后將走到閑聊模塊。右邊舉了一個(gè)詳細(xì)的例子,“今天天氣怎么樣”,算法會(huì)識(shí)別到領(lǐng)域意圖、天氣以及時(shí)間,然后識(shí)別到當(dāng)前語(yǔ)句的語(yǔ)義之后,會(huì)進(jìn)入會(huì)話管理模塊,看下是否有一些缺少的詞槽。比如天氣缺少城市,它會(huì)觸發(fā)“你想了解哪座城市的天氣”。然后,用戶問(wèn)的下一輪,算法會(huì)根據(jù)上下文信息去預(yù)測(cè)該問(wèn)題是哪個(gè)領(lǐng)域。例如“深圳的”上文可能是天氣、交通或其他的一些領(lǐng)域。在此處根據(jù)上下文信息,可以預(yù)測(cè)到“深圳的”是屬于是天氣領(lǐng)域的。
具體實(shí)現(xiàn)可以看下上面的Demo,在上面的平臺(tái)中提供給用戶自己去配語(yǔ)料,然后一鍵觸發(fā)訓(xùn)練并生效。平臺(tái)需要添加詞典,詞典用于詞槽抽取。平臺(tái)也需要添加意圖以及語(yǔ)料。同時(shí)平臺(tái)還需要配置上下文信息,用于上下文預(yù)測(cè)算法以及會(huì)話管理。此外平臺(tái)也可以配置必須填的詞槽等。
為什么要做這樣的平臺(tái)?主要原因有三個(gè):
第一是NLP場(chǎng)景特別多,機(jī)場(chǎng)、政府、商場(chǎng)的對(duì)話是完全不一樣的,通過(guò)這個(gè)平臺(tái),公司的產(chǎn)品可以為每一臺(tái)服務(wù)機(jī)器人定制特定的語(yǔ)料,減輕了算法工程師的工作量。
第二是迭代快,我們的平臺(tái)自上線以來(lái)已經(jīng)為咖啡機(jī)、防疫機(jī)器人等提供問(wèn)答服務(wù)。尤其是防疫機(jī)器人在緊急情況下不到兩周就完成了迭代。
第三是成本低,極大的降低了人力成本。
對(duì)話的核心是在多輪對(duì)話語(yǔ)境中的有效識(shí)別,那怎樣在多輪對(duì)話語(yǔ)境中能夠表現(xiàn)很好呢?我們需要一個(gè)好的主算法,如上圖所示,先介紹下主算法的優(yōu)點(diǎn),它之所以適用于各種復(fù)雜的多輪對(duì)話語(yǔ)境中,是因?yàn)樵撍惴ɑ陬A(yù)訓(xùn)練的BERT模型,泛化能力好。同時(shí),由于在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中有用到歷史會(huì)話的上下文信息,所以該算法可以提升上下文的理解能力。此外,該算法在一個(gè)神經(jīng)網(wǎng)絡(luò)中能夠同時(shí)識(shí)別意圖、詞槽。最后,通過(guò)數(shù)據(jù)增強(qiáng)等策略提升模型對(duì)低資源應(yīng)用場(chǎng)景的適用性。
接著看上圖左邊,介紹深度算法的流程,u(t)表示用戶當(dāng)前的提問(wèn),s(t-1)表示機(jī)器人上一輪的回復(fù),然后通過(guò)BERT提取特征,再進(jìn)入到雙向的GRU里,因?yàn)楫?dāng)前的語(yǔ)句只在后半部分u這邊,該部分通過(guò)BERT的輸出可以再輸入到一個(gè)雙向LSTM中,接著再輸入到CRF里進(jìn)行詞槽的抽取。同時(shí)該GRU的左右雙向的輸出結(jié)果可以拼接在一起,通過(guò)線性的轉(zhuǎn)換,然后通過(guò)sigmoid函數(shù),進(jìn)行動(dòng)作的預(yù)測(cè)。該GRU用來(lái)做詞槽抽取的特征也會(huì)輸入到另外一個(gè)線性轉(zhuǎn)換中,然后每一個(gè)分別輸出一個(gè)key和value,再一一對(duì)應(yīng),輸入到一個(gè)attention layer,進(jìn)入線性的轉(zhuǎn)換,最后進(jìn)行意圖的預(yù)測(cè)。
意圖的數(shù)量是隨著用戶配置的意圖數(shù)量而定,比如一個(gè)咖啡機(jī)可能配了10個(gè)意圖。同時(shí),該算法也是一個(gè)多分類的任務(wù),因?yàn)檫@些意圖之間存在一定的附屬關(guān)系。舉個(gè)例子,比如“今天天氣怎么樣”,這可能是“查天氣”主意圖,但說(shuō)“明天呢”,可能是“天氣查時(shí)間”子意圖。因此融合上下文的信息,可以對(duì)意圖進(jìn)行比較好的預(yù)判。
下面重點(diǎn)講下上下文的網(wǎng)絡(luò)結(jié)構(gòu),上下文的輸入u表示用戶提問(wèn),s表示的機(jī)器人回復(fù),可以通過(guò)BERT提取特征,進(jìn)入雙向的 GRU里,然后把該時(shí)刻的信息作為時(shí)間序列的一部分。這些信息根據(jù)時(shí)間序列輸入到一個(gè) GRU網(wǎng)絡(luò)結(jié)構(gòu)中。最后的輸出將作為雙向初始特征,用于輸入意圖、詞槽的雙向GRU網(wǎng)絡(luò)中。
接下來(lái)介紹下平臺(tái)訓(xùn)練的流程:導(dǎo)入詞典、編輯意圖、回復(fù)邏輯,然后再導(dǎo)入問(wèn)法擴(kuò)充模板,并導(dǎo)入一些實(shí)際的語(yǔ)料。在訓(xùn)練時(shí),先加載語(yǔ)料,這時(shí)我們會(huì)通過(guò)聚類的分析去篩選驗(yàn)證集,因?yàn)槲覀兿胍?yàn)證集的分布與訓(xùn)練集是一致的。這里很重要,因?yàn)樵谧匀徽Z(yǔ)言處理中,每一個(gè)意圖,比如查天氣與查鬧鐘,它們的語(yǔ)料數(shù)量可能是不在一個(gè)數(shù)量級(jí)的。有可能查天氣有1萬(wàn)條語(yǔ)料,而查鬧鐘只有區(qū)區(qū)幾百條語(yǔ)料,這樣造成了語(yǔ)料的不均衡。如果不用聚類算法把驗(yàn)證集的分布與訓(xùn)練集做的相似,采樣時(shí)可能會(huì)漏掉一些語(yǔ)料少的意圖。做完驗(yàn)證集的篩選后,我們會(huì)生成一批多輪對(duì)話語(yǔ)料去進(jìn)行訓(xùn)練。為什么每次要生成語(yǔ)料,因?yàn)檩斎霑?huì)涉及到歷史的會(huì)話信息,所以在多輪的條件下,每次是不一樣的。因此,每次生成一批語(yǔ)料,然后看模型是否收斂,收斂則發(fā)布模型,不收斂就重復(fù)該流程,直到達(dá)到限制條件。模型訓(xùn)練完發(fā)布后,進(jìn)入使用階段,在這個(gè)階段用戶輸入對(duì)話,對(duì)它進(jìn)行意圖的識(shí)別,詞槽的抽取,再經(jīng)過(guò)一些會(huì)話管理的模塊,最后結(jié)束。
深度學(xué)習(xí)的優(yōu)點(diǎn)是對(duì)上下文的理解會(huì)非常精準(zhǔn),對(duì)平臺(tái)的精準(zhǔn)度提升非常有效,但是它的網(wǎng)絡(luò)比較復(fù)雜,所以需要比較好的設(shè)備,那有沒(méi)有比較節(jié)省成本的一些算法呢?我們還有一個(gè)快速算法,快速算法的特點(diǎn)是有以下三個(gè):
1、只對(duì)語(yǔ)料模板進(jìn)行訓(xùn)練,可以千百倍的減少訓(xùn)練時(shí)間;
2、模型體積較小,需要的硬件成本也較低;
3、在特定的場(chǎng)景下準(zhǔn)確率也比較高。
那什么是快速算法?比如一句話“我想從北京去成都”,它拆成問(wèn)法,就是“我想從去”。如果訓(xùn)練模型只對(duì)模板進(jìn)行訓(xùn)練會(huì)很快,但也存在一個(gè)問(wèn)題。比方說(shuō),句子中“我想從北京去成都”去預(yù)測(cè)時(shí),需要把它還原成模板。然而,像“成都”這種詞,可能既是歌名又是城市名,這時(shí)它會(huì)產(chǎn)生相當(dāng)多的排列組合。因此,需要準(zhǔn)確的挑出來(lái),“我想從去”,“我想從去”則是錯(cuò)誤的模板。
在訓(xùn)練時(shí)有大量的模板,有正例也有負(fù)例,因此有了第一個(gè)損失函數(shù),令其中的正例模板為1,其他都是0。同時(shí),還需要判斷該問(wèn)題的意圖,即要知道這句話的意圖是交通,所以,需要設(shè)計(jì)一個(gè)意圖預(yù)測(cè)的損失函數(shù)。因此在訓(xùn)練時(shí),讓兩個(gè)損失函數(shù)都收斂就得到一個(gè)快速模型。為什么要用RNN和CNN的算法呢?答案是因?yàn)樗俣缺容^快。以上就是訓(xùn)練的過(guò)程。
在預(yù)測(cè)時(shí),需要先對(duì)句子進(jìn)行詞槽的提取。由于最初是不知道意圖的,所以只能把它在相應(yīng)的詞典里的信息都提取出來(lái),通過(guò)排列組合的方式,會(huì)得到一組模板的候選集(“我想從去”,“我想從去”),把它們輸入到訓(xùn)練好的模型中,就可以預(yù)測(cè)出來(lái)。
下面介紹下優(yōu)必選的閑聊技術(shù),閑聊分為匹配式閑聊與生成式閑聊。匹配式閑聊是有一個(gè)Q&A庫(kù),Q&A庫(kù)如果夠大,可以達(dá)到一個(gè)比較好的閑聊效果。生成式閑聊不需要匹配,根據(jù)問(wèn)題生成答案。他們各有優(yōu)缺點(diǎn),匹配式閑聊是可控的,可以通過(guò)語(yǔ)料的編撰,增加、刪除等方式,包括一些敏感詞可以在建立語(yǔ)料庫(kù)把它給刪除。生成式閑聊的對(duì)話時(shí)的變化會(huì)大一些,但是有一定的不可控性,有時(shí)語(yǔ)料不干凈,會(huì)生成一些不太健康的內(nèi)容,同時(shí)還會(huì)存在一定的語(yǔ)義、語(yǔ)法的問(wèn)題。
優(yōu)必選的閑聊如上圖所示,首先進(jìn)入匹配式閑聊,看庫(kù)里有沒(méi)有結(jié)果,如果有,儲(chǔ)存歷史多種信息并返回。如果沒(méi)有,通過(guò)知識(shí)圖譜問(wèn)答,看知識(shí)圖譜里是否能收到相應(yīng)的知識(shí),有結(jié)果,儲(chǔ)存歷史信息返回。如果知識(shí)圖譜還沒(méi)有,我們將進(jìn)入生成式閑聊,然后儲(chǔ)存歷史對(duì)話信息、反饋結(jié)果。
那么歷史多輪信息有什么用呢?歷史多輪信息會(huì)用于生成式閑聊,不管是匹配式閑聊的答案,還是知識(shí)圖譜答案,它的歷史信息都將成為生成式閑聊的輸入。
閑聊是NLP一個(gè)永恒的難題,主要是知識(shí)如汪洋之大海,永遠(yuǎn)缺乏高質(zhì)量的對(duì)話;那算法求的只是一個(gè)概率,缺乏現(xiàn)實(shí)的邏輯推理;最后機(jī)器是不冷暖的,所以單憑文字不一定能夠捕獲到豐富的情感。這需要借助視覺(jué),包括語(yǔ)音識(shí)別,各種聲紋信息等。
接著介紹下生成式閑聊,目前生成式閑聊主要基于GPT的模型,它本質(zhì)上是語(yǔ)言模型,GPT是基于Transformer 的Decoder 部分。那語(yǔ)言模型是什么?語(yǔ)言模型是根據(jù)一個(gè)句子的已知序列信息去預(yù)測(cè)該句子的下一個(gè)字。那具體怎么操作?我們把用戶的多輪閑聊作為語(yǔ)言模型的輸入,然后訓(xùn)練模型,這是訓(xùn)練部分。對(duì)于預(yù)測(cè),相對(duì)于訓(xùn)練多了一個(gè)環(huán)節(jié),先根據(jù)歷史的多輪閑聊序列通過(guò)gpt生成一個(gè)字,生成該字時(shí)會(huì)生成多個(gè)候選的字。可以通過(guò)一些top-k、beam search等算法,以及一些參數(shù)的調(diào)節(jié),來(lái)挑選候選字中最合適的那個(gè)。接著,該字加入序列,重復(fù)使用此方法生成下一個(gè)字,直到生成結(jié)束符。
通常不會(huì)只生成一個(gè)答案,會(huì)生成多個(gè)候選答案,那么生成了多個(gè)候選答案,該如何挑選一個(gè)更加合適的答案呢?可以訓(xùn)練一個(gè)通過(guò)答案預(yù)測(cè)問(wèn)題的模型,也就是最大互信息的評(píng)分。上圖左邊是回答生成的訓(xùn)練過(guò)程,右邊的思路與左邊的思路是反向的,是由答案生成問(wèn)題。實(shí)際運(yùn)用時(shí),采用正確的時(shí)序生成多個(gè)候選答案。再把生成的候選集輸入到訓(xùn)練好的最大互信息模型里,看預(yù)測(cè)到原始問(wèn)題時(shí),哪個(gè)候選答案的損失值最低,這種方法可作為候選答案的挑選。
我們的閑聊在內(nèi)部做了一個(gè)評(píng)測(cè),從它的通順性、連貫性、信息性、趣味性以及憑感覺(jué)等方面打分。關(guān)于效果方面,通順性和連貫性還不錯(cuò),趣味性跟憑感覺(jué)方面,大家覺(jué)得還有優(yōu)化的空間。除了上面提到的算法,還有其他一些比較優(yōu)秀的算法,比如plato-2、blender等,但這兩個(gè)算法推理比較慢,所以我們沒(méi)有采用上面的算法。
接下來(lái)是文本生成技術(shù),比如古詩(shī)生成,輸入“我是只小豬歡樂(lè)多”。生成的結(jié)果可以看下左上角的圖,生成的古詩(shī)是押韻的,那怎么做的呢?同樣還是采用GPT模型。首先要定義它的格式,比如五言絕句、七言絕句、詞牌等,然后用分隔符分開(kāi),接下來(lái)把詩(shī)詞給到模型,并且要帶標(biāo)點(diǎn)符號(hào),然后通過(guò)語(yǔ)言模型訓(xùn)練,他具備這樣的生成能力。
生成完后,就涉及到一些押韻的處理。具體首先需要進(jìn)行預(yù)處理,并定義詩(shī)詞的類型。然后,與詩(shī)詞的內(nèi)容并拼接起來(lái)。接著文本向量化輸入到GPT里。接著也是一個(gè)字、一個(gè)字生成答案。當(dāng)生成到有句尾標(biāo)點(diǎn)符號(hào)時(shí),要看最后一兩個(gè)詞與前一句是否押韻。如果不押韻,要重新生成一句話,以此來(lái)保證可以都押韻。但不一定保證所有情況都押運(yùn),可能預(yù)測(cè)很久都沒(méi)有押韻,這時(shí)候,我們會(huì)設(shè)一個(gè)超時(shí),超時(shí)后直接生成一個(gè)不押韻的句子。
古詩(shī)詞生成存在一些問(wèn)題,首先是押韻問(wèn)題,語(yǔ)言模型學(xué)習(xí)到的韻律信息比較有限;其次是意境問(wèn)題,語(yǔ)言模型只是學(xué)習(xí)到了古詩(shī)詞遣詞造句的概率模型,即文章套路,對(duì)比較有套路的文章,可以生成的比較好。于是乎,但是詞(宋詞)的效果比不上詩(shī),因?yàn)樵~的套路很多,還有各類詞牌,每句話字?jǐn)?shù)也不一致,所以對(duì)詞的效果會(huì)差很多。
在知識(shí)圖譜方面,它的主要組成分三塊:節(jié)點(diǎn)、屬性、關(guān)系。在該圖中,節(jié)點(diǎn)表示每個(gè)人,比如周杰倫;屬性是他的出生、成就、身高等;連接節(jié)點(diǎn)之間的叫關(guān)系,比如周杰倫通過(guò)妻子的關(guān)系可以鏈接到昆凌。以關(guān)系相連各個(gè)節(jié)點(diǎn),會(huì)組成一個(gè)龐大的知識(shí)網(wǎng)絡(luò),關(guān)系是具有方向性:?jiǎn)蜗蚧螂p向的,單向的比如昆凌是周杰倫的妻子;至于雙向,比如同學(xué)關(guān)系,甲是乙的同學(xué),乙是甲的同學(xué)。
知識(shí)圖譜技術(shù)目前只是用來(lái)做知識(shí)問(wèn)答,用來(lái)豐富閑聊的交互體驗(yàn)。它的一個(gè)問(wèn)答涉及到預(yù)處理、實(shí)體識(shí)別、實(shí)體鏈接、關(guān)系抽取、手寫(xiě)識(shí)別,主謂賓、施受關(guān)系檢測(cè),答案的生成以及排序,敏感詞過(guò)濾等。
知識(shí)圖譜存在很大的挑戰(zhàn),首先在問(wèn)答挑戰(zhàn)方面知識(shí)是無(wú)法窮盡的,知識(shí)的收集、梳理以及抽取是非常大的工作量,其次問(wèn)法也是無(wú)窮無(wú)盡的,所以非常難理解到各種各樣的問(wèn)法。
知識(shí)圖譜的應(yīng)用主要是探索知識(shí)圖譜與開(kāi)放式對(duì)話等方面的融合技術(shù),我們的目的是為了優(yōu)化交互體驗(yàn),提高對(duì)話系統(tǒng)的多樣性、邏輯性、可解釋性等。
優(yōu)必選自然語(yǔ)言處理技術(shù)在服務(wù)機(jī)器人上的應(yīng)用
NLP在服務(wù)機(jī)器人上有哪些應(yīng)用呢?首先是機(jī)器人問(wèn)答,還有無(wú)人輪值客服、機(jī)場(chǎng)與車(chē)站、無(wú)人販?zhǔn)鄣?。具體應(yīng)用案例包括無(wú)人咖啡館、防疫機(jī)器人問(wèn)答和uCode等。
無(wú)人咖啡館
上面是我們咖啡機(jī)器人,它可以實(shí)現(xiàn)結(jié)合上下文語(yǔ)境,精準(zhǔn)理解用戶點(diǎn)單,避免人員直接接觸。
防疫機(jī)器人問(wèn)答
疫情期間,通過(guò)服務(wù)機(jī)器人的智能防疫問(wèn)答,減少人員的聚集,為疫情的紓解提供有力保障。
uCode
uCode是優(yōu)必選面向編程教育領(lǐng)域開(kāi)發(fā)的一款軟硬件結(jié)合的編程客戶端,學(xué)生可以不使用鍵盤(pán)去敲代碼,可以通過(guò)拖拽積木的方式編程。
具體可以看到上圖,涉及到語(yǔ)音識(shí)別以及文本匹配,用戶可以輸入“聽(tīng)到走幾步”時(shí),他做什么樣的動(dòng)作,可以通過(guò)語(yǔ)音識(shí)別把它變成文字,再進(jìn)行動(dòng)作匹配。涉及到語(yǔ)音識(shí)別時(shí),由于環(huán)境中的噪音,可能會(huì)出現(xiàn)多一個(gè)字、少一個(gè)字。同時(shí),編程為“走幾步”時(shí),用戶在實(shí)際使用的時(shí)候也有可能說(shuō)成“走幾步吧”或“請(qǐng)走幾步”類似的。有了NLP的文本模糊匹配功能,就解決了。其他的諸如于古詩(shī)詞生成等,都可以加入到uCode編程中,提升uCode的教學(xué)能力。
優(yōu)必選NLP未來(lái)的研究方向
接下來(lái)的方向一個(gè)是提升交互體驗(yàn),要緊跟前沿走,探索交互體驗(yàn);同時(shí),還需要提升平臺(tái)的能力,目前平臺(tái)的能力是比較基礎(chǔ)的,未來(lái)可能會(huì)增加語(yǔ)料自動(dòng)擴(kuò)展的功能;此外,系統(tǒng)還要增長(zhǎng)知識(shí),在智能對(duì)話中,知識(shí)是比較欠缺的。因此,我們正在做知識(shí)圖譜這塊,并在探索它跟對(duì)話的融合技術(shù),為機(jī)器人的對(duì)話增智。
以上是今天的分享,謝謝大家。
原文標(biāo)題:羅沛鵬:優(yōu)必選服務(wù)機(jī)器人NLP技術(shù)最新研究進(jìn)展
文章出處:【微信公眾號(hào):中山市物聯(lián)網(wǎng)協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28423瀏覽量
207141 -
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
288瀏覽量
13351 -
nlp
+關(guān)注
關(guān)注
1文章
488瀏覽量
22038
原文標(biāo)題:羅沛鵬:優(yōu)必選服務(wù)機(jī)器人NLP技術(shù)最新研究進(jìn)展
文章出處:【微信號(hào):ZS-IOT,微信公眾號(hào):中山市物聯(lián)網(wǎng)協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論