自然語(yǔ)言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。隨著深度學(xué)習(xí)在圖像識(shí)別、語(yǔ)音識(shí)別領(lǐng)域的大放異彩,人們對(duì)深度學(xué)習(xí)在NLP的價(jià)值也寄予厚望。自然語(yǔ)言處理作為人工智能領(lǐng)域的認(rèn)知智能,成為目前大家關(guān)注的焦點(diǎn)。
基本概念
自然語(yǔ)言處理既是一門(mén)技術(shù)也是一門(mén)學(xué)科。
自然語(yǔ)言指人類(lèi)使用的語(yǔ)言,如漢語(yǔ)、英語(yǔ)等
語(yǔ)言是思維的載體,是人類(lèi)交流的工具
語(yǔ)言的兩種屬性:文字和聲音
人類(lèi)歷史上以文字形式記載和流傳的知識(shí)占80%以上。
自然語(yǔ)言處理的定義:
"自然語(yǔ)言處理又稱為自然語(yǔ)言理解,就是利用計(jì)算機(jī)為工具對(duì)人類(lèi)特有的書(shū)面形式和又頭形式的自然語(yǔ)言的信息進(jìn)行各種類(lèi)型處理和加工的技術(shù)?!?—— 馮志偉《自然語(yǔ)言的計(jì)算機(jī)處理》
研究的基本問(wèn)題
1. 語(yǔ)音學(xué)
語(yǔ)音學(xué)(Phonetics)問(wèn)題:研究詞及其語(yǔ)音的關(guān)聯(lián)
2. 形態(tài)學(xué)
形態(tài)學(xué)(Morphology)問(wèn)題:研究詞是如何由有意義的基本單位-詞素(Morphemes)構(gòu)詞的。
詞素是從詞或者詞干的直接成分的角度來(lái)確定的音義結(jié)合體。字和詞素不是一一對(duì)應(yīng)的:
有的漢字實(shí)際上代表不同的詞素。如“副”這個(gè)字代表多種詞素:“第二的、次級(jí)的”、“相配、相稱”、某種計(jì)量單位。
同一詞素可以由不同的漢字來(lái)表示。如:“來(lái)吧”中的“吧”可以由“罷”代替。
有些漢字在某些場(chǎng)合屬于詞素,某些場(chǎng)合不是。如:“沙”在“泥沙”里面是詞素,在“沙發(fā)”里面不代表意義。詞素與詞的關(guān)系是“詞素的功能是構(gòu)詞詞”。
詞素構(gòu)詞有兩種情況:
一個(gè)詞素單獨(dú)構(gòu)詞一個(gè)詞。如:人、魚(yú)、書(shū)、蜈蚣等。
兩個(gè)或兩個(gè)以上的詞素構(gòu)詞一個(gè)詞。如:人+民,機(jī)+器等。
3. 語(yǔ)法學(xué)
語(yǔ)法學(xué)(Syntax)問(wèn)題:研究句子結(jié)構(gòu)成分之間的相互關(guān)系和組成句子的序列。
為什么一句話可以這么說(shuō)也可以那么說(shuō)?
4. 語(yǔ)義學(xué)
語(yǔ)義學(xué)(Sementics)問(wèn)題:研究如何從一個(gè)語(yǔ)句中詞的意義,以及這些詞在該語(yǔ)句中句法結(jié)構(gòu)中的作用來(lái)推導(dǎo)出該語(yǔ)句的意義。
下面的話說(shuō)了什么?
蘋(píng)果不吃了
這個(gè)人真牛
火燒圓明園/火燒驢肉
5. 語(yǔ)用學(xué)
語(yǔ)用學(xué)(Pragmatics)問(wèn)題:研究在不同上下文中的語(yǔ)句的應(yīng)用,以及上下文對(duì)語(yǔ)句理解所產(chǎn)生的影響。從狹義的語(yǔ)言學(xué)觀點(diǎn)看,語(yǔ)用學(xué)處理的是語(yǔ)言結(jié)構(gòu)中有形式體現(xiàn)的那些語(yǔ)境。相反,語(yǔ)用學(xué)最寬泛的定義是研究語(yǔ)義學(xué)未能涵蓋的那些意義。
在語(yǔ)用學(xué)中最基本的一個(gè)概念是語(yǔ)境,它是專門(mén)研究語(yǔ)言的理解和使用的學(xué)問(wèn),它研究在特定場(chǎng)景中的特定話語(yǔ),研究如何通明朝這個(gè)朝代更過(guò)語(yǔ)境來(lái)理解和使用。
下面話為什么這樣說(shuō)?
火,火!
A:看看魚(yú)怎么樣了?B:我剛才翻了一下。
研究的主要內(nèi)容
1. 機(jī)器翻譯
基于規(guī)則的機(jī)器翻譯方法認(rèn)為翻譯的過(guò)程是需要對(duì)源語(yǔ)言的分析和源語(yǔ)言意義的表示,然后再生成等價(jià)的標(biāo)語(yǔ)言的過(guò)程。根據(jù)翻譯過(guò)程的不同,規(guī)則方法可分為兩種主要方法:基于轉(zhuǎn)換的方法的翻譯過(guò)程包括三個(gè)階段:分析得到一種源語(yǔ)言的抽象表示;把源語(yǔ)言的抽象表示轉(zhuǎn)換為目標(biāo)語(yǔ)言的抽象表示 ;由目標(biāo)語(yǔ)言的抽象表示生成目標(biāo)語(yǔ)言。基于中間語(yǔ)言的方法在對(duì)源語(yǔ)言分析后產(chǎn)生的是中間語(yǔ)言,而目標(biāo)語(yǔ)言的生成是直接由這種中間語(yǔ)言開(kāi)始的。
基于實(shí)例的機(jī)器翻譯本質(zhì)是“以翻譯實(shí)例為基礎(chǔ),基于相似原理的機(jī)器翻譯”,其利用的主要知識(shí)源是預(yù)處理過(guò)的雙語(yǔ)語(yǔ)料和翻譯詞典?;趯?shí)例的翻譯過(guò)程通常包括三步: 在翻譯實(shí)例庫(kù)中搜索匹配片段;確定相應(yīng)的譯文片段;重新組合譯文片段以得到最終翻譯。
統(tǒng)計(jì)機(jī)器翻譯也是基于雙語(yǔ)語(yǔ)料庫(kù)的,但與基于實(shí)例的方法在翻譯過(guò)程中直接使用翻譯 實(shí)例不同,統(tǒng)計(jì)方法通過(guò)事先的訓(xùn)練過(guò)程將雙語(yǔ)語(yǔ)料庫(kù)中隱含的翻譯知識(shí)抽象成統(tǒng)計(jì)模型, 而翻譯過(guò)程通常就是基于這些統(tǒng)計(jì)模型的解碼過(guò)程。
神經(jīng)機(jī)器翻譯神經(jīng)機(jī)器翻譯與傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯不同,神經(jīng)機(jī)器翻譯的目的是建立一個(gè)單一的神經(jīng)網(wǎng)絡(luò),可以聯(lián)合調(diào)整,以最大限度地提高翻譯性能。最近提出的用于神經(jīng)機(jī)器翻譯的模型通常屬于編碼器-解碼器族,且將源語(yǔ)句編碼成固定長(zhǎng)度向量,解碼器從該向量生成翻譯。
2. 信息檢索
信息檢索(Information retrieval):信息檢索也稱為情報(bào)檢索,就是利用計(jì)算機(jī)從大量文檔中找到符合用戶需要的相關(guān)信息。
面向多語(yǔ)言的信息檢索稱為跨語(yǔ)言的信息檢索,如google,baidu等。
早期的信息檢索系統(tǒng)采用“布爾查詢”的方法來(lái)進(jìn)行全文檢索。這種方法無(wú)疑將構(gòu)造一個(gè)合適的查詢的責(zé)任推到用戶身上。用戶必須詳細(xì)的規(guī)劃自己的查詢,其復(fù)雜程度不亞于編程語(yǔ)言。這種檢索方式并不提供任何的文檔相關(guān)性測(cè)度,對(duì)于文檔與查詢的評(píng)價(jià)就只有“匹配“、“不匹配”兩種而已。這兩點(diǎn)問(wèn)題決定了布爾查詢不能被廣泛應(yīng)用。但是,由于布爾檢索能夠給用戶提供更多的可控制性,今天我們?nèi)匀豢梢栽谒?a target="_blank">索引擎的“高級(jí)搜索”中找到布爾查詢的身影。
對(duì)于大規(guī)模的語(yǔ)料庫(kù),任何檢索都可能返回?cái)?shù)量眾多的結(jié)果,因此對(duì)檢索結(jié)果進(jìn)行排序是必須的。因此,一個(gè)好的信息檢索模型必須提供文檔相關(guān)性測(cè)度。一個(gè)好的測(cè)度應(yīng)該使與用戶查詢需求最相關(guān)的那些結(jié)果,排在最前面,同時(shí)允許盡可能多的,與用戶查詢有一定關(guān)系的結(jié)果被包括進(jìn)來(lái)。目前,最為常用的信息檢索模型有三種:-向量空間模型 (Vector Space Model, VSM)-概率模型 (Probabilistic Model) -推理網(wǎng)絡(luò)模型 (Inference Network Model)
3. 自動(dòng)文摘
TextRank 算法是一種用于文本的基于圖的排序算法。其基本思想來(lái)源于谷歌的 PageRank算法,通過(guò)把文本分割成若干組成單元(單詞、句子)并建立圖模型, 利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序,僅利用單篇文檔本身的信息即可實(shí)現(xiàn)關(guān)鍵詞提取、文摘。
傳統(tǒng)的摘要生成系統(tǒng)大部分都是抽取型的,這類(lèi)方法從給定的文章中,抽取關(guān)鍵的句子或者短語(yǔ), 并重新拼接成一小段摘要,而不對(duì)原本的內(nèi)容做創(chuàng)造性的修改。深度學(xué)習(xí)是一個(gè)生成方法,它會(huì)創(chuàng)造性的生成摘要。最新的方法是神經(jīng)注意力模型(Neural attention model)。
4. 文檔分類(lèi)
文檔分類(lèi):其目的就是利用計(jì)算機(jī)系統(tǒng)對(duì)大量的文檔按照一定的分類(lèi)標(biāo)準(zhǔn)實(shí)現(xiàn)自動(dòng)歸類(lèi)。
文檔分類(lèi)的方法有基于機(jī)器學(xué)習(xí)的方法(如svm,decision tree)和基于深度學(xué)習(xí)(如cnn,rnn)的方法。
流程:樣本處理 — 特征選擇 — 分類(lèi)。
應(yīng)用:圖書(shū)管理、內(nèi)容管理、情感分析等。
5. 問(wèn)答系統(tǒng)
問(wèn)答系統(tǒng)(Question answer system):通過(guò)計(jì)算機(jī)對(duì)人提出的問(wèn)題的理解,利用自動(dòng)推理等手段,在有關(guān)知識(shí)資源中自動(dòng)求解答案并作出相應(yīng)的回答。問(wèn)答技術(shù)有時(shí)與語(yǔ)音技術(shù)、人機(jī)交互技術(shù)等相結(jié)合,構(gòu)成人機(jī)對(duì)話系統(tǒng)。
問(wèn)答系統(tǒng)模型通常分為基于檢索的模型和基于生成的模型。
基于檢索的模型回答是提前定義的,使用規(guī)則引擎、正則匹配或者深度學(xué)習(xí)訓(xùn)練好的分類(lèi)器從數(shù)據(jù)庫(kù)中挑選一個(gè)最佳的回復(fù)。
基于生成的模型多使用深度學(xué)習(xí)的方法。最流行的方法是seq2seq attention model。
6. 文字識(shí)別
文字識(shí)別(Character Recognition):通過(guò)計(jì)算機(jī)系統(tǒng)對(duì)印刷體或手寫(xiě)體等文字進(jìn)行自動(dòng)識(shí)別,將其轉(zhuǎn)換為計(jì)算機(jī)可以出來(lái)的電子文本。
傳統(tǒng)的文字識(shí)別方法就是特征工程+分類(lèi)器的方法。深度學(xué)習(xí)的方法主要有rcnn,yolo等。
流程:預(yù)處理—特征提取和降維—分類(lèi)器—后處理。
7. 語(yǔ)音識(shí)別
語(yǔ)音識(shí)別(Speech Recognition):將輸入計(jì)算機(jī)的語(yǔ)音信號(hào)轉(zhuǎn)換成書(shū)面語(yǔ)表示。
應(yīng)用:文字錄入、人機(jī)通訊、語(yǔ)音翻譯等
難點(diǎn):大量存在同音詞、近音詞、集外詞、又音等等。
輸入:美中貿(mào)易摩擦升級(jí)
識(shí)別結(jié)果:美中貿(mào)易摩擦生機(jī)
早期的語(yǔ)音識(shí)別系統(tǒng)主要采用隱馬爾科夫模型來(lái)建模。
現(xiàn)在的語(yǔ)音識(shí)別系統(tǒng)多采用end2end的方法。
8. 語(yǔ)音生成
語(yǔ)音生成(speech generate):利用計(jì)算機(jī)將書(shū)面語(yǔ)轉(zhuǎn)換為語(yǔ)音信號(hào)。
語(yǔ)音生成有兩個(gè)主要目標(biāo):可理解性(intelligibility)和自然感(naturalness)??衫斫庑允侵负铣?a target="_blank">音頻的清晰度,特別是聽(tīng)話人能夠在多大程度上提取出原信息。自然感則描述了無(wú)法被可理解性直接獲取的信息,比如聽(tīng)的整體容易程度、全局的風(fēng)格一致性、地域或語(yǔ)言層面的微妙差異等等。
百度的 Deep Voice、Yoshua Bengio 團(tuán)隊(duì)提出的 Char2Wav以及谷歌的 Tacotron均在語(yǔ)音生成方面表現(xiàn)突出。
面臨的困難
1. 語(yǔ)義歧義如:他說(shuō):“她這個(gè)真有意思 (funny)”。她說(shuō):“他這個(gè)怪有意思的 (funny)”。于是他們以為他們有意思 (wish),并讓他向她意思意思 (express)。他說(shuō):“我根本沒(méi)有那個(gè)意思 (thought)”!她也說(shuō):“你們這么說(shuō)是什么意思 (intention)”?事后有人說(shuō):“真有意思 (funny)”。也有人說(shuō):“真沒(méi)意思 (nonsense)”。
2. 存在未知的語(yǔ)言現(xiàn)象 ? 新的詞匯,如專業(yè)術(shù)語(yǔ)、外來(lái)語(yǔ)、人名、機(jī)構(gòu)名等 ? 新的含義,如打醬油、漲姿勢(shì)、藍(lán)瘦香菇、吃棗藥丸等 ? 新的用法和語(yǔ)句結(jié)構(gòu)。在又語(yǔ)和網(wǎng)絡(luò)語(yǔ)中出現(xiàn)的“非規(guī)范”的語(yǔ)句結(jié)構(gòu)。如“這屆人民不行”、“扎心了老鐵”。
發(fā)展趨勢(shì)
目前,人們主要通過(guò)兩種思路來(lái)進(jìn)行自然語(yǔ)言處理,一種是基于規(guī)則的理性主義,另外一種是基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義?,F(xiàn)實(shí)的情況是,統(tǒng)計(jì)學(xué)習(xí)方法越來(lái)越受到重視,自然語(yǔ)言處理中更多地使用機(jī)器自動(dòng)學(xué)習(xí)的方法來(lái)獲取語(yǔ)言知識(shí)。
深度學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用極大的促進(jìn)了行業(yè)的發(fā)展。但是,即使使用深度學(xué)習(xí),仍然有許多問(wèn)題只能達(dá)到基本的要求,如問(wèn)答系統(tǒng)、對(duì)話系統(tǒng)、對(duì)話翻譯等。
結(jié)語(yǔ)
如今,如何有效利用海量信息已成為信息技術(shù)發(fā)展的一個(gè)關(guān)鍵性問(wèn)題。自然語(yǔ)言處理則無(wú)可避免地成為該領(lǐng)域長(zhǎng)期發(fā)展的一個(gè)新的戰(zhàn)略制高點(diǎn)。路漫漫其修遠(yuǎn)兮,NLP作為一個(gè)高度交叉的新興學(xué)科,不論是探究語(yǔ)言本質(zhì)還是付諸實(shí)際應(yīng)用,必定還會(huì)有令人期待的驚喜和異??焖俚陌l(fā)展。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132646 -
nlp
+關(guān)注
關(guān)注
1文章
488瀏覽量
22038
原文標(biāo)題:深入機(jī)器學(xué)習(xí)之自然語(yǔ)言處理
文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論