精品免费一区二区三区,亚洲中文字幕精品一区

本文從兩篇論文出發(fā)先簡要介紹了自然語言處理的基本分類和基本概念，再向讀者展示了深度學(xué)習(xí)中的NLP。這兩篇論文都是很好的綜述性入門論文，希望詳細(xì)了解自然語言處理的讀者可以進(jìn)一步閱讀這兩篇論文。

本文第一部分介紹了自然語言處理的基本概念，作者將NLP分為自然語言理解和自然語言生成，并解釋了NLP過程的各個(gè)層級和應(yīng)用，這一篇論文很適合讀者系統(tǒng)的了解NLP的基本概念。

第二部分描述的是基于深度學(xué)習(xí)的NLP，該論文首先描述了深度學(xué)習(xí)中的詞表征，即從one-hot編碼、詞袋模型到詞嵌入和word2vec等，我們首先需要數(shù)字表征詞匯才能進(jìn)一步做自然語言處理。隨后，本論文介紹了各種應(yīng)用于NLP的模型，包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長短期記憶和門控循環(huán)神經(jīng)網(wǎng)絡(luò)等，這一些模型加上其它如注意力機(jī)制那樣的技巧就能實(shí)現(xiàn)十分強(qiáng)大的能力，如機(jī)器翻譯、問答系統(tǒng)和情感分析等。

概念基礎(chǔ)

自然語言處理（NLP）近來因?yàn)槿祟愓Z言的計(jì)算表征和分析而獲得越來越多的關(guān)注。它已經(jīng)應(yīng)用于許多如機(jī)器翻譯、垃圾郵件檢測、信息提取、自動(dòng)摘要、醫(yī)療和問答系統(tǒng)等領(lǐng)域。本論文從歷史和發(fā)展的角度討論不同層次的NLP和自然語言生成（NLG）的不同部分，以呈現(xiàn)NLP 應(yīng)用的各種最新技術(shù)和當(dāng)前的趨勢與挑戰(zhàn)。

1前言

自然語言處理（NLP）是人工智能和語言學(xué)的一部分，它致力于使用計(jì)算機(jī)理解人類語言中的句子或詞語。NLP以降低用戶工作量并滿足使用自然語言進(jìn)行人機(jī)交互的愿望為目的。因?yàn)橛脩艨赡懿皇煜C(jī)器語言，所以 NLP就能幫助這樣的用戶使用自然語言和機(jī)器交流。

語言可以被定義為一組規(guī)則或符號。我們會(huì)組合符號并用來傳遞信息或廣播信息。NLP基本上可以分為兩個(gè)部分，即自然語言理解和自然語言生成，它們演化為理解和生成文本的任務(wù)（圖1）。

圖1：NLP的粗分類

語言學(xué)是語言的科學(xué)，它包括代表聲音的音系學(xué)（Phonology）、代表構(gòu)詞法的詞態(tài)學(xué)（Morphology）、代表語句結(jié)構(gòu)的句法學(xué)（Syntax）、代表理解的語義句法學(xué)（Semanticssyntax）和語用學(xué)（Pragmatics）。

NLP的研究任務(wù)如自動(dòng)摘要、指代消解（Co-ReferenceResolution）、語篇分析、機(jī)器翻譯、語素切分（MorphologicalSegmentation）、命名實(shí)體識(shí)別、光學(xué)字符識(shí)別和詞性標(biāo)注等。自動(dòng)摘要即對一組文本的詳細(xì)信息以一種特定的格式生成一個(gè)摘要。指代消解指的是用句子或更大的一組文本確定哪些詞指代的是相同對象。語篇分析指識(shí)別連接文本的語篇結(jié)構(gòu)，而機(jī)器翻譯則指兩種或多種語言之間的自動(dòng)翻譯。詞素切分表示將詞匯分割為詞素，并識(shí)別詞素的類別。命名實(shí)體識(shí)別（NER）描述了一串文本，并確定哪一個(gè)名詞指代專有名詞。光學(xué)字符識(shí)別（OCR）給出了打印版文檔（如PDF）中間的文字信息。詞性標(biāo)注描述了一個(gè)句子及其每個(gè)單詞的詞性。雖然這些NLP任務(wù)看起來彼此不同，但實(shí)際上它們經(jīng)常多個(gè)任務(wù)協(xié)同處理。

2 NLP的層級

語言的層級是表達(dá)NLP的最具解釋性的方法，能通過實(shí)現(xiàn)內(nèi)容規(guī)劃（ContentPlanning)、語句規(guī)劃（SentencePlanning）與表層實(shí)現(xiàn)（Surf aceRealization）三個(gè)階段，幫助NLP生成文本（圖2）。

圖2：NLP架構(gòu)的階段

語言學(xué)是涉及到語言、語境和各種語言形式的學(xué)科。與NLP相關(guān)的重要術(shù)語包括：

音系學(xué)
形態(tài)學(xué)
詞匯學(xué)
句法學(xué)
語義學(xué)
語篇分析
語用學(xué)

3 自然語言生成

NLG是從內(nèi)在表征生成有含義的短語、句子和段落的處理過程。它是NLP的一部分，包括四個(gè)階段：確定目標(biāo)、通過場景評估規(guī)劃如何實(shí)現(xiàn)目標(biāo)、可用的對話源、把規(guī)劃實(shí)現(xiàn)為文本，如下圖3。生成與理解是相反的過程。

圖3：NLG的組件

6 NLP的應(yīng)用

NLP可被他應(yīng)用于各種領(lǐng)域，例如機(jī)器翻譯、垃圾郵件檢測、信息提取等。在這一部分，該論文對以下NLP的應(yīng)用進(jìn)行了介紹：

機(jī)器翻譯
文本分類
垃圾郵件過濾
信息提取
自動(dòng)摘要
對話系統(tǒng)
醫(yī)療

深度學(xué)習(xí)中的NLP

以上內(nèi)容對NLP進(jìn)行了基礎(chǔ)的介紹，但忽略了近年來深度學(xué)習(xí)在NLP領(lǐng)域的應(yīng)用，因此我們補(bǔ)充了北京理工大學(xué)的一篇論文。該論文回顧了NLP之中的深度學(xué)習(xí)重要模型與方法，比如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)；同時(shí)還討論了記憶增強(qiáng)策略、注意力機(jī)制以及無監(jiān)督模型、強(qiáng)化學(xué)習(xí)模型、深度生成模型在語言相關(guān)任務(wù)上的應(yīng)用；最后還討論了深度學(xué)習(xí)的各種框架，以期從深度學(xué)習(xí)的角度全面概述NLP發(fā)展近況。

如今，深度學(xué)習(xí)架構(gòu)、算法在計(jì)算機(jī)視覺、模式識(shí)別領(lǐng)域已經(jīng)取得驚人的進(jìn)展。在這種趨勢之下，近期基于深度學(xué)習(xí)新方法的NLP研究有了極大增長。

圖4：2012年-2017年，在ACL、EMNLP、EACL、NAACL會(huì)議上呈現(xiàn)的深度學(xué)習(xí)論文數(shù)量增長趨勢。

十幾年來，解決NLP問題的機(jī)器學(xué)習(xí)方法都是基于淺層模型，例如SVM和logistic回歸，其訓(xùn)練是在非常高維、稀疏的特征上進(jìn)行的。在過去幾年，基于密集向量表征的神經(jīng)網(wǎng)絡(luò)在多種NLP任務(wù)上都產(chǎn)生了優(yōu)秀成果。這一趨勢由詞嵌入與深度學(xué)習(xí)方法的成功所興起。深度學(xué)習(xí)使得多層級的自動(dòng)特征表征的學(xué)習(xí)成為了可能。傳統(tǒng)的基于機(jī)器學(xué)習(xí)方法的NLP系統(tǒng)極度依賴手寫特征，既耗費(fèi)時(shí)間，又總是不完整。

在2011年，Collobert等人的論文證明簡單的深度學(xué)習(xí)框架能夠在多種NLP任務(wù)上超越最頂尖的方法，比如在實(shí)體命名識(shí)別（NER）任務(wù)、語義角色標(biāo)注(SRL）任務(wù)、詞性標(biāo)注（POStagging）任務(wù)上。從此，各種基于深度學(xué)習(xí)的復(fù)雜算法被提出，來解決NLP難題。

這篇論文回顧了與深度學(xué)習(xí)相關(guān)的重要模型與方法，比如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)。此外，論文中還討論了記憶增強(qiáng)策略、注意機(jī)制以及無監(jiān)督模型、強(qiáng)化學(xué)習(xí)模型、深度生成模型在語言相關(guān)任務(wù)上的應(yīng)用。

在2016年，Goldberg也以教程方式介紹過NLP領(lǐng)域的深度學(xué)習(xí)，主要對分布式語義（word2vec、CNN）進(jìn)行了技術(shù)概述，但沒有討論深度學(xué)習(xí)的各種架構(gòu)。這篇論文能提供更綜合的思考。

摘要：深度學(xué)習(xí)方法利用多個(gè)處理層來學(xué)習(xí)數(shù)據(jù)的層級表征，在許多領(lǐng)域獲得了頂級結(jié)果。近期，在自然語言處理領(lǐng)域出現(xiàn)了大量的模型設(shè)計(jì)和方法。在此論文中，我們回顧了應(yīng)用于NLP任務(wù)中，與深度學(xué)習(xí)相關(guān)的重要模型、方法，同時(shí)概覽了這種進(jìn)展。我們也總結(jié)、對比了各種模型，對NLP中深度學(xué)習(xí)的過去、現(xiàn)在與未來提供了詳細(xì)理解。

圖2：一個(gè)D維向量的分布式向量表達(dá)，其中D<

圖3：Bengio等人2003年提出的神經(jīng)語言模型，C(i)是第i個(gè)詞嵌入。

圖4：CBOW（continuousbag-of-words）的模型

表1：框架提供嵌入工具和方法

圖5：Collobert等人使用的CNN框架，來做詞級別的類別預(yù)測

圖6：在文本上的CNN建模(ZhangandWallace,2015）

圖7：4個(gè) 7-gram核的Top7-grams，每個(gè)核對一種特定類型的7-gram敏感(Kim,2014)

圖8：DCNN子圖。有了動(dòng)態(tài)池化，一頂層只需要小寬度的過濾層能夠關(guān)聯(lián)輸入語句中離得很遠(yuǎn)的短語(Kalchbrenneretal.,2014)。

圖9：簡單的RNN網(wǎng)絡(luò)

圖10：LSTM和GRU 的示圖(Chungetal.,2014)

圖11：不同單元類型關(guān)于迭代數(shù)量（上幅圖）和時(shí)鐘時(shí)間（下幅圖）的訓(xùn)練、驗(yàn)證集學(xué)習(xí)曲線。其中y軸為對數(shù)尺度描述的模型負(fù)對數(shù)似然度。

圖12：LSTM解碼器結(jié)合CNN圖像嵌入器生成圖像描述(Vinyalsetal.,2015a)

圖13：神經(jīng)圖像QA(Malinowskietal.,2015)

圖14：詞校準(zhǔn)矩陣(Bahdanauetal.,2014)

圖15：使用注意力進(jìn)行區(qū)域分級(Wangetal.,2016)

圖16：特定區(qū)域語句上的注意模塊專注點(diǎn)(Wangetal.,2016)

圖17：應(yīng)用于含有「but」語句的遞歸神經(jīng)網(wǎng)絡(luò)(Socheretal.,2013)

圖18：基于RNN的AVE進(jìn)行語句生成（Bowmanetal.,2015）

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1804

文章
48677

瀏覽量
246265
nlp

nlp

+關(guān)注

關(guān)注
1

文章
490

瀏覽量
22471

原文標(biāo)題：從語言學(xué)到深度學(xué)習(xí)NLP，一文概述自然語言處理

文章出處：【微信號：almosthuman2014，微信公眾號：機(jī)器之心】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

搜索歷史

從語言學(xué)到深度學(xué)習(xí)NLP，一文概述自然語言處理

概念基礎(chǔ)

深度學(xué)習(xí)中的NLP

評論

自然語言處理與機(jī)器學(xué)習(xí)的區(qū)別

自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系自然語言處理的基本概念及步驟

電子發(fā)燒友

搜索歷史

從語言學(xué)到深度學(xué)習(xí)NLP，一文概述自然語言處理

概念基礎(chǔ)

深度學(xué)習(xí)中的NLP

評論

電子發(fā)燒友

從語言學(xué)到深度學(xué)習(xí)NLP，一文概述自然語言處理