自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)可能是當(dāng)前數(shù)據(jù)科學(xué)中最受關(guān)注的子領(lǐng)域。
NLP不僅有趣、有前途,而且還可以改變我們看待技術(shù)的方式。不僅是技術(shù),它還可以改變我們理解人類(lèi)語(yǔ)言的方式。
自然語(yǔ)言處理是人類(lèi)語(yǔ)言與技術(shù)的結(jié)合,如今該項(xiàng)技術(shù)在研究和行業(yè)領(lǐng)域受到的關(guān)注越來(lái)越多。自從第一臺(tái)計(jì)算機(jī)誕生以來(lái),人們就憧憬著創(chuàng)造出能夠理解人類(lèi)語(yǔ)言的計(jì)算機(jī)程序。
機(jī)器學(xué)習(xí)與人工智能領(lǐng)域的進(jìn)步推動(dòng)了自然語(yǔ)言處理的發(fā)展,以及人們持續(xù)高漲的興趣。隨著自然語(yǔ)言處理為我們的日常生活帶來(lái)越來(lái)越多的便利,人們的興趣也會(huì)越來(lái)越高。亞馬遜的 Alexa、蘋(píng)果的 Siri 以及 Google 助手等一系列技術(shù)產(chǎn)品的問(wèn)世,充分表明了這項(xiàng)技術(shù)掀起的熱浪。
事實(shí)上,自然語(yǔ)言處理也是我進(jìn)入數(shù)據(jù)科學(xué)的緣由。我一直著迷于語(yǔ)言本身及其隨著人類(lèi)的經(jīng)驗(yàn)和時(shí)間的發(fā)展。我想了解如何教計(jì)算機(jī)理解我們的語(yǔ)言,不僅如此,而且我還希望計(jì)算機(jī)能夠使用人類(lèi)的語(yǔ)言來(lái)和我們交流,并理解我們。
在本文中,我將介紹 6 種自然語(yǔ)言處理的基本技術(shù),如果你也想涉足該領(lǐng)域,則應(yīng)該掌握這些技術(shù)。
詞形還原與詞干提取
數(shù)據(jù)準(zhǔn)備是所有 NLP 項(xiàng)目都必不可少的工作,常見(jiàn)的方式有兩種:詞形還原與詞干提取,你可以選擇其中一個(gè)方式。它們代表了該領(lǐng)域的核心概念,是你成為 NLP 大師需要學(xué)習(xí)的第一項(xiàng)技術(shù)。
初學(xué)者往往會(huì)混淆這兩種技術(shù)。雖然二者有相似之處,但是有很大不同。
詞干提取(Stemming):詞干提取是去除詞綴得到詞根的過(guò)程,即得到單詞最一般的寫(xiě)法,比如:argue、argued、argues、arguing 和 argus 的詞干為“argu”。執(zhí)行詞干提取的算法有很多,這些算法需要考慮單詞常見(jiàn)的前綴與后綴。英語(yǔ)中常用的算法是 Porter 詞干提取器,該算法包含 5 個(gè)階段,需要按順序進(jìn)行,最終獲取單詞的詞根。
詞形還原(Lemmatization):詞形還原是指將一個(gè)單詞還原為一般形式(能表達(dá)完整語(yǔ)義)。比如:“walk”、“walked”、“walks”以及“walking”的一般形式為“walk”。為了克服詞干提取的缺點(diǎn),人們?cè)O(shè)計(jì)了詞形還原。這些算法需要了解語(yǔ)言與語(yǔ)法的知識(shí),才能在提取單詞詞元的時(shí)候做出更好的決定。為了詞形還原算法執(zhí)行的準(zhǔn)確率,它們需要提取每個(gè)單詞的詞元。因此,通常它們需要語(yǔ)言的詞典,才能正確地分類(lèi)每個(gè)單詞。
根據(jù)這些定義,你應(yīng)該可以看出詞形還原比詞干提取更加復(fù)雜,而且實(shí)現(xiàn)這種算法也需要更多的時(shí)間。但是,詞形還原更加準(zhǔn)確,而且最終分析結(jié)果的噪聲也更少。
關(guān)鍵字提取
關(guān)鍵字提取,有時(shí)又稱(chēng)之為關(guān)鍵字檢測(cè)或關(guān)鍵字分析,這是一種文本分析的 NLP 技術(shù)。這種技術(shù)的主要目的是自動(dòng)地從文本的正文中提取出現(xiàn)頻率最高的單詞與詞組。這種技術(shù)常常作為生成本文摘要的第一步,提取文本的主旨。
關(guān)鍵字提取算法借助了機(jī)器學(xué)習(xí)與人工智能的強(qiáng)大力量。這種算法使用神經(jīng)網(wǎng)絡(luò)來(lái)提取和簡(jiǎn)化文本,以方便計(jì)算機(jī)理解。這種算法適合任何類(lèi)型的文本,從學(xué)術(shù)文本到社交媒體帖子中常用的口語(yǔ)化文本。
關(guān)鍵字提取在當(dāng)今世界中有很多應(yīng)用,包括社交媒體監(jiān)控、客戶(hù)服務(wù)/反饋、產(chǎn)品分析以及搜索引擎優(yōu)化。
命名實(shí)體識(shí)別(NER)
詞干提取、詞形還原、命名實(shí)體識(shí)別(Named Entity Recognition,簡(jiǎn)稱(chēng)NER)是最基本以及核心的 NLP 技術(shù)。
NER 是一項(xiàng)從文本的正文中提取實(shí)體的技術(shù),這里的實(shí)體主要包括人名、地名、機(jī)構(gòu)名、專(zhuān)有名詞等,以及時(shí)間、數(shù)量、貨幣、比例數(shù)值等文字。
NER 算法主要包含兩大步驟。第一步,檢測(cè)文本中的實(shí)體;第二步,將實(shí)體分類(lèi)到一個(gè)類(lèi)別集合。NER 的表現(xiàn)極大地依賴(lài)于開(kāi)發(fā)模型時(shí)使用的訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)越接近真實(shí)的數(shù)據(jù),最終的結(jié)果就越準(zhǔn)確。
關(guān)系到 NER 模型準(zhǔn)確性的另一個(gè)因素是構(gòu)建模型時(shí)使用的語(yǔ)言知識(shí)。話(huà)雖如此,網(wǎng)上有很多預(yù)訓(xùn)練的 NER 平臺(tái),可供隨時(shí)使用。
NER 可以應(yīng)用到多種領(lǐng)域,比如構(gòu)建推薦系統(tǒng),在醫(yī)療保健中為患者提供更好的服務(wù),以及在學(xué)術(shù)界中幫助學(xué)生獲得相關(guān)的研究材料。
主題建模
你可以使用提取關(guān)鍵字的方式,將大段的文本壓縮成幾個(gè)主要的關(guān)鍵詞和概念。然后在此基礎(chǔ)上,提煉出文本的主題。
另外,還有一種更先進(jìn)的識(shí)別文本主題的方式:主題建模。主題建模構(gòu)建于非監(jiān)督機(jī)器學(xué)習(xí)的基礎(chǔ)之上,這類(lèi)機(jī)器學(xué)習(xí)的訓(xùn)練不需要帶標(biāo)簽的數(shù)據(jù)。
文本的主題建模算法有很多種,比如相似主題模型(Correlated Topic Model,CTM)、潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)以及潛在語(yǔ)義分析(Latent Semantic Analysis,LSA),其中最常用的方法是 LDA。這種方法可以分析文本,并將文本分解成單詞和語(yǔ)句,然后從這些單詞和語(yǔ)句中提取不同的主題。你需要做的只是為算法提供文本,接下來(lái)的工作全部由算法完成。
文本摘要
還有一個(gè)非常實(shí)用,且前景非??春玫?NLP 應(yīng)用,那就是文本摘要。這種算法可以將大段文本壓縮成一小塊只包含文本大意的文字。這種技術(shù)常用于提煉長(zhǎng)篇新聞文章,以及提取研究論文的摘要。
文本摘要是一項(xiàng)先進(jìn)的技術(shù),它使用了上述我們提到的技術(shù)(比如主題建模以及關(guān)鍵字提取等)來(lái)完成目標(biāo)工作。這種方法通常包含兩大步驟:提取和抽象。
在提取階段,算法會(huì)根據(jù)單詞在文本中出現(xiàn)的頻率,提取文本的主要部分。接著,算法會(huì)生成摘要,即通過(guò)一段全新的文本來(lái)傳達(dá)原文的主旨。文本摘要的算法有很多種,比如 LexRank 與 TextRank。
LexRank 算法通過(guò)一個(gè)排名模型來(lái)分類(lèi)文本中的句子。這種排名依據(jù)的是句子之間的相似性,某個(gè)句子與其余文本的相似性越高,它的排名就越高。
情感分析
情感分析(Sentiment Analysis)是人氣最高、知名度最廣的 NLP 技術(shù)之一。這種技術(shù)的核心功能是通過(guò)分析文本包含的單詞,提取文本所表達(dá)的情感。
這項(xiàng)技術(shù)最簡(jiǎn)單的結(jié)果是一項(xiàng)表示積極、消極和中性的評(píng)分,該結(jié)果用數(shù)字表示。如果結(jié)果是負(fù)數(shù),則代表文本背后的情緒為消極;如果結(jié)果為正數(shù),則表示文本表達(dá)了積極的觀點(diǎn)。
情感分析是機(jī)器學(xué)習(xí)技術(shù)的廣泛應(yīng)用之一。它可以通過(guò)監(jiān)督學(xué)習(xí)實(shí)現(xiàn),也可以通過(guò)非監(jiān)督學(xué)習(xí)實(shí)現(xiàn)。最常見(jiàn)的通過(guò)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的情感分析是使用樸素貝葉斯算法。還有其他機(jī)器學(xué)習(xí)算法也可用于情感分析的實(shí)現(xiàn),比如梯度提升(Gradient Boosting)以及隨機(jī)森林。
總結(jié)
人類(lèi)對(duì)于計(jì)算理解自然語(yǔ)言,并使用自然語(yǔ)言與我們交流的渴望由來(lái)已久。隨著技術(shù)與機(jī)器學(xué)習(xí)算法的飛速發(fā)展,這種想法已不只是一種憧憬。我們已經(jīng)可以在日常生活中看到和體驗(yàn)這種技術(shù)。這種想法是自然語(yǔ)言處理的核心。
自然語(yǔ)言處理是當(dāng)今的熱門(mén)話(huà)題之一,也是非常有潛力的領(lǐng)域之一。各大公司和研究機(jī)構(gòu)都在競(jìng)相創(chuàng)建能夠完全理解并使用人類(lèi)語(yǔ)言的計(jì)算機(jī)程序。自從 1960 年代虛擬代理問(wèn)世以來(lái),這項(xiàng)技術(shù)已獲得了飛速的發(fā)展。
盡管自然語(yǔ)言處理可以執(zhí)行的任務(wù)不同,但為了進(jìn)軍該領(lǐng)域,并建立自己的項(xiàng)目,你必須熟練掌握該領(lǐng)域基本的六大核心技術(shù)。
這些技術(shù)是所有自然語(yǔ)言處理模型的基礎(chǔ)。如果你已經(jīng)理解了這些技術(shù),并知道何時(shí)使用何種技術(shù),那么自然語(yǔ)言處理的大門(mén)就會(huì)向你敞開(kāi)。
審核編輯 :李倩
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132831 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13599 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22064
原文標(biāo)題:數(shù)據(jù)科學(xué)家必會(huì)的六大 NLP 技術(shù)!
文章出處:【微信號(hào):5G通信,微信公眾號(hào):5G通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論