0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)科學(xué)家必會(huì)的六大NLP技術(shù)!

jf_uPRfTJDa ? 來(lái)源:CSDN ? 2023-02-27 13:51 ? 次閱讀

自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP)可能是當(dāng)前數(shù)據(jù)科學(xué)中最受關(guān)注的子領(lǐng)域。

NLP不僅有趣、有前途,而且還可以改變我們看待技術(shù)的方式。不僅是技術(shù),它還可以改變我們理解人類(lèi)語(yǔ)言的方式。

自然語(yǔ)言處理是人類(lèi)語(yǔ)言與技術(shù)的結(jié)合,如今該項(xiàng)技術(shù)在研究和行業(yè)領(lǐng)域受到的關(guān)注越來(lái)越多。自從第一臺(tái)計(jì)算機(jī)誕生以來(lái),人們就憧憬著創(chuàng)造出能夠理解人類(lèi)語(yǔ)言的計(jì)算機(jī)程序。

機(jī)器學(xué)習(xí)人工智能領(lǐng)域的進(jìn)步推動(dòng)了自然語(yǔ)言處理的發(fā)展,以及人們持續(xù)高漲的興趣。隨著自然語(yǔ)言處理為我們的日常生活帶來(lái)越來(lái)越多的便利,人們的興趣也會(huì)越來(lái)越高。亞馬遜的 Alexa、蘋(píng)果的 Siri 以及 Google 助手等一系列技術(shù)產(chǎn)品的問(wèn)世,充分表明了這項(xiàng)技術(shù)掀起的熱浪。

事實(shí)上,自然語(yǔ)言處理也是我進(jìn)入數(shù)據(jù)科學(xué)的緣由。我一直著迷于語(yǔ)言本身及其隨著人類(lèi)的經(jīng)驗(yàn)和時(shí)間的發(fā)展。我想了解如何教計(jì)算機(jī)理解我們的語(yǔ)言,不僅如此,而且我還希望計(jì)算機(jī)能夠使用人類(lèi)的語(yǔ)言來(lái)和我們交流,并理解我們。

在本文中,我將介紹 6 種自然語(yǔ)言處理的基本技術(shù),如果你也想涉足該領(lǐng)域,則應(yīng)該掌握這些技術(shù)。

詞形還原與詞干提取

數(shù)據(jù)準(zhǔn)備是所有 NLP 項(xiàng)目都必不可少的工作,常見(jiàn)的方式有兩種:詞形還原與詞干提取,你可以選擇其中一個(gè)方式。它們代表了該領(lǐng)域的核心概念,是你成為 NLP 大師需要學(xué)習(xí)的第一項(xiàng)技術(shù)。

初學(xué)者往往會(huì)混淆這兩種技術(shù)。雖然二者有相似之處,但是有很大不同。

詞干提取(Stemming):詞干提取是去除詞綴得到詞根的過(guò)程,即得到單詞最一般的寫(xiě)法,比如:argue、argued、argues、arguing 和 argus 的詞干為“argu”。執(zhí)行詞干提取的算法有很多,這些算法需要考慮單詞常見(jiàn)的前綴與后綴。英語(yǔ)中常用的算法是 Porter 詞干提取器,該算法包含 5 個(gè)階段,需要按順序進(jìn)行,最終獲取單詞的詞根。

詞形還原(Lemmatization):詞形還原是指將一個(gè)單詞還原為一般形式(能表達(dá)完整語(yǔ)義)。比如:“walk”、“walked”、“walks”以及“walking”的一般形式為“walk”。為了克服詞干提取的缺點(diǎn),人們?cè)O(shè)計(jì)了詞形還原。這些算法需要了解語(yǔ)言與語(yǔ)法的知識(shí),才能在提取單詞詞元的時(shí)候做出更好的決定。為了詞形還原算法執(zhí)行的準(zhǔn)確率,它們需要提取每個(gè)單詞的詞元。因此,通常它們需要語(yǔ)言的詞典,才能正確地分類(lèi)每個(gè)單詞。

根據(jù)這些定義,你應(yīng)該可以看出詞形還原比詞干提取更加復(fù)雜,而且實(shí)現(xiàn)這種算法也需要更多的時(shí)間。但是,詞形還原更加準(zhǔn)確,而且最終分析結(jié)果的噪聲也更少。

關(guān)鍵字提取

關(guān)鍵字提取,有時(shí)又稱(chēng)之為關(guān)鍵字檢測(cè)或關(guān)鍵字分析,這是一種文本分析的 NLP 技術(shù)。這種技術(shù)的主要目的是自動(dòng)地從文本的正文中提取出現(xiàn)頻率最高的單詞與詞組。這種技術(shù)常常作為生成本文摘要的第一步,提取文本的主旨。

關(guān)鍵字提取算法借助了機(jī)器學(xué)習(xí)與人工智能的強(qiáng)大力量。這種算法使用神經(jīng)網(wǎng)絡(luò)來(lái)提取和簡(jiǎn)化文本,以方便計(jì)算機(jī)理解。這種算法適合任何類(lèi)型的文本,從學(xué)術(shù)文本到社交媒體帖子中常用的口語(yǔ)化文本。

關(guān)鍵字提取在當(dāng)今世界中有很多應(yīng)用,包括社交媒體監(jiān)控、客戶(hù)服務(wù)/反饋、產(chǎn)品分析以及搜索引擎優(yōu)化。

命名實(shí)體識(shí)別(NER)

詞干提取、詞形還原、命名實(shí)體識(shí)別(Named Entity Recognition,簡(jiǎn)稱(chēng)NER)是最基本以及核心的 NLP 技術(shù)。

NER 是一項(xiàng)從文本的正文中提取實(shí)體的技術(shù),這里的實(shí)體主要包括人名、地名、機(jī)構(gòu)名、專(zhuān)有名詞等,以及時(shí)間、數(shù)量、貨幣、比例數(shù)值等文字。

NER 算法主要包含兩大步驟。第一步,檢測(cè)文本中的實(shí)體;第二步,將實(shí)體分類(lèi)到一個(gè)類(lèi)別集合。NER 的表現(xiàn)極大地依賴(lài)于開(kāi)發(fā)模型時(shí)使用的訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)越接近真實(shí)的數(shù)據(jù),最終的結(jié)果就越準(zhǔn)確。

關(guān)系到 NER 模型準(zhǔn)確性的另一個(gè)因素是構(gòu)建模型時(shí)使用的語(yǔ)言知識(shí)。話(huà)雖如此,網(wǎng)上有很多預(yù)訓(xùn)練的 NER 平臺(tái),可供隨時(shí)使用。

NER 可以應(yīng)用到多種領(lǐng)域,比如構(gòu)建推薦系統(tǒng),在醫(yī)療保健中為患者提供更好的服務(wù),以及在學(xué)術(shù)界中幫助學(xué)生獲得相關(guān)的研究材料。

主題建模

你可以使用提取關(guān)鍵字的方式,將大段的文本壓縮成幾個(gè)主要的關(guān)鍵詞和概念。然后在此基礎(chǔ)上,提煉出文本的主題。

另外,還有一種更先進(jìn)的識(shí)別文本主題的方式:主題建模。主題建模構(gòu)建于非監(jiān)督機(jī)器學(xué)習(xí)的基礎(chǔ)之上,這類(lèi)機(jī)器學(xué)習(xí)的訓(xùn)練不需要帶標(biāo)簽的數(shù)據(jù)。

文本的主題建模算法有很多種,比如相似主題模型(Correlated Topic Model,CTM)、潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)以及潛在語(yǔ)義分析(Latent Semantic Analysis,LSA),其中最常用的方法是 LDA。這種方法可以分析文本,并將文本分解成單詞和語(yǔ)句,然后從這些單詞和語(yǔ)句中提取不同的主題。你需要做的只是為算法提供文本,接下來(lái)的工作全部由算法完成。

文本摘要

還有一個(gè)非常實(shí)用,且前景非??春玫?NLP 應(yīng)用,那就是文本摘要。這種算法可以將大段文本壓縮成一小塊只包含文本大意的文字。這種技術(shù)常用于提煉長(zhǎng)篇新聞文章,以及提取研究論文的摘要。

文本摘要是一項(xiàng)先進(jìn)的技術(shù),它使用了上述我們提到的技術(shù)(比如主題建模以及關(guān)鍵字提取等)來(lái)完成目標(biāo)工作。這種方法通常包含兩大步驟:提取和抽象。

在提取階段,算法會(huì)根據(jù)單詞在文本中出現(xiàn)的頻率,提取文本的主要部分。接著,算法會(huì)生成摘要,即通過(guò)一段全新的文本來(lái)傳達(dá)原文的主旨。文本摘要的算法有很多種,比如 LexRank 與 TextRank。

LexRank 算法通過(guò)一個(gè)排名模型來(lái)分類(lèi)文本中的句子。這種排名依據(jù)的是句子之間的相似性,某個(gè)句子與其余文本的相似性越高,它的排名就越高。

情感分析

情感分析(Sentiment Analysis)是人氣最高、知名度最廣的 NLP 技術(shù)之一。這種技術(shù)的核心功能是通過(guò)分析文本包含的單詞,提取文本所表達(dá)的情感。

這項(xiàng)技術(shù)最簡(jiǎn)單的結(jié)果是一項(xiàng)表示積極、消極和中性的評(píng)分,該結(jié)果用數(shù)字表示。如果結(jié)果是負(fù)數(shù),則代表文本背后的情緒為消極;如果結(jié)果為正數(shù),則表示文本表達(dá)了積極的觀點(diǎn)。

情感分析是機(jī)器學(xué)習(xí)技術(shù)的廣泛應(yīng)用之一。它可以通過(guò)監(jiān)督學(xué)習(xí)實(shí)現(xiàn),也可以通過(guò)非監(jiān)督學(xué)習(xí)實(shí)現(xiàn)。最常見(jiàn)的通過(guò)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的情感分析是使用樸素貝葉斯算法。還有其他機(jī)器學(xué)習(xí)算法也可用于情感分析的實(shí)現(xiàn),比如梯度提升(Gradient Boosting)以及隨機(jī)森林。

總結(jié)

人類(lèi)對(duì)于計(jì)算理解自然語(yǔ)言,并使用自然語(yǔ)言與我們交流的渴望由來(lái)已久。隨著技術(shù)與機(jī)器學(xué)習(xí)算法的飛速發(fā)展,這種想法已不只是一種憧憬。我們已經(jīng)可以在日常生活中看到和體驗(yàn)這種技術(shù)。這種想法是自然語(yǔ)言處理的核心。

自然語(yǔ)言處理是當(dāng)今的熱門(mén)話(huà)題之一,也是非常有潛力的領(lǐng)域之一。各大公司和研究機(jī)構(gòu)都在競(jìng)相創(chuàng)建能夠完全理解并使用人類(lèi)語(yǔ)言的計(jì)算機(jī)程序。自從 1960 年代虛擬代理問(wèn)世以來(lái),這項(xiàng)技術(shù)已獲得了飛速的發(fā)展。

盡管自然語(yǔ)言處理可以執(zhí)行的任務(wù)不同,但為了進(jìn)軍該領(lǐng)域,并建立自己的項(xiàng)目,你必須熟練掌握該領(lǐng)域基本的六大核心技術(shù)。

這些技術(shù)是所有自然語(yǔ)言處理模型的基礎(chǔ)。如果你已經(jīng)理解了這些技術(shù),并知道何時(shí)使用何種技術(shù),那么自然語(yǔ)言處理的大門(mén)就會(huì)向你敞開(kāi)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8428

    瀏覽量

    132831
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    619

    瀏覽量

    13599
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22064

原文標(biāo)題:數(shù)據(jù)科學(xué)家必會(huì)的六大 NLP 技術(shù)!

文章出處:【微信號(hào):5G通信,微信公眾號(hào):5G通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    TI科學(xué)家談浮點(diǎn)DSP未來(lái)發(fā)展

    TI科學(xué)家談浮點(diǎn)DSP未來(lái)發(fā)展 自十多年前浮點(diǎn)數(shù)字信號(hào)處理器(DSP)誕生以來(lái),便為實(shí)時(shí)信號(hào)處理提供了算術(shù)上更為先進(jìn)的備選方案。不過(guò),定點(diǎn)器件至今仍是業(yè)界的主流--當(dāng)然低成本是主要原因。定點(diǎn)DSP每
    發(fā)表于 11-03 15:18

    科學(xué)家推出多種波動(dòng)描記傳感器

      美國(guó)得克薩斯大學(xué)的科學(xué)家們最新一項(xiàng)研究結(jié)果表明,人們很快將根據(jù)腸子的波動(dòng)情況當(dāng)場(chǎng)揭穿騙子的謊言?! ≡摯髮W(xué)的科研小組還認(rèn)為,將來(lái)有一天,以記錄心臟活動(dòng)為主的多種波動(dòng)描記器將極大地提高其工作質(zhì)量
    發(fā)表于 10-24 11:40

    生物電磁波揭密 場(chǎng)導(dǎo)發(fā)現(xiàn)(俄羅斯華裔科學(xué)家寫(xiě)的腦控技術(shù)叢書(shū))

    生物電磁波揭密場(chǎng)導(dǎo)發(fā)現(xiàn)(俄羅斯華裔科學(xué)家寫(xiě)的腦控技術(shù)叢書(shū))
    發(fā)表于 03-05 09:31

    通往數(shù)據(jù)科學(xué)家的崎嶇道路

    如果你曾經(jīng)查看過(guò)數(shù)據(jù)科學(xué)家的崗位要求,你就知道它的職責(zé)范圍有多廣。有的數(shù)據(jù)科學(xué)家致力于自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí),有的則從事A/B測(cè)試、產(chǎn)品分析。確定哪些工作適合自己,哪些不適
    的頭像 發(fā)表于 07-26 09:17 ?2591次閱讀

    哪些才是對(duì)數(shù)據(jù)科學(xué)家最迫切的技能呢?

    AngelList提供的是列出數(shù)據(jù)科學(xué)家崗位的公司數(shù)而不是崗位數(shù)。我把AngelList從所有分析里面排除掉了,因?yàn)槠渌阉魉惴ㄋ坪醢凑誒R型的邏輯搜索進(jìn)行,沒(méi)有辦法改成AND。如果你尋找的是“數(shù)據(jù)
    的頭像 發(fā)表于 11-19 18:14 ?3076次閱讀

    什么是數(shù)據(jù)科學(xué)家?需要認(rèn)證嗎?

    得以清晰化?!盕leming指出,IBM目前雇傭了大約1.5萬(wàn)名被定義為數(shù)據(jù)科學(xué)家技術(shù)人員,預(yù)計(jì)數(shù)據(jù)科學(xué)家人數(shù)的增長(zhǎng)速度超過(guò)其雇員總數(shù)的增
    的頭像 發(fā)表于 02-14 09:41 ?6633次閱讀

    數(shù)據(jù)科學(xué)家與機(jī)器學(xué)習(xí)工程師怎么區(qū)分

    十年來(lái),我們一直在談?wù)?b class='flag-5'>數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家。雖然在怎么才叫“數(shù)據(jù)科學(xué)家”的問(wèn)題上始終存在著爭(zhēng)議,
    的頭像 發(fā)表于 05-18 11:24 ?3247次閱讀

    數(shù)據(jù)科學(xué)家常犯的10個(gè)編程錯(cuò)誤

    數(shù)據(jù)科學(xué)家是“比軟件工程師更擅長(zhǎng)統(tǒng)計(jì)學(xué),比統(tǒng)計(jì)學(xué)家更擅長(zhǎng)軟件工程的人”。
    的頭像 發(fā)表于 05-24 14:50 ?2686次閱讀

    數(shù)據(jù)科學(xué)家數(shù)據(jù)工程師的區(qū)別

    數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的主要區(qū)別,可以用ETL和DAD的區(qū)別來(lái)解釋。
    的頭像 發(fā)表于 07-10 17:06 ?2666次閱讀

    企業(yè)如何解決數(shù)據(jù)科學(xué)家短缺詳細(xì)方法什么

     隨著企業(yè)以數(shù)據(jù)為中心的文化,以做出決策和規(guī)劃,數(shù)據(jù)科學(xué)家對(duì)全球企業(yè)的重要性日益增加。但是企業(yè)無(wú)法足夠快地聘請(qǐng)數(shù)據(jù)科學(xué)家,因?yàn)楹细窈蜻x人仍然
    的頭像 發(fā)表于 04-18 10:31 ?3489次閱讀

    采訪資深數(shù)據(jù)科學(xué)家:成為數(shù)據(jù)科學(xué)家應(yīng)具有的品質(zhì)

    作為一門(mén)逐漸成熟的新興領(lǐng)域,與數(shù)據(jù)科學(xué)相關(guān)的很多領(lǐng)域開(kāi)始變得備受青睞,比如數(shù)據(jù)工程,數(shù)據(jù)分析以及機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。數(shù)據(jù)
    的頭像 發(fā)表于 06-30 11:28 ?2337次閱讀

    什么是數(shù)據(jù)科學(xué)家的最佳編程語(yǔ)言?

    每個(gè)數(shù)據(jù)科學(xué)學(xué)習(xí)者都最常問(wèn)的問(wèn)題:“ 什么是數(shù)據(jù)科學(xué)家的最佳編程語(yǔ)言?”。
    的頭像 發(fā)表于 07-05 11:32 ?2527次閱讀

    數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師能合二為一嗎?

    雖然數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的角色似乎截然不同,但數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師有許多共同的特點(diǎn)和共技能。這些重疊的技能包括處理和操作大數(shù)據(jù)集、應(yīng)用
    的頭像 發(fā)表于 07-25 10:17 ?2562次閱讀

    深入研究數(shù)據(jù)科學(xué)家使用的常見(jiàn)統(tǒng)計(jì)和分析技術(shù)

    數(shù)據(jù)科學(xué)技術(shù)如今已在許多組織中占有一席之地,數(shù)據(jù)科學(xué)家正迅速成為以數(shù)據(jù)為中心的組織最受歡迎的角色之一。數(shù)
    的頭像 發(fā)表于 01-14 16:09 ?2018次閱讀

    中國(guó)聯(lián)通AI科學(xué)家廉士國(guó)入選全球前2%頂尖科學(xué)家榜單

    %頂尖科學(xué)家榜單是Elsevier和斯坦福大學(xué)John P.A. Ioannidis教授團(tuán)隊(duì)合作的具有全球影響力的項(xiàng)目成果,為全球?qū)W術(shù)界提供了一個(gè)面向科學(xué)家長(zhǎng)期科研表現(xiàn)的衡量指標(biāo),旨在更客觀、更真實(shí)地反映科學(xué)家全球影響力。榜單以
    的頭像 發(fā)表于 11-07 16:18 ?2711次閱讀