国产欧色美视频综合二区小,老司机精品热播视频在线

NLP的首要問題就是尋求恰當?shù)奈谋颈硎痉椒?。因為，良好的文本表示形式，是后續(xù)進一步處理的基礎(chǔ)。近年來，詞嵌入方法越來越流行，在各種各樣的NLP任務(wù)中得到了廣泛的應(yīng)用。簡單而言，詞嵌入是通過無監(jiān)督方式學(xué)習(xí)單詞的向量表示。本文將首先回顧用向量表示文本的早期模型，并通過分析其缺陷揭示詞嵌入提出的動機，然后介紹Word2Vec和Glove這兩種最流行的詞嵌入方法背后的直覺。

向量空間模型

用向量來表示文本這一想法由來已久。早在1975年，Salton等就提出用向量空間模型來表示文本，以更好地索引、搜索文檔。

由于向量空間模型最初的應(yīng)用場景是索引、搜索，因此更關(guān)注詞和權(quán)重。由詞的權(quán)重組成向量，并使用這一向量表示整篇文檔。

具體而言，假設(shè)文檔由n個單詞組成，那么這篇文檔就可以表示為由每個單詞的權(quán)重組成的n維向量（長度為n的數(shù)組），[w1, w2, ..., wn]。當然，為了降低維度，事先會移除一些無關(guān)緊要的詞（例如the、is）。在實踐中，使用一份停止詞（stop words）列表移除常見的無關(guān)緊要的單詞。

權(quán)重的計算有很多方法，最常用的是基于詞頻的方法。具體而言，單詞的權(quán)重由三個因素決定：

詞頻（Term Frequency，TF）。詞頻的計算公式為TF = t / m，其中，t為單詞在文檔出現(xiàn)的次數(shù)，m為文檔的長度（總詞數(shù)）。例如，假設(shè)文檔由1000個單詞組成，其中某個單詞總共出現(xiàn)了3次，那么這個單詞的詞頻就等于3/1000.

逆向文檔頻率（Inverse Document Frequency，IDF）。IDF衡量單詞提供的信息量，換句話說，某個單詞是否在所有文檔中都很常見/罕見。這背后的直覺很簡單。假設(shè)100篇文檔中，有80篇都包含“手機”這個單詞，而只有5篇文檔包含“足球”這個單詞。那么，對某篇特定文檔而言，如果它同時包含“足球”和“手機”這兩個單詞，這篇文檔更可能是一篇關(guān)于足球的文檔，而不是一篇關(guān)于手機的文檔，盡管“手機”的詞頻可能比“足球”高很多。

也就是說，我們需要設(shè)法加強“足球”的權(quán)重，削弱“手機”的權(quán)重。一個很容易想到的辦法是用總文檔數(shù)N除以包含該單詞的文檔數(shù)n，即N/n作為系數(shù)。在上面的例子中，“足球”的系數(shù)為100/5 = 20，“手機”的系數(shù)為100/80 = 1.25.

不過，這里有一個問題，20和1.25是比較大的數(shù)字，而詞頻的取值范圍小于1，兩者之間的數(shù)量級差異太大了。說不定有一篇文檔主要是關(guān)于手機的，頻繁提到“手機”，只提到過一次“足球”，也因為系數(shù)數(shù)量級的差距導(dǎo)致被誤判為關(guān)于“足球”的文檔。在實踐中，文檔的總數(shù)可能非常大，遠不止100，上述缺陷就更嚴重了。因此，我們需要“壓縮”一下，比如取個對數(shù)：log(N/n)。我們看到，取對數(shù)后，“足球”的系數(shù)為log(20) = 2.996，“手機”的系數(shù)為log(1.25) = 0.223，好多了。

但是，取了對數(shù)之后，當文檔總數(shù)很多，同時某個單詞在幾乎所有文檔中出現(xiàn)的時候，N/n趨向于1，由對數(shù)定義可知，log(N/n)趨向于0. 為了應(yīng)對這個問題，我們可以在取對數(shù)前額外加1平滑下。所以，最終IDF的計算公式為：

IDF = log(1 + N/n)

長度正則化上面TF和IDF的計算，我們假定文檔長度差距不大。實際上，文檔長度也會影響TF和IDF的效果。

雖然，在計算TF的時候，已經(jīng)除以文檔總詞數(shù)了，也就是已經(jīng)考慮到文檔長度了。然而這并不能完全消除文檔長度的影響。讓我們先看IDF（沒有考慮文檔總詞數(shù)）的情形。

對于IDF而言，長文檔包含的單詞更多，因此更容易出現(xiàn)各種單詞。因此，IDF相等的情況下，經(jīng)常出現(xiàn)在短文檔中的單詞，信息量比經(jīng)常出現(xiàn)在長文檔中的單詞要高。例如，假設(shè)100篇文檔中，有2篇提到了“手機”，有2篇提到了“平板”，那么這兩個單詞的IDF值均為log(1 + 100/2) = 3.932。然而，假設(shè)提到“手機”的兩篇文檔各自長度為10個單詞（一句話），而提到“平板”的兩篇文檔各自長度為10000個單詞（長篇大論）。那么，很明顯，IDF相等的“手機”和“平板”，信息量是不同的。在一句話中提到“手機”，那么這句話和手機高度相關(guān)的可能性，要比在長篇大論中偶爾提到“平板”大很多。

IDF之后，再回過頭來看TF，就比較清楚了。計算IDF時，需要考慮有多少文檔出現(xiàn)過某個單詞。那么，反過來說，剩下的文檔沒出現(xiàn)過這個單詞，也就是說，該單詞在那些剩下的文檔中的TF為零。根據(jù)之前對IDF的分析，我們知道，同樣是TF為零，長文檔TF為零和短文檔TF為零，意義是不一樣的。從另一方面來說，長度為10單詞的文檔沒有提到“平板”，長度為10000單詞的文檔提到兩次“平板”，未必意味著后者就更可能和平板相關(guān)。很可能后者只是一篇偶爾提及平板，主要內(nèi)容和平板完全無關(guān)的文檔。

1975年Salton等提出基于文檔的向量空間模型，原本是為了優(yōu)化文檔的索引和獲取。當?shù)玫交谖臋n的向量表示后，可以計算所有文檔在整個向量空間中的密度。文檔越密集、越扎堆，想要通過特定關(guān)鍵詞檢索，獲取某篇特定文檔就更困難。相反，文檔在向量空間中，彼此的距離越遠，索引系統(tǒng)的效果就越好。然而，這一方法的應(yīng)用顯然并不局限于此。

例如，我們可以通過計算文檔向量的接近程度（例如，使用余弦相似度）來衡量兩個文檔的相似度。之后，相似度可以用于文本分類、推薦相似文本等任務(wù)。

圖片來源：Riclas；許可： CC-BY 3.0

詞向量空間

前面我們介紹了基于文檔的向量空間模型，這一模型主要是基于頻率（詞頻和逆向文檔頻率）構(gòu)建。類似地，基于和其他單詞同時出現(xiàn)的頻率，我們可以構(gòu)建基于單詞的向量空間模型。詞向量空間模型的主要思路是出現(xiàn)在類似的上下文環(huán)境中的單詞在語義上很可能相似。例如，假如我們發(fā)現(xiàn)，“咖啡”和“喝”經(jīng)常同時出現(xiàn)，另一方面，“茶”和“喝”也經(jīng)常同時出現(xiàn)，那么我們可以推測“咖啡”和“茶”在語義上應(yīng)該是相似的。

例如，上圖可視化了“路”（road）、“街”（street）以及“咖啡”（coffee）、“茶”（tea）這兩對詞向量。每個詞向量有25個維度（25個上下文中出現(xiàn)的單詞），灰度表示同時出現(xiàn)的頻率。從圖中很明顯能看到“路”、“街”的相似性以及“咖啡”、“茶”的相似性。另外，我們也看到，“街”和“咖啡”并不相似。（圖片來源于Lund等1996年發(fā)表的論文，因年代較早，印刷、掃描的質(zhì)量不高，圖片有點模糊，見諒。）

上面的可視化中，為了便于查看，每個詞向量僅有25個維度。實際上，詞向量的維度對應(yīng)于整個語料庫的詞匯量，因此通常維度高達上萬，甚至百萬。處理這樣的高維向量無疑是一項巨大的挑戰(zhàn)。這也正是詞向量空間模型的主要缺陷。

為了降低詞向量的維度，我們需要詞嵌入（Word Embedding）。

詞嵌入

詞嵌入背后的直覺很簡單，既然同時出現(xiàn)的單詞在語義上有聯(lián)系，那么我們可以用某個模型來學(xué)習(xí)這些聯(lián)系，然后用這個模型來表示單詞。

當前最流行的詞嵌入方法是Word2Vec和Glove。下面我們簡單介紹下這兩種詞嵌入方法的主要思路。

Word2Vec

Word2Vec的網(wǎng)絡(luò)結(jié)構(gòu)很簡單，包括一個輸入層、一個隱藏層、一個輸出層。其中，輸入層對應(yīng)某個（上下文）單詞的獨熱編碼向量（共有V個詞匯），輸出層為與輸入單詞同時出現(xiàn)的單詞的概率分布，換句話說，詞匯表中的每個單詞，出現(xiàn)在這一上下文中的概率分別是多少。隱藏層由N個神經(jīng)元組成。

圖片來源：Xin Rong arXiv:1411.2738v4

經(jīng)過訓(xùn)練之后，我們使用輸入層和隱藏層之間的連接權(quán)重矩陣WVxN表示單詞之間的關(guān)系。矩陣W共有V行，每一行都是一個N維向量，每個N維向量分別對應(yīng)一個單詞。這樣，詞向量的維度就從V降到了N。

我們之前介紹Word2Vec的架構(gòu)的時候沒有提及激活函數(shù)?，F(xiàn)在我們回過頭來補充一下。由于輸出層需要輸出給定上下文中出現(xiàn)單詞的概率分布，因此順理成章地使用softmax。而Word2Vec的隱藏層不使用激活函數(shù)，這看起來有些離經(jīng)叛道，其實在這一場景中很合適。因為最終我們只需要權(quán)重矩陣，并不使用隱藏層的激活函數(shù)。因此，為了簡化網(wǎng)絡(luò)架構(gòu)，Word2Vec的隱藏層不使用激活函數(shù)。當然，最后的輸出層也沒用到，不過隱藏層和輸出層之間的權(quán)重，以及softmax可不能去掉，否則網(wǎng)絡(luò)就無法訓(xùn)練了。

當然，上面的網(wǎng)絡(luò)架構(gòu)其實是簡化過了的。通常，上下文不止一個單詞。所以，實際上Word2Vec的網(wǎng)絡(luò)架構(gòu)要比上面稍微復(fù)雜一點。

圖片來源：Xin Rong arXiv:1411.2738v4

和上面簡化過的架構(gòu)相比，唯一的區(qū)別是現(xiàn)在有多個上下文單詞了。所以，輸入不再是某個單詞的獨熱編碼向量了，而是多個上下文單詞的平均向量。相應(yīng)地，原本我們僅僅使用輸入層和隱藏層之間的權(quán)重矩陣來表示單詞，現(xiàn)在則使用該權(quán)重矩陣和平均向量的乘積。

另外，其實我們也可以把上述的網(wǎng)絡(luò)架構(gòu)翻轉(zhuǎn)過來，也就是將目標單詞作為輸入，可能的上下文作為輸出。

這兩種架構(gòu)都屬于Word2Vec，前者稱為CBOW模型，后者稱為Skip-Gram模型。

Glove

另一個流行的詞嵌入方法是Glove。

之前我們提到，Word2Vec的輸出是單詞同時出現(xiàn)的概率分布。而Glove的主要直覺是，相比單詞同時出現(xiàn)的概率，單詞同時出現(xiàn)的概率的比率能夠更好地區(qū)分單詞。比如，假設(shè)我們要表示“冰”和“蒸汽”這兩個單詞。對于和“冰”相關(guān)，和“蒸汽”無關(guān)的單詞，比如“固體”，我們可以期望P冰-固體/P蒸汽-固體較大。類似地，對于和“冰”無關(guān)，和“蒸汽”相關(guān)的單詞，比如“氣體”，我們可以期望P冰-氣體/P蒸汽-氣體較小。相反，對于像“水”之類同時和“冰”、“蒸汽”相關(guān)的單詞，以及“時尚”之類同時和“冰”、“蒸汽”無關(guān)的單詞，我們可以期望P冰-水/P蒸汽-水、P冰-時尚/P蒸汽-時尚應(yīng)當接近于1。

另一方面，之前我們已經(jīng)提到過，Word2Vec中隱藏層沒有使用激活函數(shù)，這就意味著，隱藏層學(xué)習(xí)的其實是線性關(guān)系。既然如此，那么，是否有可能使用比神經(jīng)網(wǎng)絡(luò)更簡單的模型呢？

基于以上兩點想法，Glove提出了一個加權(quán)最小二乘回歸模型，輸入為單詞-上下文同時出現(xiàn)頻次矩陣：

其中，f是加權(quán)函數(shù)，定義如下：

在某些場景下，Glove的表現(xiàn)優(yōu)于Word2Vec。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

向量

向量

+關(guān)注

關(guān)注
0

文章
55

瀏覽量
11685
nlp

nlp

+關(guān)注

關(guān)注
1

文章
489

瀏覽量
22066

原文標題：Word2Vec與Glove：詞嵌入方法的動機和直覺

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

淺析word2vec的安裝和使用方法

NLP之word2vec：word2vec簡介、安裝、使用方法之詳細攻略

發(fā)表于 12-25 10:32

Gensim的word2vec說明是什么

翻譯word2vec說明

發(fā)表于 04-26 14:37

word2vec之嵌入空間

word2vec(嵌入空間)

發(fā)表于 05-08 13:17

Word2Vec學(xué)習(xí)筆記

Word2Vec學(xué)習(xí)筆記之基礎(chǔ)篇

發(fā)表于 07-17 09:27

word2vec使用說明資料分享

Google的word2vec官網(wǎng)：https://code.google.com/p/word2vec/下載下來的Demo源碼文件共有如下幾個：word2vec – Revision 41

發(fā)表于 07-02 07:49

構(gòu)建詞向量模型相關(guān)資料分享

向量就是詞向量; 詞向量的計算應(yīng)該有意義, 需要盡可能保留原來的語言特征, 把語素編碼到連續(xù)的、能反映語素間關(guān)系的連續(xù)的向量空間的操作叫詞嵌入.(本文包含嘗試和其他實驗的筆記, 篇幅較

發(fā)表于 09-17 07:17

請問word2vec怎么使用？

請問word2vec怎么使用？

發(fā)表于 09-23 08:14

如何對2013年的Word2Vec算法進行增強

等人介紹的名為“FastText”的單詞嵌入算法，并了解它是如何對2013年的Word2Vec算法進行增強的。詞表示的直覺假設(shè)我們有下面的單詞，我們想把它們表示成向量，這樣它們就可以用

發(fā)表于 11-04 12:03

自制Word2Vec圖書推薦系統(tǒng)，幫你找到最想看的書！

最初的Word2Vec Cbow算法使用固定的窗口大小的單詞用作特定目標的輸入。比如，如果窗口大小是目標詞左側(cè)和右側(cè)的2個單詞，那么在這句“The cat in the hat”中，如果目標詞

發(fā)表于 09-25 08:53 ?9712次閱讀

自然語言處理的ELMO使用

word embedding 是現(xiàn)在自然語言處理中最常用的 word representation 的方法，常用的word embedding 是w

發(fā)表于 05-02 14:32 ?3362次閱讀

基于單詞貢獻度和Word2Vec詞向量的文檔表示方法

針對現(xiàn)有文檔向量表示方法受噪聲詞語影響和重要詞語語義不完整的問題，通過融合單詞貢獻度與word2vec詞向量提出一種新的文檔表示方法。應(yīng)用數(shù)

發(fā)表于 04-29 11:03 ?2次下載

你們了解Word2vec嗎？讀者一篇就夠了

://jalammar.github.io/illustrated-bert/ Word2vec是一種有效創(chuàng)建詞嵌入的方法，它自2013年以

發(fā)表于 06-23 16:36 ?1841次閱讀

PyTorch教程15.4之預(yù)訓(xùn)練word2vec

電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.4之預(yù)訓(xùn)練word2vec.pdf》資料免費下載

發(fā)表于 06-05 10:58 ?0次下載

PyTorch教程-15.4. 預(yù)訓(xùn)練word2vec

15.4. 預(yù)訓(xùn)練word2vec? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab

發(fā)表于 06-05 15:44 ?387次閱讀

論文遭首屆ICLR拒稿、代碼被過度優(yōu)化，word2vec作者Tomas Mikolov分享背后的故事

盡管 word2vec 是我被引用最多的論文，但我從未認為它是我最有影響力的項目。實際上，word2vec 代碼最初只是我之前項目 RNNLM 的一個子集，我感覺 RNNLM 很快就被人們遺忘了。但在我看來，它應(yīng)該和 AlexNet 一樣具有革命性意義。

發(fā)表于 12-18 16:51 ?819次閱讀