將遷移學(xué)習(xí)應(yīng)用于計(jì)算機(jī)視覺模型的例子很常見,但如果將其用于文本分類,情況又會(huì)如何呢?不妨進(jìn)入TensorFlow Hub,這是通過遷移學(xué)習(xí)來增強(qiáng) TF 模型的內(nèi)容庫(kù)。遷移學(xué)習(xí)是這樣一種過程:選用已借助大量數(shù)據(jù)訓(xùn)練好的已有模型的權(quán)重和變量,并將其運(yùn)用于自己的數(shù)據(jù)和預(yù)測(cè)任務(wù)。
遷移學(xué)習(xí)具有諸多好處,其中之一就是您無需像從頭開始訓(xùn)練時(shí)一樣提供自己的大量訓(xùn)練數(shù)據(jù)。但這些已有模型又來自何處呢?這正是 TensorFlow Hub 大顯身手之處:它可以為各類模型(圖像、文本等)提供現(xiàn)有模型檢查點(diǎn)的完整存儲(chǔ)區(qū)。在本篇博文中,我將介紹如何使用 TensorFlow Hub 文本模塊構(gòu)建一個(gè)模型,以根據(jù)相關(guān)描述預(yù)測(cè)電影類型。
您可以使用Colab在瀏覽器中運(yùn)行此模型,無需任何設(shè)置。
導(dǎo)入數(shù)據(jù)并進(jìn)行預(yù)處理
在這個(gè)模型中,我們將使用Kaggle 電影數(shù)據(jù)集這個(gè)出色的公共領(lǐng)域資源。該數(shù)據(jù)集包含逾 45000 部電影的數(shù)據(jù),每部電影均有大量相關(guān)數(shù)據(jù)。為簡(jiǎn)便起見,我們僅使用該數(shù)據(jù)集中的電影描述(稱作 “簡(jiǎn)介”)和電影類型。下面是該數(shù)據(jù)集在 Kaggle 中的預(yù)覽:
注:Kaggle 電影數(shù)據(jù)集鏈接
https://www.kaggle.com/rounakbanik/the-movies-dataset/home
首先,我們將導(dǎo)入要使用的內(nèi)容庫(kù),以構(gòu)建此模型:
1import numpy as np
2import pandas as pd
3
4import tensorflow as tf
5import tensorflow_hub as hub
6
7from sklearn.preprocessing import MultiLabelBinarizer
我已經(jīng)將這個(gè)數(shù)據(jù)集的 CSV 文件放在一個(gè)公共 Cloud Storage 存儲(chǔ)分區(qū)中。我們可以運(yùn)行如下命令,將數(shù)據(jù)下載到我們的 Colab 實(shí)例中,并讀取為 Pandas dataframe 格式:
1!wget 'https://storage.googleapis.com/movies_data/movies_metadata.csv'
2data = pd.read_csv('movies_metadata.csv')
3
4descriptions = data['overview']
5genres = data['genres']
為簡(jiǎn)便起見,我們將可能的類型限定為下列幾種:
1top_genres = ['Comedy', 'Thriller', 'Romance', 'Action', 'Horror', 'Crime', 'Documentary', 'Adventure', 'Science Fiction']
我們將數(shù)據(jù)集限定為這些類型中描述非空白的電影,然后按照 80% 訓(xùn)練和 20% 測(cè)試的比例將數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集:
1train_size = int(len(descriptions) * .8)
2
3train_descriptions = descriptions[:train_size]
4train_genres = genres[:train_size]
5
6test_descriptions = descriptions[train_size:]
7test_genres = genres[train_size:]
使用 TF Hub 構(gòu)建嵌入層
以 TF Hub 創(chuàng)建嵌入層時(shí)僅需使用極少量代碼。我們的模型僅有一個(gè)特征(描述),并將表示為一個(gè)嵌入列。文本嵌入提供了在向量空間表示文本內(nèi)容的方法,如此一來,嵌入空間中相似的字詞或句子會(huì)更靠近(您可在此處閱讀更多相關(guān)內(nèi)容)。您可以完全使用自己的數(shù)據(jù)從頭開始構(gòu)建文本嵌入向量。TF Hub 可提供已使用各種文本數(shù)據(jù)訓(xùn)練過的文本嵌入,因而能夠簡(jiǎn)化這一過程。
注:文本嵌入鏈接
https://www.tensorflow.org/hub/modules/text
對(duì)于英文文本,TF Hub 提供了各種已使用不同種類文本數(shù)據(jù)訓(xùn)練過的嵌入:
通用語句編碼器 (Universal sentence encoder):用于較長(zhǎng)的文本輸入
ELMo:使用十億單詞基準(zhǔn) (1B Word Benchmark) 訓(xùn)練過的深度嵌入
神經(jīng)網(wǎng)絡(luò)語言模型 (Neural Network Language Model)嵌入:通過 Google 新聞?dòng)?xùn)練
Word2vec:通過 Wikipedia 訓(xùn)練
您所選擇的預(yù)訓(xùn)練文本嵌入是您模型中的一個(gè)超參數(shù),所以最好用不同的文本嵌入進(jìn)行試驗(yàn),看看哪個(gè)的準(zhǔn)確性最高。先從用與您的文本最接近的文本訓(xùn)練過的模型開始。由于我們的電影描述都是較長(zhǎng)的輸入,因此,我發(fā)現(xiàn)使用通用語句編碼器嵌入的準(zhǔn)確性最高。這可以將我們的描述編碼為高維文本向量。請(qǐng)注意,這一特定模型很大,會(huì)占用 1GB 容量。
注:通用語句編碼器鏈接
https://www.tensorflow.org/hub/modules/google/universal-sentence-encoder/2
我們可以使用 hub.text_embedding_column,以一行代碼為該層創(chuàng)建一個(gè)特征列,并向其傳遞我們層的名稱 (“movie_descriptions”) 和要使用的 TF Hub 模型網(wǎng)址:
1description_embeddings = hub.text_embedding_column(
2"movie_descriptions",
3module_spec="https://tfhub.dev/google/universal-sentence-encoder/2"
4)
請(qǐng)注意,該單元正在下載預(yù)訓(xùn)練過的嵌入,因此需要一些時(shí)間來運(yùn)行。
此操作最大的好處在于,我們無需進(jìn)行任何預(yù)處理,即可將文本描述饋送至預(yù)訓(xùn)練過的字詞嵌入。如果從頭開始構(gòu)建此模型,我們就需要自己將描述轉(zhuǎn)換為向量,但使用 TF Hub 列,我們可以將描述字符串直接傳遞至模型。
將標(biāo)簽變?yōu)?multi-hot 編碼
由于一部電影往往具有多種類型,所以我們的模型會(huì)為每部電影返回多個(gè)可能的標(biāo)簽。我們的類型目前是每部電影有一個(gè)字符串列表(例如 [‘Action’, ‘Adventure’])。由于每個(gè)標(biāo)簽的長(zhǎng)度必須相同,所以我們要將這些列表轉(zhuǎn)換為由 1 和 0(與特定描述中的類型相對(duì)應(yīng))組成的 multi-hot 向量。動(dòng)作冒險(xiǎn)片的 multi-hot 向量如下所示:
注:多個(gè)可能的標(biāo)簽鏈接
https://en.wikipedia.org/wiki/Multi-label_classification
1# Genre lookup, each genre corresponds to an index
2top_genres = ['Comedy', 'Thriller', 'Romance', 'Action', 'Horror', 'Crime', 'Documentary', 'Adventure', 'Science Fiction']
3
4# Multi-hot label for an action and adventure movie
5[0 0 0 1 0 0 0 1 0]
要用短短幾行代碼將字符串標(biāo)簽轉(zhuǎn)換為 multi-hot 向量,我們需要使用名為 MultiLabelBinarizer 的 Scikit Learn 實(shí)用程序:
1encoder = MultiLabelBinarizer()
2encoder.fit_transform(train_genres)
3train_encoded = encoder.transform(train_genres)
4test_encoded = encoder.transform(test_genres)
5num_classes = len(encoder.classes_)
您可以打印 encoder.classes_,查看模型預(yù)測(cè)的所有字符串類列表。
構(gòu)建并訓(xùn)練 DNNEstimator 模型
針對(duì)我們的模型,我們將使用 DNNEstimator 構(gòu)建能夠返回 multi-hot 向量的深度神經(jīng)網(wǎng)絡(luò),這是因?yàn)槊坎侩娪皶?huì)具有 0 個(gè)或多個(gè)可能的標(biāo)簽(這與每個(gè)輸出正好有一個(gè)標(biāo)簽的模型不同)。我們傳遞至 DNNEstimator 的第一個(gè)參數(shù)稱作 head,且此參數(shù)會(huì)定義我們的模型預(yù)期具有的標(biāo)簽類型。我們希望我們的模型可以輸出多個(gè)標(biāo)簽,所以我們?cè)谶@里使用 multi_label_head:
1multi_label_head = tf.contrib.estimator.multi_label_head(
2num_classes,
3loss_reduction=tf.losses.Reduction.SUM_OVER_BATCH_SIZE
4)
現(xiàn)在,當(dāng)我們實(shí)例化 DNNEstimator 時(shí),便可對(duì)其進(jìn)行傳遞。hidden_units 參數(shù)表示我們網(wǎng)絡(luò)中的層數(shù)。此模型有 2 個(gè)層,第一層有 64 個(gè)神經(jīng)元,第二層有 10 個(gè)。層數(shù)和層大小是超參數(shù),所以您應(yīng)當(dāng)嘗試不同的值,看看哪個(gè)最適合您的數(shù)據(jù)集。最后,我們將特征列傳遞至估算器。在本例中,我們只有一個(gè)特征列(即描述),而且在上文中已將其定義為 TF Hub 嵌入列,所以在此我們可以將其作為列表傳遞:
1estimator = tf.contrib.estimator.DNNEstimator(
2head=multi_label_head,
3hidden_units=[64,10],
4feature_columns=[description_embeddings]
5)
我們基本準(zhǔn)備就緒,很快就可以開始訓(xùn)練模型了。在訓(xùn)練估算器實(shí)例之前,我們需要定義訓(xùn)練輸入函數(shù)。輸入函數(shù)可以將我們的數(shù)據(jù)與模型聯(lián)系起來。在這里,我們將使用 numpy_input_fn,并將我們的數(shù)據(jù)作為 Numpy 數(shù)組饋送至模型:
1# Format our data for the numpy_input_fn
2features = {
3"descriptions": np.array(train_descriptions)
4}
5labels = np.array(train_encoded)
6
7train_input_fn = tf.estimator.inputs.numpy_input_fn(
8features,
9labels,
10shuffle=True,
11batch_size=32,
12num_epochs=20
13)
我們輸入函數(shù)中的 batch_size 和 num_epochs 參數(shù)都是超函數(shù)。batch_size 可告知我們的模型在一次迭代中會(huì)有多少示例傳遞至模型,而 num_epochs 是指我們的模型完成整個(gè)訓(xùn)練集的次數(shù)。
現(xiàn)在可以開始訓(xùn)練我們的模型了。只用一行代碼即可:
1estimator.train(input_fn=train_input_fn)
為了評(píng)估模型的準(zhǔn)確性,我們用自己的測(cè)試數(shù)據(jù)創(chuàng)建一個(gè) eval 函數(shù) input_function,然后調(diào)用 estimator.evaluate():
1eval_input_fn = tf.estimator.inputs.numpy_input_fn({"descriptions": np.array(test_descriptions).astype(np.str)}, test_encoded.astype(np.int32), shuffle=False)
2
3estimator.evaluate(input_fn=eval_input_fn)
此模型的 AUC 達(dá)到 91.5%,而查準(zhǔn)率/查全率為 74%。您的結(jié)果可能稍有不同。
使用我們已訓(xùn)練的模型生成預(yù)測(cè)結(jié)果
現(xiàn)在到了最精彩的部分:根據(jù)我們的模型從未見過的數(shù)據(jù)生成預(yù)測(cè)結(jié)果。首先,我們?cè)O(shè)置一個(gè)包含一些描述的數(shù)組(我從 IMDB 中獲取這些描述):
1raw_test = [
2"An examination of our dietary choices and the food we put in our bodies. Based on Jonathan Safran Foer's memoir.", # Documentary
3"A teenager tries to survive the last week of her disastrous eighth-grade year before leaving to start high school.", # Comedy
4"Ethan Hunt and his IMF team, along with some familiar allies, race against time after a mission gone wrong." # Action, Adventure
5]
然后,我們定義預(yù)測(cè)輸入函數(shù)并調(diào)用 predict():
1predict_input_fn = tf.estimator.inputs.numpy_input_fn({"descriptions": np.array(raw_test).astype(np.str)}, shuffle=False)
2
3results = estimator.predict(predict_input_fn)
最后,我們可以迭代訪問結(jié)果,并顯示為每部電影找到的前 2 個(gè)類型及其置信度值:
1for movie_genres in results:
2top_2 = movie_genres['probabilities'].argsort()[-2:][::-1]
3for genre intop_2:
4text_genre = encoder.classes_[genre]
5print(text_genre + ': ' + str(round(movie_genres['probabilities'][genre] * 100, 2)) + '%')
我們的模型能夠正確標(biāo)記上述所有電影描述。
使用入門
想用 TF Hub 開始構(gòu)建自己的模型嗎?請(qǐng)參閱此文檔和教程。您可以在GitHub或Colab上找到本文所述的完整模型代碼。在之后的博文中,我會(huì)介紹如何導(dǎo)出此模型,以用于 TensorFlow Serving 或 Cloud ML Engine,并構(gòu)建可根據(jù)新描述生成預(yù)測(cè)結(jié)果的應(yīng)用。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24699 -
tensorflow
+關(guān)注
關(guān)注
13文章
329瀏覽量
60532 -
遷移學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
74瀏覽量
5561
原文標(biāo)題:使用 TensorFlow Hub 和估算器構(gòu)建文本分類模型
文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論