作為數(shù)據(jù)科學(xué)家,我們平時的工作是使用各種機器學(xué)習(xí)算法從數(shù)據(jù)中提取可操作的信息。其中大多數(shù)是有監(jiān)督學(xué)習(xí)問題,因為你已經(jīng)知道目標函數(shù)是什么。給出的數(shù)據(jù)有很多細節(jié)能幫助你實現(xiàn)最終目標。
雖然無監(jiān)督學(xué)習(xí)是一項十分復(fù)雜的挑戰(zhàn),但是它有許多優(yōu)點。它有潛力解決以前無法解決的問題,在機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域得到了大量的注意力。
這篇文章的目的是直觀地介紹一下無監(jiān)督學(xué)習(xí),以及它在現(xiàn)實生活中的應(yīng)用。
注意——閱讀這篇文章需要讀者具有一定深度學(xué)習(xí)基礎(chǔ),并且了解機器學(xué)習(xí)的概念。
為什么要用無監(jiān)督學(xué)習(xí)?
機器學(xué)習(xí)項目中的典型方法是以有監(jiān)督的方式設(shè)計的。我們告訴算法該做什么和不該做什么。這是一個解決問題的通用結(jié)構(gòu),但是它從兩個方面限制了算法的潛力:
算法受到監(jiān)督信息的偏見的約束。沒錯,算法是自己學(xué)會的如何完成這項任務(wù)。但是,算法在解決問題時無法去考慮其他可能出現(xiàn)的情況。
由于學(xué)習(xí)在監(jiān)督下進行,為算法創(chuàng)建標簽需要花費巨大的人力。手動創(chuàng)建的標簽越少,算法可以用于訓(xùn)練的數(shù)據(jù)就越少。
為了以一種智能的方式來解決這一問題,我們可以采用非監(jiān)督學(xué)習(xí)算法。非監(jiān)督學(xué)習(xí)直接從數(shù)據(jù)本身得到數(shù)據(jù)的性質(zhì),然后總結(jié)數(shù)據(jù)或?qū)?shù)據(jù)分組,讓我們可以使用這些性質(zhì)來進行數(shù)據(jù)驅(qū)動的決策。
讓我們用一個例子來更好地理解這個概念。比如說,銀行想要對客戶進行分組,以便他們能向客戶推薦合適的產(chǎn)品。他們可以通過數(shù)據(jù)驅(qū)動的方式來完成這件事——首先通過客戶的年齡對客戶進行細分,然后從這些分組中得到客戶的特性。這將有助于銀行向客戶提供更好的產(chǎn)品推薦,從而提高客戶滿意度。
無監(jiān)督深度學(xué)習(xí)范例研究
在這篇文章中,我們將介紹一個基于非結(jié)構(gòu)化數(shù)據(jù)的無監(jiān)督學(xué)習(xí)的范例研究。深度學(xué)習(xí)技術(shù)通常在處理非結(jié)構(gòu)化數(shù)據(jù)時能力最強。因此,我們以深度學(xué)習(xí)在圖像處理領(lǐng)域的應(yīng)用為例,來理解這個概念。
定義問題——如何整理照片庫
現(xiàn)在,我的手機里有2000張照片。如果我是一個自拍狂,照片的數(shù)量很可能是這個數(shù)字的10倍。挑選這些照片是一場噩夢,因為基本上每三張照片中就有一張對我來說是無用的。我相信大多數(shù)人都有同樣的問題。
理想情況下,我想要的是一個能夠整理照片的應(yīng)用程序,可以讓我隨時瀏覽大部分照片。這樣我也可以知道我目前有多少類照片。
為了更清楚地了解這個問題,我嘗試自己對照片進行分類。以下是我總結(jié)的情況:
首先,我發(fā)現(xiàn)我的照片庫中有三分之一都是網(wǎng)絡(luò)趣圖(感謝WhatsApp的可愛的朋友們)。
我個人也會收集一些在Reddit上看到的有趣的回答或分享。
至少有200張照片,是我在著名的DataHack Summit會議上,和隨后去喀拉拉的旅行
中拍攝的,也有一些是同事分享給我的。
也有一些照片記錄了會議期間的白板討論內(nèi)容。
還有一些截圖記錄了代碼錯誤,需要內(nèi)部團隊討論。使用后必須清除它們。
我還發(fā)現(xiàn)了一些“個人隱私”圖像,如自拍、合影和幾個特殊場景。它們數(shù)量不多,但它們是我珍貴的財產(chǎn)。
最后,有無數(shù)張“早上好”、“生日快樂”和“幸福的排燈節(jié)”的海報,我想方設(shè)法把它們從照片庫中刪除。但是不管我怎么刪除它們,它們還是會出現(xiàn)!
在下面的章節(jié)中,我們將討論一些我想出的解決這個問題的方法。
方法一:基于時間分類
最簡單的方法是按照時間來整理照片。每一天都可以有不同的文件夾。大多數(shù)照片瀏覽應(yīng)用程序均使用這種方法(如谷歌照片應(yīng)用程序)。
這樣做的好處是,當天發(fā)生的所有事件都會被存儲在一起。這種方法的缺點是它太普通了。每一天,我都可能拍攝郊游的照片,同時把有意思的回答截圖下來,等等。它們會混在一起,這完全沒有達到我的目的。
方法二:基于位置分類
一個相對較好的方法是根據(jù)拍攝地點整理照片。例如,每次照相,我們都可以記錄照片拍攝的地方。然后,我們可以根據(jù)這些位置——無論是國家、城市還是地區(qū),按照我們想要的區(qū)域粒度來制作文件夾。這種方法也被許多照片應(yīng)用程序所使用。
這種方法的缺點在于它的想法過于簡單。我們?nèi)绾味x一張搞笑圖片,或者一張卡通圖的位置?而它們在我的照片庫中占有相當大的份額。所以這種方法也不夠巧妙。
方法三:提取照片的語義信息,并用它來定義我的照片庫
到目前為止,我們所看到的方法大多依賴于和照片同時獲得的元數(shù)據(jù)。整理照片的一種更好的方法是從圖像本身中提取語義信息并智能地使用這些信息。
讓我們把這個想法分成幾個部分。假設(shè)我們有多樣性類似(如上所述)的照片。我們的算法應(yīng)該捕捉哪些趨勢?
拍攝的是自然場景圖像還是人工生成的圖像?
照片里有文字材料嗎?如果有的話,我們能識別出它是什么嗎?
照片中有什么不同的物體?它們的結(jié)合能確定照片的美感嗎?
照片里有人嗎?我們能認出他們嗎?
網(wǎng)絡(luò)上有相似的圖像可以幫助我們識別圖像的內(nèi)容嗎?
因此,我們的算法應(yīng)該能理想地捕捉這個信息,而不需要明顯的標記,并用它來整理、分類我們的照片。理想情況下,最終的應(yīng)用程序界面應(yīng)該是這樣的:
這種方法就是以“無監(jiān)督的方式”來解決問題。我們沒有直接定義我們想要的結(jié)果。相反,我們訓(xùn)練一個算法為我們找到這些結(jié)果。我們的算法以智能的方式對數(shù)據(jù)進行了總結(jié),然后在這些推論的基礎(chǔ)上嘗試解決這個問題。很酷,對吧?
現(xiàn)在你可能想知道,我們該如何利用深度學(xué)習(xí)來處理無監(jiān)督的學(xué)習(xí)問題?
正如我們在上面的案例研究中看到的,通過從圖像中提取語義信息,我們可以更好地了解圖像的相似性。因此,我們的問題可以表述為:我們該如何降低圖像的維度,使我們可以從這些編碼表示重建圖像。
我們可以利用一個深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)——自編碼器。
自動編碼器的思想是,訓(xùn)練它從學(xué)習(xí)到的特征來重構(gòu)輸入。亮點在于,它用一個很小的特征表示來重構(gòu)輸入。
例如,一個設(shè)置編碼維度為10的自動編碼器,在貓的圖像上訓(xùn)練,每一張圖像大小為100×100。所以輸入維數(shù)是10000,而自動編碼器需要用一個大小為10的矢量表示輸入所有信息(如下圖所示)。
一個自動編碼器從邏輯上可以分為兩個部分:編碼器和解碼器。編碼器的任務(wù)是將輸入轉(zhuǎn)化成一個低維表示,而解碼器的任務(wù)是從低維表示重構(gòu)輸入。
雖然這一領(lǐng)域的研究正在蓬勃發(fā)展,但目前最先進的方法也無法輕松解決工業(yè)層面的問題,我們的算法想真正“投入工業(yè)使用”還需幾年時間。
在MNIST數(shù)據(jù)集上進行無監(jiān)督深度學(xué)習(xí)的代碼詳解
現(xiàn)在我們已經(jīng)基本了解了如何使用深度學(xué)習(xí)解決無監(jiān)督學(xué)習(xí)問題,下面我們要把學(xué)到的知識運用在現(xiàn)實生活的問題中。這里,我們以MNIST數(shù)據(jù)集為例,MNIST數(shù)據(jù)集一直是深度學(xué)習(xí)測試的必選數(shù)據(jù)集。在解讀代碼之前,讓我們先了解一下問題的定義。
原始問題是確定圖像中的數(shù)字。數(shù)據(jù)庫會給出圖像所含數(shù)字的標簽。在我們的案例研究中,我們將嘗試找出數(shù)據(jù)庫中相似的圖片,并將它們聚成一類。我們將通過標簽來評估每個類別的純度。你可以在AV的DataHack平臺下載數(shù)據(jù)——“識別數(shù)字”實踐問題。
我們會測試三種無監(jiān)督學(xué)習(xí)技術(shù),然后評價它們的表現(xiàn):
直接對圖像進行KMeans聚類
KMeans + 自編碼器
深度嵌入式聚類算法
在開始實驗之前,確保你已經(jīng)在系統(tǒng)中安裝了Keras。(可參考官方安裝指南。)我們將用TensorFlow作為后臺,所以你要確保配置文件中有這一項。如果沒有,按照這里給出的步驟進行操作。
(小編:少俠,手機看代碼看不全?用電腦復(fù)制代碼吧!)
我們需要用到Xifeng Guo實現(xiàn)的DEC算法開源代碼。在命令行輸入如下命令:
git clone https://github.com/XifengGuo/DEC-keras cd DEC-keras
你可以打開一個Jupyter Notebook,跟著下面的代碼一起操作。
首先我們需要導(dǎo)入所有必需的模塊。
%pylab inlineimport osimport kerasimport metricsimport numpy as npimport pandas as pdimport keras.backend as Kfrom time import timefrom keras import callbacksfrom keras.models import Modelfrom keras.optimizers import SGDfrom keras.layers import Dense, Inputfrom keras.initializers import VarianceScalingfrom keras.engine.topology import Layer, InputSpecfrom scipy.misc import imreadfrom sklearn.cluster import KMeansfrom sklearn.metrics import accuracy_score, normalized_mutual_info_score
下面我們將種子的值設(shè)為一個受限隨機數(shù)。
# To stop potential randomnessseed = 128rng = np.random.RandomState(seed)
現(xiàn)在設(shè)置數(shù)據(jù)的工作路徑,方便后續(xù)訪問。
root_dir = os.path.abspath('.')data_dir = os.path.join(root_dir, 'data', 'mnist')
讀入訓(xùn)練和測試文件。
train = pd.read_csv(os.path.join(data_dir, 'train.csv'))test = pd.read_csv(os.path.join(data_dir, 'test.csv'))train.head()
在這個數(shù)據(jù)庫中,每個圖片都有類標,這在非監(jiān)督學(xué)習(xí)中并不常見,這里,我們用這些類標來評估無監(jiān)督學(xué)習(xí)模型的表現(xiàn)。
現(xiàn)在讓我們把數(shù)據(jù)顯示成一張圖片:
img_name = rng.choice(train.filename)filepath = os.path.join(data_dir, 'train', img_name)img = imread(filepath, flatten=True)pylab.imshow(img, cmap='gray')pylab.axis('off')pylab.show()
隨后我們讀入所有圖片,將它們存儲成一個numpy矩陣,創(chuàng)建訓(xùn)練和測試文件。
temp = []for img_name in train.filename: image_path = os.path.join(data_dir, 'train', img_name) img = imread(image_path, flatten=True) img = img.astype('float32') temp.append(img) train_x = np.stack(temp)train_x /= 255.0train_x = train_x.reshape(-1, 784).astype('float32')temp = []for img_name in test.filename: image_path = os.path.join(data_dir, 'test', img_name) img = imread(image_path, flatten=True) img = img.astype('float32') temp.append(img) test_x = np.stack(temp)test_x /= 255.0test_x = test_x.reshape(-1, 784).astype('float32')train_y = train.label.values
我們將訓(xùn)練數(shù)據(jù)分成訓(xùn)練集和測試集。
split_size = int(train_x.shape[0]*0.7)train_x, val_x = train_x[:split_size], train_x[split_size:]train_y, val_y = train_y[:split_size], train_y[split_size:]
K-Means
我們首先直接對圖像使用K-Means聚類,將其聚成10類。
km = KMeans(n_jobs=-1, n_clusters=10, n_init=20)km.fit(train_x)KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300, n_clusters=10, n_init=20, n_jobs=-1, precompute_distances='auto', random_state=None, tol=0.0001, verbose=0)
現(xiàn)在我們已經(jīng)訓(xùn)練了模型,下面看一下它在驗證集上的表現(xiàn)如何。
pred = km.predict(val_x)
我們將使用歸一化互信息(NMI)分數(shù)來評估我們的模型。
互信息是聚類結(jié)果和人工分類之間依賴程度的對稱性度量。它基于聚類純度PI的概念,通過將Ci與M中的所有手動分類進行比較,衡量單個聚類Ci的質(zhì)量,即Ci與Mj中相同目標的最大數(shù)量。因為NMI是歸一化的,所以我們可以使用它來比較聚類個數(shù)不同的聚類結(jié)果。
NMI公式如下:
normalized_mutual_info_score(val_y, pred) 0.4978202013979692
K-Means + AutoEncoder
現(xiàn)在,我們不直接使用K-Means,我們首先用自編碼器降低數(shù)據(jù)維度,提取有用信息,再將這些信息傳遞給K-Means算法。
# this is our input placeholderinput_img = Input(shape=(784,))# "encoded" is the encoded representation of the inputencoded = Dense(500, activation='relu')(input_img)encoded = Dense(500, activation='relu')(encoded)encoded = Dense(2000, activation='relu')(encoded)encoded = Dense(10, activation='sigmoid')(encoded)# "decoded" is the lossy reconstruction of the inputdecoded = Dense(2000, activation='relu')(encoded)decoded = Dense(500, activation='relu')(decoded)decoded = Dense(500, activation='relu')(decoded)decoded = Dense(784)(decoded)# this model maps an input to its reconstructionautoencoder = Model(input_img, decoded)autoencoder.summary() _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= input_1 (InputLayer) (None, 784) 0 _________________________________________________________________ dense_2 (Dense) (None, 500) 392500 _________________________________________________________________ dense_3 (Dense) (None, 500) 250500 _________________________________________________________________ dense_4 (Dense) (None, 2000) 1002000 _________________________________________________________________ dense_5 (Dense) (None, 10) 20010 _________________________________________________________________ dense_6 (Dense) (None, 2000) 22000 _________________________________________________________________ dense_7 (Dense) (None, 500) 1000500 _________________________________________________________________ dense_8 (Dense) (None, 500) 250500 _________________________________________________________________ dense_9 (Dense) (None, 784) 392784 =================================================================Total params: 3,330,794Trainable params: 3,330,794Non-trainable params: 0_________________________________________________________________# this model maps an input to its encoded representationencoder = Model(input_img, encoded)autoencoder.compile(optimizer='adam', loss='mse')
現(xiàn)在訓(xùn)練自編碼器模型:
train_history = autoencoder.fit(train_x,train_x, epochs=500, batch_size=2048, validation_data=(val_x, val_x)) Train on 34300 samples, validate on 14700 samples Epoch 1/50034300/34300 [==============================] - 2s 60us/step - loss: 0.0805 - val_loss: 0.0666...Epoch 494/50034300/34300 [==============================] - 0s 11us/step - loss: 0.0103 - val_loss: 0.0138Epoch 495/50034300/34300 [==============================] - 0s 10us/step - loss: 0.0103 - val_loss: 0.0138Epoch 496/50034300/34300 [==============================] - 0s 11us/step - loss: 0.0103 - val_loss: 0.0138Epoch 497/50034300/34300 [==============================] - 0s 11us/step - loss: 0.0103 - val_loss: 0.0139Epoch 498/50034300/34300 [==============================] - 0s 11us/step - loss: 0.0103 - val_loss: 0.0137Epoch 499/50034300/34300 [==============================] - 0s 11us/step - loss: 0.0103 - val_loss: 0.0139Epoch 500/50034300/34300 [==============================] - 0s 11us/step - loss: 0.0104 - val_loss: 0.0138pred_auto_train = encoder.predict(train_x)pred_auto = encoder.predict(val_x)km.fit(pred_auto_train)pred = km.predict(pred_auto)normalized_mutual_info_score(val_y, pred)0.7435578557037037
從結(jié)果可以看到,將自編碼器與K-Means結(jié)合起來,算法效果比僅使用K-Means的效果要好。
DEC
最后,我們看一下DEC算法的實現(xiàn)。DEC算法將聚類和自編碼器放在一起訓(xùn)練以取得更好的效果。(論文:Junyuan Xie, Ross Girshick, and Ali Farhadi. Unsupervised deep embedding for clustering analysis. ICML 2016.)
代碼鏈接:
http://www.infoq.com/cn/articles/trudging-into-unsupervised-deep-learning
DEC算法與上述兩種方法相比,效果最好。研究人員發(fā)現(xiàn),進一步訓(xùn)練DEC模型可以達到更高的性能(NMI高達87)。
-
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8422瀏覽量
132724 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5504瀏覽量
121229
原文標題:深度學(xué)習(xí)的關(guān)鍵:無監(jiān)督深度學(xué)習(xí)簡介(附Python代碼)
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論