導讀
最基礎的半監(jiān)督學習的概念,給大家一個感性的認識。
半監(jiān)督學習(SSL)是一種機器學習技術,其中任務是從一個小的帶標簽的數(shù)據(jù)集和相對較大的未帶標簽的數(shù)據(jù)中學習得到的。SSL的目標是要比單獨使用有標記數(shù)據(jù)訓練的監(jiān)督學習技術得到更好的結果。這是半監(jiān)督學習系列文章的第1部分,對這個機器學習的重要子領域進行了簡要的介紹。
區(qū)分半監(jiān)督學習,監(jiān)督學習和無監(jiān)督學習
整個數(shù)據(jù)集中可用于訓練的有標記數(shù)據(jù)的范圍區(qū)分了機器學習的這三個相關領域。
監(jiān)督學習是機器學習中最流行的模式,在這種模式中,可以通過標簽的形式獲得完整的監(jiān)督。整個數(shù)據(jù)集都有標記,即一個標簽與訓練數(shù)據(jù)集中的每個樣本相關聯(lián)。機器學習模型使用這個標簽數(shù)據(jù)集訓練,并期望對新的樣本預測一個標簽。監(jiān)督學習主要包括兩類任務:分類和回歸。分類問題要求算法預測一個離散值,而回歸任務是需要從輸入變量(X)逼近一個映射函數(shù)(f)到連續(xù)輸出變量(y)。
手寫數(shù)字識別使用(MNIST)數(shù)據(jù)集。每個樣本都有一個圖像和對應的數(shù)字作為標簽。任務是學習從圖像中預測標簽(即數(shù)字)。
另一個例子是情感分類,使用IMDB數(shù)據(jù)集。每條記錄都包含一個評論和一個相應的標簽(正面的或負面的)。這里的任務是預測給定評論的情緒。
房價預測是一個回歸任務,其中標簽(房價)是一個連續(xù)變量。
在無監(jiān)督學習中,沒有標記數(shù)據(jù)可用。訓練數(shù)據(jù)集包含樣本,但沒有特定的期望結果或標簽。機器學習模型試圖通過提取有用的特征并對其進行分析來自動地在數(shù)據(jù)中找到結構。像聚類、異常檢測、關聯(lián)等任務屬于無監(jiān)督學習。
聚類是將數(shù)據(jù)集劃分為多個簇,使同一簇中的數(shù)據(jù)點與同一簇中的其他數(shù)據(jù)點更相似,與其他簇中的數(shù)據(jù)點不相似。例如,下圖(左)中的數(shù)據(jù)點可以分成3個簇,如圖(右)所示。注意,簇可以是任何形狀。
半監(jiān)督式學習(SSL),正如其名稱所示,介于兩個極端之間(監(jiān)督式是指整個數(shù)據(jù)集被標記,而非監(jiān)督式是指沒有標記)。半監(jiān)督學習任務具有一個標記和一個未標記的數(shù)據(jù)集。它使用未標記的數(shù)據(jù)來獲得對數(shù)據(jù)結構的更多理解。通常,SSL使用小的帶標簽數(shù)據(jù)集和較大的未帶標簽數(shù)據(jù)集來進行學習。
我們的目標是學習一個預測器來預測未來的測試數(shù)據(jù),這個預測器比單獨從有標記的訓練數(shù)據(jù)中學習的預測器更好。
監(jiān)督學習,半監(jiān)督學習,無監(jiān)督學習在標記數(shù)據(jù)上的差別可視化
為什么要關注半監(jiān)督學習
在許多實際應用中,收集大的有標簽數(shù)據(jù)集太昂貴或者不可行,但是有大量的無標簽數(shù)據(jù)可用。對于這種情況,半監(jiān)督學習是一個完美的方案。SSL技術可以利用帶標簽的數(shù)據(jù),也可以從未帶標簽的數(shù)據(jù)派生結構,從而更好地解決總體任務。
典型的監(jiān)督學習算法在標記數(shù)據(jù)集較小的情況下,容易出現(xiàn)過擬合問題。SSL通過在訓練過程中理解未標記數(shù)據(jù)的結構來緩解這個問題。
此外,這種學習技術減輕了構建大量標記數(shù)據(jù)集來學習任務的負擔。SSL方法更接近我們人類的學習方式。
讓我們舉個例子來直觀地看看半監(jiān)督學習的效果。在下面的圖中,當只對標記數(shù)據(jù)(大的黑點和白點)進行訓練(即對標記數(shù)據(jù)進行監(jiān)督學習)時,決策邊界(虛線)并不遵循數(shù)據(jù)“流形”的輪廓,這可以由額外的未標記數(shù)據(jù)(小灰點)來表示。
因此,SSL的目標是利用未標記數(shù)據(jù)來生成決策邊界,從而更好地反映數(shù)據(jù)的底層結構。
由不同的半監(jiān)督學習方法生成的決策邊界
半監(jiān)督學習的任務舉例
CIFAR-10— 它是由10個類的32×32像素的RGB圖像組成的數(shù)據(jù)集,任務是圖像分類。通常使用Tiny Images數(shù)據(jù)集中的隨機圖像來形成未標記數(shù)據(jù)集。
SVHN— 街景門牌號數(shù)據(jù)集由真實門牌號的32×32像素的RGB圖像組成,任務是分類最中間的數(shù)字。它附帶一個“SVHN-extra”數(shù)據(jù)集,該數(shù)據(jù)集由531,131個額外的數(shù)字圖像組成,可以用作未標記數(shù)據(jù)。
Text-Classification Tasks— 亞馬遜評論數(shù)據(jù)庫,Yelp評論數(shù)據(jù)集。
總結
半監(jiān)督學習是一種有趣的方法,用于解決機器學習中缺乏標記數(shù)據(jù)的問題。SSL算法還利用未標記數(shù)據(jù)來提高監(jiān)督學習算法的性能。SSL算法通常提供了一種從無標簽示例中了解數(shù)據(jù)結構的方法,減輕了對標簽的需求。
本系列的第2部分會介紹了一些具體的SSL技術,未完待續(xù)。
責任編輯:xj
原文標題:半監(jiān)督學習入門基礎(一)
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
-
SSL
+關注
關注
0文章
130瀏覽量
26074 -
半監(jiān)督
+關注
關注
0文章
5瀏覽量
6385 -
機器學習
+關注
關注
66文章
8490瀏覽量
134067 -
深度學習
+關注
關注
73文章
5554瀏覽量
122467
原文標題:半監(jiān)督學習入門基礎(一)
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
使用MATLAB進行無監(jiān)督學習

半橋LLC諧振電路的工作原理與模態(tài)分析

時空引導下的時間序列自監(jiān)督學習框架

曙光公司成都云中心助力提升監(jiān)督質效
半加器和全加器的功能特點
哈爾濱工業(yè)大學在超分辨顯微成像技術領域取得突破性進展

電容半補償和全補償?shù)膮^(qū)別

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習
【《大語言模型應用指南》閱讀體驗】+ 基礎篇
旗晟機器人人員行為監(jiān)督AI智慧算法

評論