首先就由一只小貓帶咱們走進(jìn)深度學(xué)習(xí)的世界吧!
對(duì)于一個(gè)輸入樣本來(lái)說(shuō),深度學(xué)習(xí)和機(jī)器學(xué)習(xí)有著相同的目的,就是要把這個(gè)樣本進(jìn)行最準(zhǔn)確的分類。咱們從肉眼看很容易這是一只貓,因?yàn)槲覀冇兄@么多年的積累常識(shí)嘛!但是計(jì)算機(jī)可不這么聰明一眼就能看得出來(lái),在計(jì)算機(jī)中,一個(gè)圖像是由像素點(diǎn)所構(gòu)成的。
這里可能有同學(xué)對(duì)于計(jì)算機(jī)視覺(jué)不是很了解,我簡(jiǎn)單的介紹下,像素點(diǎn)是一個(gè)從0到255范圍內(nèi)的一個(gè)正值,那么這個(gè)點(diǎn)的大小意味著這個(gè)點(diǎn)所對(duì)應(yīng)區(qū)域的一個(gè)亮度。咱們也可以把一個(gè)圖片當(dāng)成一個(gè)三維數(shù)組比如[256,256,3]這里的256就分別代表了圖片的長(zhǎng)和寬的大小,最后的3就是圖片的顏色通道,不知道通道是什么也不要緊,咱們暫且知道圖片是矩陣組成的就好啦!
這個(gè)矩陣就是長(zhǎng)的這個(gè)樣子
那么我們所面臨的挑戰(zhàn)是什么呢?
我們要面對(duì)的可不僅僅是這樣一只蹲在我們面前可愛(ài)的小貓,在實(shí)際中有著很多的可能性,比如光照強(qiáng)度,遮蔽程度,角度等等,這些就成為了我們深度學(xué)習(xí)任務(wù)的一個(gè)極大的挑戰(zhàn)。
這些異形就是我們所面臨的挑戰(zhàn)
深度學(xué)習(xí)要解決的最核心也是最基本的問(wèn)題就是分類任務(wù)了,它也是咱們理解深度學(xué)習(xí)一個(gè)最好的入手點(diǎn)。
分類問(wèn)題的常規(guī)套路
一個(gè)分類任務(wù)的常規(guī)套路大致可以分為三點(diǎn):
1、收集數(shù)據(jù)并給定標(biāo)簽:
就是我們要制作訓(xùn)練集了,包括data label這兩部分,別小看收集數(shù)據(jù)了,這部其實(shí)很麻煩的,沒(méi)有合適的數(shù)據(jù)很難訓(xùn)練出優(yōu)秀的模型的,兩個(gè)量都很重要,一個(gè)是質(zhì)量一個(gè)是數(shù)量,對(duì)于我們深度學(xué)習(xí)來(lái)說(shuō),數(shù)量是很重要的,基本上都要以萬(wàn)為基本單位的。
2、訓(xùn)練一個(gè)分類器:這步可以說(shuō)是很核心的一步,分類器的效果好壞決定了我們最終應(yīng)用的效果,深度學(xué)習(xí)之所以效果要超過(guò)傳統(tǒng)的機(jī)器學(xué)習(xí)在部分領(lǐng)域上比如計(jì)算機(jī)視覺(jué),主要在于深度學(xué)習(xí)所訓(xùn)練的分類器更強(qiáng)大,這節(jié)課咱們只簡(jiǎn)單的介紹,干貨還是在后面的。
3、測(cè)試評(píng)估:一個(gè)好的分類器,不是咱們通過(guò)大量的數(shù)據(jù)和一個(gè)強(qiáng)大的模型結(jié)構(gòu)就可以的。在訓(xùn)練好分類器后,一個(gè)更重要的點(diǎn)就是我們要去測(cè)試和評(píng)估,比如準(zhǔn)確率,召回率等衡量指標(biāo)。我們要通過(guò)這些指標(biāo)反復(fù)調(diào)節(jié)模型參數(shù)直到得到最好的模型無(wú)論是機(jī)器學(xué)習(xí)還是深度學(xué)習(xí)都離不開(kāi)這三步,有了這樣的一個(gè)流程下面我們就來(lái)看一看傳統(tǒng)的機(jī)器學(xué)習(xí)算法是如何進(jìn)行分類任務(wù)的。
這個(gè)就是數(shù)據(jù)庫(kù),簡(jiǎn)單說(shuō)下這個(gè)數(shù)據(jù)庫(kù)有10類標(biāo)簽,就是有10個(gè)類別,接下來(lái)要做的就是訓(xùn)練一個(gè)分類模型啦。
我的這個(gè)做法很多同學(xué)可能會(huì)說(shuō)我很二,但是為了更好的給那些剛?cè)腴T(mén)(坑)的同學(xué)更直觀的表達(dá),咱們簡(jiǎn)單的來(lái)樂(lè)呵下就好。
用每個(gè)圖片的像素點(diǎn)所構(gòu)成的矩陣去算和它像素點(diǎn)差異最小的那幾個(gè)數(shù)據(jù)樣本是哪幾個(gè)。雖然做法很二,但這也是一個(gè)簡(jiǎn)單的K近鄰問(wèn)題,我們通過(guò)像素點(diǎn)的L1距離(這個(gè)看公式吧)去計(jì)算輸入和所有訓(xùn)練集中的樣本的距離然后找出最小的那K個(gè),輸入的樣本的類別就是那K個(gè)里投票和。
這里我要強(qiáng)調(diào)的是,我不是用這種做法去說(shuō)一個(gè)分類的流程,而是讓大家看到咱們傳統(tǒng)做法所需的一些東西。這里咱們?cè)谧龇诸惖臅r(shí)候所需的參數(shù)有K近鄰中的K的大小,還要選擇距離公式也就是L的選擇,這只是最少的參數(shù)選擇,要是更復(fù)雜的模型我們所需選擇的參數(shù)就更多了。不同的參數(shù)選擇可以說(shuō)對(duì)于最終的結(jié)果有著很大的影響,這也就是傳統(tǒng)的機(jī)器學(xué)習(xí)算法很頭疼的一個(gè)問(wèn)題很多東西都需要咱們不斷去嘗試。那么深度學(xué)習(xí)一個(gè)很強(qiáng)大的地方就是我們并不需要設(shè)定很多這樣的超參數(shù)。
接下來(lái)咱們?cè)賮?lái)強(qiáng)調(diào)下上面這張圖,這個(gè)的目的就是很多同學(xué)并沒(méi)有太多機(jī)器學(xué)習(xí)和實(shí)戰(zhàn)的基礎(chǔ),需要給大家對(duì)數(shù)據(jù)集的劃分有個(gè)大致的概念。
我們?cè)谟?xùn)練模型之前的數(shù)據(jù)準(zhǔn)備要把整個(gè)數(shù)據(jù)分成兩個(gè)大部分,一個(gè)是訓(xùn)練數(shù)據(jù),一個(gè)是測(cè)試數(shù)據(jù)。理論上來(lái)說(shuō)測(cè)試數(shù)據(jù)是很寶貴的,我們只有在最后的時(shí)候才能使用測(cè)試數(shù)據(jù)去評(píng)估,在訓(xùn)練的過(guò)程中決不允許出現(xiàn)測(cè)試數(shù)據(jù)。
還有就是我們還要把訓(xùn)練數(shù)據(jù)這個(gè)大部分切分成幾個(gè)小份,比如5個(gè)小份,這么做的目的是我們還需要驗(yàn)證集,驗(yàn)證集的意思就是我們?cè)谟?xùn)練模型的時(shí)候要不斷的做一個(gè)模型自測(cè)試效果的過(guò)程,比如用其中的4小份作為訓(xùn)練數(shù)據(jù),用另一小份作為驗(yàn)證數(shù)據(jù)。還有一個(gè)知識(shí)點(diǎn)要給大家強(qiáng)調(diào)下,我們?cè)趯?shí)際訓(xùn)練模型的時(shí)候更多的是使用交差驗(yàn)證,什么是交差呢?就是我們這次取這4個(gè)作為訓(xùn)練下次我們?cè)偃×硗?個(gè)作為訓(xùn)練,這樣就可以保證咱們訓(xùn)練模型的可靠性更大!
-
分類器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13204 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132842 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121343
原文標(biāo)題:由一只貓看深度學(xué)習(xí)面臨哪些挑戰(zhàn)?
文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論