一、機(jī)器學(xué)習(xí)基礎(chǔ)概念
關(guān)于數(shù)據(jù)
機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。
Iris 鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集,在統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域都經(jīng)常被用作示例。數(shù)據(jù)集內(nèi)包含 3 類共 150 條記錄,每類各 50 個(gè)數(shù)據(jù),每條記錄都有 4 項(xiàng)特征:花萼長(zhǎng)度、花萼寬度、花瓣長(zhǎng)度、花瓣寬度,可以通過(guò)這4個(gè)特征預(yù)測(cè)鳶尾花卉屬于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品種。
數(shù)據(jù)的整體成為數(shù)據(jù)集(dataset),數(shù)據(jù)中的每一行為1個(gè)樣本(sample),除最后一行,每一列表達(dá)樣本的一個(gè)特征(feature),最后一列,通常稱為標(biāo)記(label)。
在鳶尾花的數(shù)據(jù)集中,每個(gè)樣本有4個(gè)特征:萼片長(zhǎng)度、萼片寬度、花瓣長(zhǎng)度、花瓣寬度,下面每一行數(shù)據(jù)稱為一個(gè)樣本的特征向量。所有的特征向量組成的空間稱為特征空間(feature space),而分類任務(wù)的本質(zhì)就是對(duì)特征空間的一種切分方式。
特征可以很具體也可以很抽象,在圖像中,每一個(gè)像素點(diǎn)都是一個(gè)特征,一個(gè)28*28的圖像有784個(gè)特征。所以,特征將很大程度上決定了算法結(jié)果的準(zhǔn)確性和可靠性。這就是特征工程。
機(jī)器學(xué)習(xí)的基本任務(wù)
1.分類
-
二分類,在實(shí)際生活中其實(shí)大多數(shù)都可以用二分類解決,比如垃圾郵件分類,腫瘤辨別等。
-
多分類,比如手寫數(shù)字識(shí)別,比如更加復(fù)雜的圖像識(shí)別。在實(shí)際的生活中,很多復(fù)雜問(wèn)題都可 以被轉(zhuǎn)換為是一種多分類問(wèn)題,但并不是說(shuō)使用多分類是最佳的一種解決方式。
2.回歸
回歸任務(wù)的特點(diǎn):結(jié)果是一個(gè)數(shù)字的值,而非一個(gè)類別。比如預(yù)測(cè)房子價(jià)格,比如預(yù)測(cè)一個(gè)學(xué)生成績(jī),股票價(jià)格等等。在一些情況下,回歸任務(wù)可以簡(jiǎn)化成分類任務(wù),比如預(yù)測(cè)一個(gè)學(xué)生的成績(jī),可以將成績(jī)分為幾個(gè)不同的等級(jí),這樣就能將一個(gè)連續(xù)的回歸問(wèn)題轉(zhuǎn)換為分類問(wèn)題。
什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)算法的目的就是幫助我們建立一個(gè)模型f(x),而不是我們?nèi)藶榻5玫降摹F鋵?shí)分類和回歸問(wèn)題大多都是在監(jiān)督學(xué)習(xí)中完成的。
二、機(jī)器學(xué)習(xí)的分類
1、監(jiān)督學(xué)習(xí)
所謂監(jiān)督學(xué)習(xí)其實(shí)就是給機(jī)器的訓(xùn)練數(shù)據(jù)擁有"標(biāo)記"或者"答案"。比如圖像擁有一定的標(biāo)定信息,可能是類別,也可能是定位框等。
機(jī)器學(xué)習(xí)的算法中大多都是監(jiān)督學(xué)習(xí),比如k近鄰、線性回歸和多項(xiàng)式回歸、邏輯回歸、SVM、決策樹(shù)和隨機(jī)森林等。
2、非監(jiān)督學(xué)習(xí)
相對(duì)于監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)就是給機(jī)器訓(xùn)練的數(shù)據(jù)沒(méi)有"標(biāo)記"或者"答案",通常情況下,非監(jiān)督學(xué)習(xí)用來(lái)輔助監(jiān)督學(xué)習(xí)。非監(jiān)督學(xué)習(xí)一般對(duì)沒(méi)有“標(biāo)記”的數(shù)據(jù)進(jìn)行分類,這就是聚類。
比如電商網(wǎng)站使用非監(jiān)督學(xué)習(xí),根據(jù)顧客的瀏覽記錄,對(duì)顧客進(jìn)行分類,從而完成一些類似推薦的任務(wù)。
非監(jiān)督學(xué)習(xí)的意義、聚類、異常檢測(cè)
降維
-
特征提取
-
特征壓縮,比如剛剛提到的28*28的圖像有784個(gè)特征,那么就可以考慮進(jìn)行一下特征壓縮。
-
特征壓縮就是在盡可能損失少的信息,將高維向量壓縮成低維向量,這樣可以大大提高機(jī)器學(xué)習(xí)的運(yùn)算效率。
-
降維處理的另外一個(gè)目的就是對(duì)數(shù)據(jù)進(jìn)行可視化,對(duì)自己數(shù)據(jù)有一個(gè)大致了解。
3、半監(jiān)督學(xué)習(xí)
所謂的半監(jiān)督學(xué)習(xí)就是我們面對(duì)的任務(wù)一部分是有"標(biāo)記"或者"答案",另一部分沒(méi)有。因?yàn)樵诂F(xiàn)實(shí)生活中很多任務(wù)都因?yàn)楦鞣N不同原因造成標(biāo)記的缺失。
比如我們手機(jī)中的相冊(cè)中照片一些可能是在上海拍的,一些是在北京拍的,但是也會(huì)存在一些照片根本沒(méi)有標(biāo)記,那么手機(jī)相冊(cè)中所有的照片就滿足半監(jiān)督學(xué)習(xí)的這個(gè)形態(tài)。
通常都是先使用無(wú)監(jiān)督學(xué)習(xí)手段對(duì)數(shù)據(jù)做處理,之后使用監(jiān)督學(xué)習(xí)手段做模型的訓(xùn)練與預(yù)測(cè)。其實(shí)就是這兩種學(xué)習(xí)模式的結(jié)合。
4、強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是根據(jù)周圍環(huán)境的情況,采取行動(dòng),根據(jù)采取行動(dòng)的結(jié)果,學(xué)習(xí)行動(dòng)的方式。
比如AlphaGo,無(wú)人駕駛都會(huì)用到增強(qiáng)學(xué)習(xí)
三、機(jī)器學(xué)習(xí)的其他分類
1、批量學(xué)習(xí)(離線學(xué)習(xí))和在線學(xué)習(xí)
-
批量學(xué)習(xí)(batch learning)、又叫離線學(xué)習(xí)
優(yōu)點(diǎn):簡(jiǎn)單
問(wèn)題:如何適應(yīng)環(huán)境的變換。比如垃圾郵件的樣式。
解決方案:定時(shí)重新批量學(xué)習(xí),來(lái)適應(yīng)環(huán)境的整體變換。
缺點(diǎn):每次重新批量學(xué)習(xí),運(yùn)算量巨大。在某些環(huán)境變換非常快的情況下,甚至是不可能的。比如股市的變化。
-
在線學(xué)習(xí)(online learning)
優(yōu)點(diǎn):及時(shí)反映新的環(huán)境變換
問(wèn)題:新的數(shù)據(jù)帶來(lái)不好的變化?
解決方案:需要加強(qiáng)對(duì)數(shù)據(jù)的監(jiān)控,比如異常檢測(cè)。
其他適用范圍:數(shù)據(jù)量巨大,無(wú)法批量學(xué)習(xí)的環(huán)境。
2、參數(shù)學(xué)習(xí)與非參數(shù)學(xué)習(xí)
-
參數(shù)學(xué)習(xí)(Parameteric learning)
比如一個(gè)線性擬合問(wèn)題y=wx+b,我們需要學(xué)習(xí)的參數(shù)就是w和b,參數(shù)學(xué)習(xí)的一個(gè)特點(diǎn)就是一旦學(xué)習(xí)到了參數(shù),就不再需要原來(lái)的數(shù)據(jù)集。
-
非參數(shù)學(xué)習(xí)(Noneparameteric learning)
相對(duì)的非參數(shù)學(xué)習(xí),不需要對(duì)模型進(jìn)行過(guò)多的假設(shè),通常在預(yù)測(cè)的過(guò)程中,喂給機(jī)器學(xué)習(xí)算法的那些數(shù)據(jù)集也要參數(shù)預(yù)測(cè)的過(guò)程,此外,需要特別注意的一點(diǎn)就是,非參數(shù)學(xué)習(xí)不等于沒(méi)參數(shù)!
四、機(jī)器學(xué)習(xí)的“哲學(xué)”思考
數(shù)據(jù)越多越好?
2001年,微軟的一篇論文,對(duì)比了四個(gè)不同的機(jī)器學(xué)習(xí)算法,給予足夠多的數(shù)據(jù)時(shí),四種算法的表現(xiàn)都是隨著數(shù)據(jù)集的不斷增大,準(zhǔn)確率越高,當(dāng)數(shù)據(jù)量大到一定程度的時(shí)候,算法結(jié)果準(zhǔn)確度基本差不多。
這就帶來(lái)一個(gè)問(wèn)題,就是如果數(shù)據(jù)足夠多,那么數(shù)據(jù)即算法?由此,就拉開(kāi)了大數(shù)據(jù)的帷幕,人們對(duì)數(shù)據(jù)也越來(lái)月重視。
首先,由此可以得出結(jié)論,數(shù)據(jù)確實(shí)非常重要,而且現(xiàn)階段使用到的機(jī)器學(xué)習(xí)算法大多都是以數(shù)據(jù)為驅(qū)動(dòng)的,高度地依賴數(shù)據(jù)的質(zhì)量,那么由此就需要收集更多的數(shù)據(jù),提高數(shù)據(jù)的質(zhì)量。也就有了數(shù)據(jù)清理、數(shù)據(jù) 預(yù)處理之說(shuō)。那么從數(shù)據(jù)層面,我們需要考慮,如何提高數(shù)據(jù)的代表性,研究更重要的特征。
算法為王?
Alpha Zero的出現(xiàn),之所以非常的突破,其原因在于我們并沒(méi)有給Alpha Zero任何數(shù)據(jù),所有的數(shù)據(jù)都是由算法產(chǎn)生的,這樣的一個(gè)突破似乎打破了之前的數(shù)據(jù)越多越好,數(shù)據(jù)集算法的這么一個(gè)說(shuō)法。
也是由于圍棋這個(gè)環(huán)境的特殊性導(dǎo)致算法能夠自己產(chǎn)生數(shù)據(jù),于是就有算法為王這么一種狀況,可能在其他領(lǐng)域并不適用,但是它給予了我們一個(gè)啟示:算法依然很重要。再好的數(shù)據(jù)都需要有高效、優(yōu)秀的算法作為輔助,才能最大成都發(fā)揮數(shù)據(jù)本身的作用。
如何選擇機(jī)器學(xué)習(xí)算法?
在機(jī)器學(xué)習(xí)算法中,遠(yuǎn)不止下面幾種,那么如何選擇合適的機(jī)器學(xué)習(xí)算法完成自己既定的任務(wù)呢?
那么和選擇相關(guān)的問(wèn)題,最簡(jiǎn)單也就是最深刻的就是奧卡姆的剃刀,簡(jiǎn)單的就是好的?那么在機(jī)器學(xué)習(xí)的領(lǐng)域中,什么叫簡(jiǎn)單?
第二個(gè)就是沒(méi)有免費(fèi)午餐的定理。可以嚴(yán)格地?cái)?shù)學(xué)推導(dǎo)出:任意兩個(gè)算法他們的期望性能是相同的?。。?/span>這也就是說(shuō)其實(shí)沒(méi)有那種算法從嚴(yán)格意義上比另外一種算法好,只是都在各自的領(lǐng)域中表現(xiàn)突出。
相當(dāng)于是說(shuō)所有的算法是等價(jià)的,但這有一個(gè)前提,就是任意兩個(gè)算法,把他們作用于所有的問(wèn)題中,那么對(duì)于有些問(wèn)題A算法比B算法好,但對(duì)于有些問(wèn)題B算法比A算法好,但平均來(lái)說(shuō),這兩個(gè)算法是一樣的。
這就是說(shuō)需要具體到某個(gè)特定問(wèn)題的時(shí)候,有些算法可能更好。整體而言,沒(méi)有一種算法絕對(duì)的比另外一種算法好。也就說(shuō)脫離具體問(wèn)題去談哪個(gè)算法好是沒(méi)有意義的。最終的結(jié)論就是,我們?cè)诿鎸?duì)一個(gè)具體問(wèn)題的時(shí)候,嘗試使用多種算法進(jìn)行對(duì)比實(shí)驗(yàn)是必要的!
面對(duì)不確定的世界,怎樣看待機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測(cè)的結(jié)果?
最典型的問(wèn)題就是比如預(yù)測(cè)股市,預(yù)測(cè)世界經(jīng)濟(jì)趨勢(shì)扥等等等。我們到底應(yīng)該怎樣看待這個(gè)結(jié)果?到底是機(jī)器學(xué)習(xí)算法本身起到了決定性作用,使得我們得到了一個(gè)準(zhǔn)確的預(yù)測(cè)結(jié)果,還是其實(shí)只是一個(gè)巧合,機(jī)器學(xué)習(xí)本身并沒(méi)有起到太大的作用。
在使用機(jī)器學(xué)習(xí)的過(guò)程中存在的機(jī)器倫理問(wèn)題?
比如無(wú)人駕駛決策的過(guò)程中存在的一個(gè)無(wú)法避免的問(wèn)題是車的道路左邊是小孩,右邊是老人,此時(shí)車輛無(wú)法避免,必須要做出決策,是老人還是孩子?如果選擇自毀,那么車?yán)镒氖且粋€(gè)孕婦,此時(shí)就牽涉到倫理問(wèn)題。甚至還會(huì)有人說(shuō)人工智能威脅論等等。
很多問(wèn)題,可能并沒(méi)有答案,但是我們必須想過(guò)!今天的學(xué)習(xí)內(nèi)容到此結(jié)束。后續(xù)會(huì)繼續(xù)更新~
最后一句雞湯:知識(shí)的搜索和鏈接能力,是學(xué)習(xí)的核心競(jìng)爭(zhēng)力!
聲明:部分內(nèi)容來(lái)源于網(wǎng)絡(luò),僅供讀者學(xué)習(xí)、交流之目的。文章版權(quán)歸原作者所有。如有不妥,請(qǐng)聯(lián)系刪除。
-
圖像識(shí)別
+關(guān)注
關(guān)注
9文章
520瀏覽量
38272 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132630 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24701
原文標(biāo)題:機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論