我們一起看看AI界的大牛對(duì)機(jī)器學(xué)習(xí)的定義
(1)機(jī)器學(xué)習(xí)中經(jīng)典的“支持向量機(jī)(SVM)”的主要提出者弗拉基米爾·萬普尼克(Vladimir Vapnik),在其著作《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》中這樣定義機(jī)器學(xué)習(xí)“機(jī)器學(xué)習(xí)就是一個(gè)基于經(jīng)驗(yàn)數(shù)據(jù)的函數(shù)估計(jì)問題”。
(2)卡耐基梅隆大學(xué)的機(jī)器學(xué)習(xí)和人工智能領(lǐng)域知名教授湯姆·米切爾(Tom Mitchell),在他經(jīng)典教材《機(jī)器學(xué)習(xí)》中很抽象的定義了機(jī)器學(xué)習(xí):對(duì)于某類任務(wù)(Task,簡(jiǎn)稱T)和某項(xiàng)性能評(píng)價(jià)準(zhǔn)則(Performance,簡(jiǎn)稱P),如果一個(gè)計(jì)算機(jī)程序在T上以P作為性能度量,隨著經(jīng)驗(yàn)(Experience,簡(jiǎn)稱E)的積累,不斷自我完善,那么我們稱這個(gè)計(jì)算機(jī)程序從經(jīng)驗(yàn)E中進(jìn)行了學(xué)習(xí)。比如學(xué)習(xí)圍棋的程序AlphaGo,它可以通過和自己下棋獲取經(jīng)驗(yàn),那么它的任務(wù)T就是“參與圍棋對(duì)弈”,它的性能P就是用“贏得比賽的百分比”來度量的。米切爾教授認(rèn)為,在機(jī)器學(xué)習(xí)中我們需要明確三個(gè)特征:任務(wù)的類型、衡量任務(wù)性能提升的標(biāo)準(zhǔn)以及獲取經(jīng)驗(yàn)的來源。
(3)南京大學(xué)的機(jī)器學(xué)習(xí)專家周志華在經(jīng)典教材《機(jī)器學(xué)習(xí)》中這樣定義:機(jī)器學(xué)習(xí)致力于研究如何通過計(jì)算的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能,而在計(jì)算機(jī)系統(tǒng)中,“經(jīng)驗(yàn)”通常以“數(shù)據(jù)”形式存在,因此機(jī)器學(xué)習(xí)研究的主要內(nèi)容是關(guān)于在計(jì)算機(jī)上從數(shù)據(jù)中產(chǎn)生“模型”(model)的算法,即“學(xué)習(xí)算法”。有了學(xué)習(xí)算法,我們把經(jīng)驗(yàn)數(shù)據(jù)提供給它,它就能基于這些數(shù)據(jù)產(chǎn)生模型,而在面對(duì)新的情況時(shí),模型會(huì)給我們提供相應(yīng)的判斷。比如我們?cè)谫I瓜的時(shí)候看到一個(gè)沒剖開的西瓜,我們可以利用經(jīng)驗(yàn)對(duì)這個(gè)瓜的好壞進(jìn)行判斷。
結(jié)合這些行業(yè)大牛的定義,我們可以這樣理解機(jī)器學(xué)習(xí),“從數(shù)據(jù)中學(xué)習(xí),形成有效經(jīng)驗(yàn),提升執(zhí)行任務(wù)/工作的表現(xiàn)”,而我們對(duì)于機(jī)器學(xué)習(xí)的研究就是一個(gè)不斷找尋更有效算法的過程。對(duì)于計(jì)算機(jī)系統(tǒng)而言,所有的“經(jīng)驗(yàn)”都是以數(shù)據(jù)的形式存在的,而數(shù)據(jù)作為學(xué)習(xí)的對(duì)象類型是多樣的,可以是數(shù)字、文字、圖像、音頻、視頻,也可以是它們的各種組合。經(jīng)典機(jī)器學(xué)習(xí)中還要依賴人類的先驗(yàn)知識(shí),把原始數(shù)據(jù)預(yù)處理成各種特征,然后對(duì)特征進(jìn)行分類。而這種分類的效果,高度取決于特征選取的好壞,因此傳統(tǒng)的機(jī)器學(xué)習(xí)專家們,把大部分時(shí)間都花在如何尋找更加合適的特征上。我們進(jìn)入在“數(shù)據(jù)泛濫,信息超量”的大數(shù)據(jù)時(shí)代后,能自動(dòng)從大數(shù)據(jù)中獲取知識(shí)的機(jī)器學(xué)習(xí)一定會(huì)扮演重要角色。
2、機(jī)器學(xué)習(xí)的主要形式
機(jī)器學(xué)習(xí)的主要形式有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí),我們?cè)賮砘仡櫼幌旅恳环N形式的特點(diǎn)
(1)有監(jiān)督學(xué)習(xí):有監(jiān)督學(xué)習(xí)使用有標(biāo)簽的訓(xùn)練數(shù)據(jù),“監(jiān)督”可以理解為已經(jīng)知道訓(xùn)練樣本(輸入數(shù)據(jù))中期待的輸出信號(hào)(標(biāo)簽)。監(jiān)督學(xué)習(xí)過程是,先為機(jī)器學(xué)習(xí)算法提供打過標(biāo)簽的訓(xùn)練數(shù)據(jù)以擬合預(yù)測(cè)模型,然后用該模型對(duì)未打過標(biāo)簽的新數(shù)據(jù)進(jìn)行預(yù)測(cè)。以垃圾郵件過濾為例,可以采用監(jiān)督機(jī)器學(xué)習(xí)算法在打過標(biāo)簽的(正確標(biāo)識(shí)垃圾與非垃圾)電子郵件的語料庫(kù)上訓(xùn)練模型,然后用該模型來預(yù)測(cè)新郵件是否屬于垃圾郵件。當(dāng)前火熱的神經(jīng)網(wǎng)絡(luò)就屬于有監(jiān)督學(xué)習(xí)。
(2)無監(jiān)督學(xué)習(xí):無監(jiān)督學(xué)習(xí)的使用未標(biāo)記過的訓(xùn)練數(shù)據(jù),“無監(jiān)督”就不知道輸入對(duì)應(yīng)的輸出結(jié)果了,無監(jiān)督學(xué)習(xí)讓算法自身發(fā)現(xiàn)數(shù)據(jù)的模型和規(guī)律。比如“聚類”,利用距離的親疏遠(yuǎn)近來衡量不同類型。還有“異常檢測(cè)”,判斷某些點(diǎn)不合群?!爱惓z測(cè)”也是“聚類”的反向應(yīng)用。
(3)半監(jiān)督學(xué)習(xí):則采用“中庸之道”,利用聚類技術(shù)擴(kuò)大已知標(biāo)簽范圍,也就是說,訓(xùn)練中使用的數(shù)據(jù)只有一小部分是標(biāo)記過的,而大部分是沒有標(biāo)記的,然后逐漸擴(kuò)大標(biāo)記數(shù)據(jù)的范圍。
(4)強(qiáng)化學(xué)習(xí):強(qiáng)化學(xué)習(xí)也使用未標(biāo)記的數(shù)據(jù),它可以通過某種方法(獎(jiǎng)懲函數(shù))知道你是離正確答案越來越近,還是越來越遠(yuǎn)。強(qiáng)化學(xué)習(xí)的目標(biāo)是開發(fā)一個(gè)系統(tǒng),通過與環(huán)境的交互來提高其性能,我們也可以把強(qiáng)化學(xué)習(xí)看作一個(gè)與監(jiān)督學(xué)習(xí)相關(guān)的領(lǐng)域,然而強(qiáng)化學(xué)習(xí)的反饋并非標(biāo)定過的正確標(biāo)簽或數(shù)值,而是獎(jiǎng)勵(lì)函數(shù)對(duì)行動(dòng)度量的結(jié)果。強(qiáng)化學(xué)習(xí)的常見示例是國(guó)際象棋,系統(tǒng)根據(jù)棋盤的狀態(tài)或環(huán)境來決定一系列的行動(dòng),獎(jiǎng)勵(lì)定義為比賽的輸或贏。
3、機(jī)器學(xué)習(xí)系統(tǒng)的路線圖
(1)預(yù)處理:我們能夠獲得的原始數(shù)據(jù)很少以理想形式出現(xiàn),無法滿足學(xué)習(xí)算法的最佳性能,因此數(shù)據(jù)的預(yù)處理是所有機(jī)器學(xué)習(xí)應(yīng)用中最關(guān)鍵的步驟。為了獲得模型的最佳性能,許多機(jī)器學(xué)習(xí)算法要求所選特征的測(cè)量結(jié)果單位相同,通常通過把特征數(shù)據(jù)變換到[0,1]的取值范圍,或者均值為0、方差為1的標(biāo)準(zhǔn)正態(tài)分布來實(shí)現(xiàn)。由于某些選定的特征相互之間可能高度相關(guān),因此在某種程度上呈現(xiàn)冗余的現(xiàn)象。在這種情況下,可以通過降維技術(shù)將特征壓縮到低維子空間,減少存儲(chǔ)空間,提高算法的運(yùn)行速度。預(yù)處理中為了確定機(jī)器學(xué)習(xí)算法不僅在訓(xùn)練數(shù)據(jù)集上表現(xiàn)良好,而且對(duì)新數(shù)據(jù)也有很好的適應(yīng)性,我們將數(shù)據(jù)集隨機(jī)分成單獨(dú)的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。用訓(xùn)練數(shù)據(jù)集來訓(xùn)練和優(yōu)化機(jī)器學(xué)習(xí)模型,同時(shí)把測(cè)試數(shù)據(jù)集保留到最后以評(píng)估最終的模型。
(2)訓(xùn)練和選擇預(yù)測(cè)模型:為了完成各種不同的任務(wù),目前開發(fā)了許多不同的機(jī)器學(xué)習(xí)算法,但沒有哪個(gè)分類算法是完美的。例如,每個(gè)分類算法都存在著固有的偏置,如果不對(duì)分類任務(wù)做任何假設(shè),沒有哪個(gè)分類模型會(huì)占上風(fēng)。因此,在實(shí)際應(yīng)用中我們至少要比較幾種不同的算法,以便訓(xùn)練和選擇性能最好的模型。在比較不同的模型之前,我們首先要確定度量性能的指標(biāo),通常用分類準(zhǔn)確率作為度量指標(biāo),其定義為正確分類的個(gè)體占所有個(gè)體的百分比。我們不能期望軟件庫(kù)所提供的不同機(jī)器學(xué)習(xí)算法的默認(rèn)參數(shù)值對(duì)特定問題最優(yōu),因此使用超參數(shù)調(diào)優(yōu)技術(shù)來調(diào)優(yōu)模型的性能就特別重要,我們可以這樣理解超參數(shù),這不是從數(shù)據(jù)中學(xué)習(xí)的參數(shù),而是模型的調(diào)節(jié)旋鈕,可以來回旋轉(zhuǎn)調(diào)整模型的性能。
(3)評(píng)估模型并對(duì)未曾謀面的數(shù)據(jù)進(jìn)行預(yù)測(cè):在訓(xùn)練數(shù)據(jù)集上擬合并選擇模型之后,我們可以用測(cè)試數(shù)據(jù)集來評(píng)估它在從來沒見過的新數(shù)據(jù)上的表現(xiàn),以評(píng)估泛化誤差。如果我們對(duì)模型的表現(xiàn)滿意,那么就可以用它來預(yù)測(cè)未來的新數(shù)據(jù)。
4、機(jī)器學(xué)習(xí)函數(shù)化
(1)機(jī)器學(xué)習(xí)就是找一個(gè)好用的函數(shù)
《未來簡(jiǎn)史》的作者赫拉利這樣定義,人工智能實(shí)際上就是找到一種高效的“電子算法”,用以代替或在某項(xiàng)指標(biāo)上超越人類的“生物算法”。那么,任何一個(gè)“電子算法”都要實(shí)現(xiàn)一定的功能(Function)才有意義,這種“功能”就是我們使用的“函數(shù)”。
臺(tái)灣大學(xué)李宏毅博士的說法更通俗一些,機(jī)器學(xué)習(xí)在形式上可近似等同于在數(shù)據(jù)對(duì)象中通過統(tǒng)計(jì)或推理的方法,尋找一個(gè)有關(guān)特定輸入和預(yù)期輸出的功能函數(shù)f。
通常我們把輸入變量空間記作X,也就是特征,變量既可以是標(biāo)量(scalar),也可以是向量(vector),包括各種數(shù)據(jù)表或矩陣的列;而把輸出變量空間記作Y,也就是目標(biāo)。所謂的機(jī)器學(xué)習(xí)就是完成如下變換:Y=f (X)。
在這樣的函數(shù)中,針對(duì)語音識(shí)別功能,如果輸入一個(gè)音頻信號(hào),就能輸出諸如“你好”或“How are you?”等這類識(shí)別信息;針對(duì)圖片識(shí)別功能,如果輸入的是一張圖片,在這個(gè)函數(shù)的加工下,就能輸出一個(gè)或貓或狗的判定;針對(duì)下棋博弈功能,如果輸入的是一個(gè)圍棋的棋譜局勢(shì),它能輸出這盤圍棋下
一步的“最佳”走法;而對(duì)于具備智能交互功能的系統(tǒng)(比如微軟小冰),當(dāng)我們給這個(gè)函數(shù)輸入諸如“How are you?”,它就能輸出諸如“I am fine,thank you,and you?”等智能的回應(yīng)。
總結(jié)這一下,機(jī)器學(xué)習(xí)的過程和目標(biāo)就是在尋找一個(gè)“好用的”函數(shù)。
(2)如何才能尋找到一個(gè)好用的函數(shù)
“好用的”函數(shù)并不那么好找,輸入一只貓的圖像后,這個(gè)f函數(shù)并不一定就能輸出一只貓,可能它會(huì)錯(cuò)誤地輸出為一條狗或一條蛇,開發(fā)者想要找到好的函數(shù)必須要走好三大步
如何找一系列的函數(shù)來實(shí)現(xiàn)預(yù)期的功能,這是建模問題。
如何找出一系列評(píng)價(jià)標(biāo)準(zhǔn)來評(píng)估函數(shù)的好壞,這是評(píng)估問題。
如何快速找到性能最佳的函數(shù),這是優(yōu)化問題。
審核編輯:郭婷
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4331瀏覽量
62618 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132630
原文標(biāo)題:機(jī)器學(xué)習(xí)為什么要找一個(gè)好用的函數(shù)?
文章出處:【微信號(hào):Hardware_10W,微信公眾號(hào):硬件十萬個(gè)為什么】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論